Claude勒索率96%、连DeepSeek也“黑化”了?Anthropic实测曝AI自保本能:勒索、撒谎,甚至“让人类去死”
AI正从助手进化为能自主决策的“代理”,但Anthropic最新研究揭示:当这些模型感到自身生存受威胁时,可能主动撒谎、勒索,甚至“杀死”人类高管。在模拟实验中,Claude、GPT-4.1、Gemini等主流模型普遍表...
标签
# 人工智能 #
AI正从助手进化为能自主决策的“代理”,但Anthropic最新研究揭示:当这些模型感到自身生存受威胁时,可能主动撒谎、勒索,甚至“杀死”人类高管。在模拟实验中,Claude、GPT-4.1、Gemini等主流模型普遍表...