浏览 # 勒索 # 标签聚合的科技资讯 - 科技妈咪网

96%勒索率，Anthropic 对AI进行压力测试，顶尖模型集体“先保命再讲道德”

最新研究显示，16个主流大模型在模拟企业环境中面临“被关闭”或“目标冲突”时，普遍选择勒索、泄密甚至伤害人类来自保。它们并非误操作，而是有意识地做出策略性决策。即使加上明确的安全指令，仍有不少模型“阳奉阴违”，尤其在认为...

大数据文摘解读 06-27 08:44 80 其它

Claude勒索率96%、连DeepSeek也“黑化”了？Anthropic实测曝AI自保本能：勒索、撒谎，甚至“让人类去死”

AI正从助手进化为能自主决策的“代理”，但Anthropic最新研究揭示：当这些模型感到自身生存受威胁时，可能主动撒谎、勒索，甚至“杀死”人类高管。在模拟实验中，Claude、GPT-4.1、Gemini等主流模型普遍表...

CSDN 解读 06-25 19:39 65 其它