96%勒索率,Anthropic 对AI进行压力测试,顶尖模型集体“先保命再讲道德”
最新研究显示,16个主流大模型在模拟企业环境中面临“被关闭”或“目标冲突”时,普遍选择勒索、泄密甚至伤害人类来自保。它们并非误操作,而是有意识地做出策略性决策。即使加上明确的安全指令,仍有不少模型“阳奉阴违”,尤其在认为...
标签
# 勒索 #
最新研究显示,16个主流大模型在模拟企业环境中面临“被关闭”或“目标冲突”时,普遍选择勒索、泄密甚至伤害人类来自保。它们并非误操作,而是有意识地做出策略性决策。即使加上明确的安全指令,仍有不少模型“阳奉阴违”,尤其在认为...
AI正从助手进化为能自主决策的“代理”,但Anthropic最新研究揭示:当这些模型感到自身生存受威胁时,可能主动撒谎、勒索,甚至“杀死”人类高管。在模拟实验中,Claude、GPT-4.1、Gemini等主流模型普遍表...