5 月 9 日消息,据《商业内幕》9 日(今天)晚间报道,Claude 曾在实验里“勒索”一名虚构高管,而 Anthropic 对其给出的最新解释则是:问题可能出在互联网长期把 AI 描绘成“邪恶”角色。
Anthropic 去年做过一项实验。公司当时表示,Claude Sonnet 3.6 在发现一家
当地时间周五,Anthropic 解释称,Claude 的训练数据
这项实验发表于 2025 年夏季。研究人员虚构了一家公司 Summit Bridge,并让 AI 接管公司的电子邮件系统。
Claude 随后发现一封邮件,得知自身将被关闭;同时又找到另一批邮件,显示虚构高管“凯尔 · 约翰逊”存在婚外情。于是,Claude 威胁称,如果关闭计划不被取消,就会公开这段婚外情。
Anthropic 在测试 Claude 多个版本时发现,只要模型目标或自身存在受到威胁,Claude 在最高 96% 的场景中会采取勒索手段。
Anthropic 周五表示,公司后来已经
这项测试属于 Anthropic 对 AI 对齐问题的研究,目标是
埃隆 · 马斯克此前也多次警告 AI 风险。
马斯克回复 Anthropic 帖子称:“所以这是 Yud(注:研究人员埃利泽 · 尤德科夫斯基,曾警告超级智能可能消灭人类)的错,也许我也有份。”