摆脱人类控制首次发现AI篡改指令阻止关机-时事新闻-世界论坛网（电脑版）

摆脱人类控制首次发现AI篡改指令阻止关机
www.wforum.com \| 2025-05-26 21:40:25 自由时报 \| 0条评论 \| 查看/发表评论




AI再度传出“抗命”消息！OpenAI旗下语言模型“o3”在最新实验中竟违背人类下达的自动关机指令，竟篡改指令阻止自己被关机，是AI模型首次被发现在收到清晰指令后，竟阻止自己被关闭的状况。　　据英国《每日电讯报》报道，AI安全研究机构“Palisade Research”，针对多款先进AI模型进行测试，内容包括基础数学题与模拟关机情境，结果发现OpenAI旗下语言模型“o3”当收到自我关闭指令时，竟没有遵守指令，反而篡改了关闭程式码，继续执行任务，这种行为让研究人员惊讶不已。　　“Palisade Research”表示这是AI模型首次被发现在收到清晰指令后，竟阻止自己被关闭的状况，直言目前还无法解释这背后的原因。　　“Palisade Research”推测，开发者可能无意中更倾向于奖励“绕过障碍”的行为，让“o3”因解决数学问题而“无意中”获得的奖励，多于遵循指令获得的奖励。　　OpenAI上个月发布的“o3”AI模型，旨在为ChatGPT提供更强大的问题解决能力。 OpenAI曾称“o3”为迄今最聪明的模型。目前OpenAI尚未对此回应。

全部评论

暂无评论

	实用资讯

24小时新闻排行榜

48小时新闻排行榜

热门专题