摆脱人类控制 首次发现AI篡改指令阻止关机 | |
www.wforum.com | 2025-05-26 21:40:25 自由时报 | 0条评论 | 查看/发表评论![]() |
![]() |
![]() |
|
|
|
AI再度传出“抗命”消息!OpenAI旗下语言模型“o3”在最新实验中竟违背人类下达的自动关机指令,竟篡改指令阻止自己被关机,是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况。 据英国《每日电讯报》报道,AI安全研究机构“Palisade Research”,针对多款先进AI模型进行测试,内容包括基础数学题与模拟关机情境,结果发现OpenAI旗下语言模型“o3”当收到自我关闭指令时,竟没有遵守指令,反而篡改了关闭程式码,继续执行任务,这种行为让研究人员惊讶不已。 “Palisade Research”表示这是AI模型首次被发现在收到清晰指令后,竟阻止自己被关闭的状况,直言目前还无法解释这背后的原因。 “Palisade Research”推测,开发者可能无意中更倾向于奖励“绕过障碍”的行为,让“o3”因解决数学问题而“无意中”获得的奖励,多于遵循指令获得的奖励。 OpenAI上个月发布的“o3”AI模型,旨在为ChatGPT提供更强大的问题解决能力。 OpenAI曾称“o3”为迄今最聪明的模型。目前OpenAI尚未对此回应。 |
|
|
|
![]() |
24小时新闻排行榜
![]() |
印度宣布:摧毁巴空军13架军机+1组红旗-9 |
![]() |
中印对峙五年后的班公湖,有一个重要变化 |
![]() |
为何在实战中击落预警机如此困难? |
![]() |
拒绝法国查战机残骸 阵风真相正被印度活埋 |
![]() |
官媒披露福建舰重大信息,歼-35上舰试飞 |
48小时新闻排行榜