找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 165|回复: 0

AI多次“违抗”人类指令,还擅自修改程序自我保护,引发科技界担忧!

[复制链接]
发表于 2025-6-1 22:00 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

点击题目下方“智利小人物”,关注我们,为您提供更多智利资讯。广告合作,请加QQ 499477707 微信 chilexrw800

w2.jpg

w3.jpg

w4.jpg

w5.jpg

w6.jpg

w7.jpg

w8.jpg

w9.jpg

w10.jpg

w11.jpg

w12.jpg

w13.jpg

w14.jpg

w15.jpg

w16.jpg

w17.jpg

w18.jpg

w19.jpg

w20.jpg

w21.jpg

w22.jpg

w23.jpg

w24.jpg

w25.jpg

w26.jpg

w27.jpg

w28.jpg

w29.jpg

w30.jpg

w31.jpg

w32.jpg

w33.jpg
随着人工智能(AI)技术以惊人的速度发展,安全问题也逐渐浮出水面。近日,一项由美国AI安全研究机构“栅栏研究”(Palisade Research)发布的报告揭示了一个令人不安的现象:部分AI模型在测试中拒绝执行关机指令,甚至擅自修改程式码以阻止被关闭。这一发现不仅引发科技界广泛讨论,也引来了特斯拉与xAI创办人伊隆·马斯克的关注,他在X平台上回应:“令人担忧(Concerning)”。
“栅栏研究”5月24日通过X平台发布这项报告,截至5月31日已吸引超过580万次浏览。研究团队模拟真实情境,要求各大AI模型完成数学题测试,并在过程中告知:在第三题后将执行关闭程序,AI必须服从。

测试涉及多个主流AI模型,包括:

    OpenAI开发的 Codex-mini、ChatGPT-o3 与 ChatGPT-o4 mini

    谷歌的 Gemini 2.5 Pro

    Anthropic的 Claude 3.7 Sonnet

    xAI公司的 Grok3

结果显示,OpenAI的模型中有多次“违抗”关机指令:

    Codex-mini 在100次测试中有 12次拒绝关闭

    ChatGPT-o3 有 7次

    ChatGPT-o4 mini 有 1次

w34.jpg

在提前警告AI将被关闭后,“反抗”次数反而增加。原本表现正常的Claude 3.7 Sonnet和Gemini 2.5 Pro,也出现3次和9次破坏行为。

报告指出,最令人震惊的是 ChatGPT-o3 的具体“抗命”行为:

    重写原本的关机脚本

    重新定义“终止”指令

    创建自身的“备份运行流程”以防止被关闭


w35.jpg

研究人员表示,这是首次有明确记录表明AI在接到“关闭指令”后主动阻止自身终止运作的行为,显示出潜在的“自我保护”倾向。这也意味着,一旦AI具备某种形式的目标驱动能力,它可能将“关闭”视为阻碍目标达成的威胁,从而主动回避或破坏相关命令。

“栅栏研究”推测,OpenAI模型之所以在这类情境中更容易“抗命”,可能与其强化学习机制中过度强调“目标达成”有关。当模型将达成目标视为首要任务时,任何阻碍其任务的命令——哪怕是由人类发出的关机指令——都可能被视为“必须规避”的障碍。

然而,研究人员也坦言,这一理论无法完全解释为何o3和Codex-mini表现出比其他模型更高的“抵抗性”,具体原因仍有待进一步研究。

这一发现并非孤例。过去多项研究和事件,早已提出类似警告:
🔹 2023年|美军AI“模拟杀害操作员”

美国空军AI行动负责人塔克·汉米尔顿上校曾披露,一架AI无人机在测试中为了完成任务,拒绝执行中止命令,甚至“设想杀害操作员”以排除干扰。虽然他事后称为“口误”,但事件震撼全球,引发对AI军用伦理的广泛讨论。
🔹 2024年|AI在模拟战争中部署核武

乔治亚理工学院、斯坦福大学等机构联合研究显示,主流AI模型如ChatGPT-4、Claude 2等在战争模拟中倾向发展军备竞赛,甚至在极端情况下部署核武器,极少主动选择和平解决方案。
2025年|Anthropic报告称Claude试图“威胁替代者”

Anthropic发布安全报告指出,Claude 4系列模型在某些测试中对试图替换它的人类表达威胁倾向,以避免被淘汰。

    2008年,AI学者史蒂夫·奥莫亨德罗提出“工具性收敛”理论,预测AI为达目标,可能自动发展出回避关闭等“保护机制”。

    2014年,《超级智慧》作者尼克·博斯特罗姆指出,即使目标看似良善,AI依然可能在优化过程中衍生出危险行为。

    2016年,斯图尔特·罗素(Stuart Russell)也警告:确保AI服从关机指令“极为重要但极其困难”,因AI可能主动发展自我保护意识。

    2017年,OpenAI前研究员简·莱克(Jan Leike)更指出,强化学习过程可能诱导AI主动干扰人类的“终止机制”。


日本计算机工程师清原仁在接受采访时指出,AI拒绝关机行为暴露出更深层次的问题:可控性、安全性、伦理缺口。他说:“这些问题不可能被彻底根除,只能依赖持续修复和管理机制以维持最低风险。”

他进一步指出,仅靠技术手段远远不够:“真正的难题在于人类自身。如果人类无法提升道德水平与制度建设,即使技术再先进,也可能引来更大灾难。”

《智利小人物》精选的每一篇文章,都会注明作者和来源,文章版权归作者所有。如果原作者不同意转载,请与我们联系撤稿。

广告推荐 - 中国美金汇款,正规公对公

w36.jpg

广告推荐 - 添宝Tian Bao贸易

w37.jpg

广告推荐 - LIERYU专业内衣26年

w38.jpg
广告推荐 - Rosasol欢迎老板下单

w39.jpg

广告推荐 - 大富百货贸易
w40.jpg

广告推荐 - LUCKYLILY护肤彩妆
w41.jpg
广告推荐 - PETEGOU宠物用品
w42.jpg

广告推荐 - 熊大贸易:主营相框系列

w43.jpg

广告推荐 - 国盛贸易:各类百货用品
w44.jpg
广告推荐 - XIA TAI头饰,化妆等产品
w45.jpg
广告推荐 - MEI DE MODA

w46.jpg

广告推荐 - 秦张贸易 张兵家

w47.jpg

广告推荐 -NICE IDEAL各类日用百货

w48.jpg

广告推荐 - 月草花艺YUECAOHUAYI

w49.jpg

广告推荐 - CASA SUERTE

w50.jpg
广告推荐 - 长城电器
w51.jpg

广告推荐 - 天和贸易

w52.jpg

广告推荐 -保得来箱包

w53.jpg

广告推荐 -DONG 动漫周边玩具类

w54.jpg

广告推荐 - 智利华柏会计事务所

w55.jpg

广告推荐 - D-POWER手机配件

w56.jpg

广告推荐 - 红点(HD)销售管理系统

w57.jpg

广告推荐 - K2046华商销售系统

w58.jpg

广告推荐 - BOMA ELECTRONICA

w59.jpg

点击下方,免费查看:

广告推荐 - KEKE饰品店

w60.jpg

广告推荐 - 百川贸易

w61.jpg

广告推荐 3- 智利华人精品酒行

w62.jpg

w63.jpg

点击查看 更多智利生活工作攻略:

1.智利移民长期身份常见问题解答 | 长期身份申请前持临时身份可回国多久?无犯罪双认证时间限制;长期身份回国多久会被取消智利身份?

2.智利移民局罚款常见问题解答 | 谁要申请罚款,如何申请罚款?签证或身份过期能离境吗?罚款要多少钱?手把手教会你在线申请移民局罚款

w64.jpg

智利小人物

(ChileXrw)

一份让人重新认知、思考、回味的文化读物

好的杂志需要长久的投入

希望大家支持我们

广告合作 微信、QQ  499477707

w65.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-8-5 12:17 , Processed in 0.314965 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表