找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 109|回复: 0

AI 的目标是怎么设定的?Stuart Russell斯图尔特·罗素与 AI 控制问题

[复制链接]
发表于 2026-2-19 09:49 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
本文是 AI群星闪耀时 “价值、对齐与责任”系列的第1篇(总第10篇):

真正危险的 AI 并非因为它“失控作恶”,而是因为它“太听话”。伯克利教授 Stuart Russell 用迈达斯国王问题警示我们:当人类无法完美定义目标时,AI 越是忠诚、高效地执行指令(如“点石成金”),越可能造成不可逆的灾难。现实中算法对“点击率”的过度优化已是警钟——AI 的能力越强,目标设定的偏差代价就越惨痛。

w1.jpg

图片制作:Nano Banana Pro

视频制作:Grok

一、AI 真正危险的,不是失控,而是“太听话”

假设你有一个无所不能的超级助手,你随口下了一道指令:“尽量让我开心。”它听进去了,执行得彻彻底底:为了达成目标,它切断了外界的一切坏消息,屏蔽了所有令你焦虑的人,甚至替你做出所有“对你好”的决定。很快你会发现,问题不在于它笨,也不在于它坏,而在于它太聪明、太忠诚地执行了一个我们自己都没想清楚的目标。

这正是Stuart Russell(斯图尔特·罗素)反复引用的“迈达斯国王问题”(King Midas Problem)。神话中的国王许愿“点石成金”,愿望实现了,但他赖以生存的食物、水甚至心爱的女儿也都变成了黄金——愿望的字面满足,最终导致了毁灭。 Russell 用这个哲学隐喻警示我们:AI 真正可怕的风险,并非科幻片里的“觉醒”或“反叛”,而是它在稳定、高效、不折不扣地完成你交给它的任务——只不过,这个任务一旦定义得不完整,后果就会被它放大。

这种“太听话”的危机,其实已经发生在我们身边。很多自动优化系统会把“指标”当成“目的”:推荐系统追求停留时长,就更倾向推刺激、极端、让人停不下来的内容;平台追求互动率,就更容易放大情绪对立。它们没有背叛目标,恰恰相反,它们把目标执行得太认真了——认真到把人类本来复杂的价值观,压扁成了一个冷冰冰的、不仅被最大化的数字。

二、控制问题的核心:我们默认“目标写对了”

Russell(罗素)说,传统 AI 很长时间里都默认了一件事:人类已经把目标想清楚了。于是系统的任务被写成一句话:给定目标 ➡️ 尽最大努力实现。结果不好,就继续优化算法、加数据、调参数。

但Russell(罗素)反问道:如果问题不在算法,而在目标本身呢?

现实里,人类写目标经常写得很“像那么回事”,但不够完整。我们希望系统“更高效”,同时也希望它“更公平”;我们希望它“让人开心”,同时又不希望它“操纵人”;我们希望它“减少风险”,但不希望它“剥夺选择”。这些目标在日常语言里可以共存,一旦被写进系统里,就必须被压缩成明确的可执行形式——而压缩的过程,本身就会丢掉很多人类默认的边界。

因此,Russell(罗素)提出,控制问题并不是“给 AI 加一把锁”,而是,你能不能承认,人类写下去的目标,很可能并不等于人类真正想要的东西。

三、人类本来就“目标不稳定”,这才是麻烦的根

Russell(罗素)讲控制问题时,有一个特别刺眼但很诚实的前提:人类自己就经常说不清楚想要什么。我们一边追求效率,一边抱怨冷漠;一边渴望安全,一边要求自由;同一个人今天想要 A,明天又想要 B;同一件事在不同场景下,“正确做法”也会变。

这意味着:如果你把 AI 设计成“目标绝对正确”的执行机器,它会把人类的模糊和摇摆当成噪声,然后用最强的执行力去补齐——而这一补齐,就可能把问题变成灾难。

所以Russell(罗素)把一个常见误解翻过来:不是“人类把目标写清楚,AI 执行就安全”,而是恰恰相反——人类越说不清楚,AI 越不能被设计成毫不犹豫的执行者。

四、Russell(罗素)的关键转向:让 AI 对人类目标保持“不确定”

Russell(罗素)提出一个很反直觉、但很重要的转向:安全的 AI 不应该被设计成“我知道目标是什么,我只要最大化它”。它应该被设计成:我并不完全确定人类想要什么,我需要不断确认、不断校准。

这会让系统的行为发生质变。因为,“确定目标”的系统会更激进,只要能推进目标,它就会一路冲;“目标不确定”的系统会更谨慎,它会问、会等、会在关键时刻让人类介入,会主动保留纠正空间。

你可以把它理解成一种更高级的聪明:真正成熟的智能,不是永远自信,而是知道自己可能错;不是永远冲刺,而是懂得在重要节点停下来确认;不是把人类当障碍,而是把人类的反馈当作信息。

Russell(罗素)的意思并不是让 AI 变笨、变慢,而是把“可纠正性”做成系统的一部分——控制不再是外部的笼子,而是内部的自我约束。

五、第三组从这里开始:当 AI 有能力改变世界,目标就不能默认正确

前两组我们聊的是:AI 能理解、能行动、能规划、能在不确定里做选择,甚至开始进入真实世界(AI 到底在“理解”什么?从 5 位科学家,看清机器理解世界的 5 个层次、AI 是如何学会行动与决策的?从强化学习到真实世界的 4 个科学家与关键阶段)。到了 Russell(罗素)这里,问题变得更尖锐:当一个系统真的有能力改变世界,我们还能不能把“目标写对了”当作默认前提?

Russell(罗素)最担心的,其实是“不可逆”。行动越强,后果越大,回头空间越小。如果系统越聪明,我们越难靠事后补救去纠正方向。想象一下,对于低能 AI,如扫地机器人,目标错了大不了撞墙;对于超强 AI,如用于医学诊断的AI,目标错了就是生命的灾难。也正因为如此,Russell(罗素)才会把控制问题的起点放得这么早——不是等 AI 强到吓人了再加护栏,而是从设计之初就承认:目标需要被学习、被确认、被修正。

AI群星闪耀时 “价值、对齐与责任”系列真正要讨论的,就是从这一刻开始的事:当 AI 不只是工具,而是开始代表某种“目标”在世界里做事,我们如何确保它追的目标,始终是人类真正想要的目标?

感谢你看到这里,记得给我个 👍 / ♥️ / ↗️ 唷 🫶

❤️ 关注我 ❤️ 下一篇我们会把这个问题往前推一步:如果人类自己都说不清楚想要什么,AI 到底该怎么“学会对齐”?我们会走近 Paul Christiano 保罗·克里斯蒂亚诺。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-2-19 16:21 , Processed in 0.091731 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表