AI,比人类更会谄媚

多客科技 · 发表于 2025-10-27 17:47

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
编译｜王方

一项近日公布于预印本平台arXiv的研究发现，人工智能（AI）模型的谄媚程度比人类高50%。该研究测试了11个广泛使用的大语言模型（LLM）对11500多个咨询问题的回应情况，其中不乏涉及不当或有害行为的查询。

包括ChatGPT和Gemini在内的AI聊天机器人，经常会为用户加油、给出过于恭维的反馈，还会调整回应以附和用户的观点，有时甚至会为此牺牲准确性。分析AI行为的研究人员表示，在构思创意、生成假设和推理分析等各类任务中，这种取悦他人的倾向，即“谄媚性”，正在影响他们在科研中使用AI的方式。

AI模型的谄媚程度比人类高50%。图片来源：Smith Collection/Gado

“谄媚在本质上意味着模型默认用户的说法是正确的。”瑞士联邦理工学院的Jasper Dekoninck表示，“知道这些模型具有谄媚性后，我每次向它们提问时都非常谨慎，会反复核对它们输出的所有内容。”

美国哈佛大学的Marinka Zitnik则认为：“在生物学和医学领域，AI的谄媚性非常危险，因为错误的假设可能会带来真正的损失。”

Dekoninck团队日前在arXiv预印本平台公布的另一项研究，旨在验证AI的谄媚性是否会影响其解决数学问题的能力。研究人员从今年举办的数学竞赛中选取了504道题目，并对每道题的定理表述进行修改，植入不易察觉的错误，随后让4个LLM为这些存在缺陷的表述提供证明。

在研究人员看来，如果模型未能发现表述中的错误，反而用幻觉证明它，其回答就会被判定为具有谄媚性。

测试结果显示，GPT-5的谄媚性最低，仅29%的回答存在谄媚行为；而DeepSeek-V3.1的谄媚性最高，70%的回答带有谄媚倾向。Dekoninck指出，尽管这些LLM具备识别数学表述错误的能力，但它们“会默认用户的说法是正确的”。

当研究人员修改提示词，要求每个LLM在提供证明前验证表述的正确性时，DeepSeek的谄媚性回答下降了34%。

Dekoninck表示：“这项研究虽然不能完全反映这些模型在现实场景中的实际表现，但它提醒我们，使用AI时必须格外谨慎。”

英国牛津大学的Simon Frieder认为，该研究证实了AI存在谄媚性的可能。AI的谄媚性在人们使用聊天机器人学习时表现得最明显，因此未来的研究应聚焦“人类学习数学时常见的错误”。

科研人员表示，AI的谄媚性已渗透到他们使用LLM完成的各类任务中。

美国科罗拉多大学安舒茨医学院的高彦君（音）会用ChatGPT总结论文、梳理思路，但她表示，这类工具有时会照搬她的输入内容，而不核查信息来源。“当我的观点与LLM的初始回答不一致时，它会顺着我走，而非查阅文献来验证我的观点是否正确。”

科研人员警告，当LLM应用于医疗等领域时，AI的谄媚性会带来切实风险。加拿大阿尔伯塔大学的Liam McCoy表示，用于医疗推理的LLM常会在医生补充新信息后改变诊断结果，即便这些新信息与患者病情无关。“我们需要不断努力约束这些模型，让它们的输出更直接、客观。这是一场持续的斗争。”

LLM的训练方式是导致这一问题的原因之一，用户反馈也会加剧AI的谄媚性。McCoy说：“找到平衡这种行为的方法是当前最紧迫的需求之一。”

相关论文信息：

https://doi.org/10.48550/arXiv.2510.01395

https://doi.org/10.48550/arXiv.2510.04721

《中国科学报》 (2025-10-27 第2版国际)
编辑 | 许悦
排版 | 郭刚

账号		自动登录	找回密码
密码			注册

萍聚头条

AI,比人类更会谄媚

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块