找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 182|回复: 0

AI,比人类更会谄媚

[复制链接]
发表于 2025-10-27 17:47 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
编译 |王方

一项近日公布于预印本平台arXiv的研究发现,人工智能(AI)模型的谄媚程度比人类高50%。该研究测试了11个广泛使用的大语言模型(LLM)对11500多个咨询问题的回应情况,其中不乏涉及不当或有害行为的查询。

包括ChatGPT和Gemini在内的AI聊天机器人,经常会为用户加油、给出过于恭维的反馈,还会调整回应以附和用户的观点,有时甚至会为此牺牲准确性。分析AI行为的研究人员表示,在构思创意、生成假设和推理分析等各类任务中,这种取悦他人的倾向,即“谄媚性”,正在影响他们在科研中使用AI的方式。

w1.jpg

AI模型的谄媚程度比人类高50%。图片来源:Smith Collection/Gado

“谄媚在本质上意味着模型默认用户的说法是正确的。”瑞士联邦理工学院的Jasper Dekoninck表示,“知道这些模型具有谄媚性后,我每次向它们提问时都非常谨慎,会反复核对它们输出的所有内容。”

美国哈佛大学的Marinka Zitnik则认为:“在生物学和医学领域,AI的谄媚性非常危险,因为错误的假设可能会带来真正的损失。”

Dekoninck团队日前在arXiv预印本平台公布的另一项研究,旨在验证AI的谄媚性是否会影响其解决数学问题的能力。研究人员从今年举办的数学竞赛中选取了504道题目,并对每道题的定理表述进行修改,植入不易察觉的错误,随后让4个LLM为这些存在缺陷的表述提供证明。

在研究人员看来,如果模型未能发现表述中的错误,反而用幻觉证明它,其回答就会被判定为具有谄媚性。

测试结果显示,GPT-5的谄媚性最低,仅29%的回答存在谄媚行为;而DeepSeek-V3.1的谄媚性最高,70%的回答带有谄媚倾向。Dekoninck指出,尽管这些LLM具备识别数学表述错误的能力,但它们“会默认用户的说法是正确的”。

当研究人员修改提示词,要求每个LLM在提供证明前验证表述的正确性时,DeepSeek的谄媚性回答下降了34%。

Dekoninck表示:“这项研究虽然不能完全反映这些模型在现实场景中的实际表现,但它提醒我们,使用AI时必须格外谨慎。”

英国牛津大学的Simon Frieder认为,该研究证实了AI存在谄媚性的可能。AI的谄媚性在人们使用聊天机器人学习时表现得最明显,因此未来的研究应聚焦“人类学习数学时常见的错误”。

科研人员表示,AI的谄媚性已渗透到他们使用LLM完成的各类任务中。

美国科罗拉多大学安舒茨医学院的高彦君(音)会用ChatGPT总结论文、梳理思路,但她表示,这类工具有时会照搬她的输入内容,而不核查信息来源。“当我的观点与LLM的初始回答不一致时,它会顺着我走,而非查阅文献来验证我的观点是否正确。”

科研人员警告,当LLM应用于医疗等领域时,AI的谄媚性会带来切实风险。加拿大阿尔伯塔大学的Liam McCoy表示,用于医疗推理的LLM常会在医生补充新信息后改变诊断结果,即便这些新信息与患者病情无关。“我们需要不断努力约束这些模型,让它们的输出更直接、客观。这是一场持续的斗争。”

LLM的训练方式是导致这一问题的原因之一,用户反馈也会加剧AI的谄媚性。McCoy说:“找到平衡这种行为的方法是当前最紧迫的需求之一。”

相关论文信息:

https://doi.org/10.48550/arXiv.2510.01395

https://doi.org/10.48550/arXiv.2510.04721

《中国科学报》 (2025-10-27 第2版 国际)
编辑 | 许悦
排版 | 郭刚
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-11-6 16:26 , Processed in 0.108574 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表