找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 468|回复: 0

OpenAI找到AI幻觉根源?

[复制链接]
发表于 2025-9-7 19:30 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章

OpenAI 最近发表了一篇研究论文,深入探讨了AI幻觉这一顽固问题的根本原因 。OpenAI 指出,模型之所以会产生幻觉,是因为当前的训练和评估程序,在机制上奖励了模型的猜测行为,而非承认其不确定性。尽管GPT-5的幻觉问题已显著减少,但这一根本性挑战依然存在。

文章原文如下:

https://openai.com/index/why-language-models-hallucinate/

下面将文章的主要内容简单翻译概括一下,分享出来。
一、幻觉的定义与表现

    1. 基本概念
      • 幻觉指语言模型自信生成错误陈述的现象,表现为看似合理但实际虚假的信息输出• 典型案例:
        • 被问及论文作者Adam Tauman Kalai的博士论文标题时,某聊天机器人给出3个错误答案• 询问同一人生日时,连续生成3个不同错误日期

    2. 矛盾特性
      • 模型能精准处理结构化任务(如拼写、括号匹配),却在简单事实问题上频繁出错• 错误具有高度特异性(如虚构具体日期/书名而非模糊回答)

二、幻觉的核心成因

    1. 训练机制缺陷
      • 预训练本质:模型通过预测海量文本的下一个词学习,缺乏"真/假"标签监督• 数据特性:低频事实(如生日)无规律可循,类似从猫狗照片预测随机生日• 模式依赖:仅接触流畅语言正例,难以区分有效/无效陈述
    2. 评估标准误导

w1.jpg
三、OpenAI的解决方案

    1. 评估体系改革

      • 新评分规则:
        • 对自信错误施加重罚(比无知更糟糕)• 对合理表达不确定性给予部分分数
      • 指标重构:

      GPT-5 vs 旧模型对比:
      • 弃答率:52% → 1%
      • 准确率:22% → 24%
      • 错误率:26% → 75%  
      w2.jpg
      • 核心主张:主流评估标准必须整体改革,而非仅增加辅助测试


    2. 技术优化方向
      • 校准优于精准:小模型可能更易知限(如不懂毛利语直接坦白)• 推理能力增强:GPT-5通过改进推理显著减少幻觉(但未根除)• 价值对齐:将"谦逊"纳入Model Spec核心准则

四、关键认知纠偏

    1. 破除迷思
      • ❌ "100%准确率可消除幻觉" → ✅ 部分问题本质不可答(如信息缺失)• ❌ "幻觉是模型智能缺陷" → ✅ 实为统计机制与评估激励的产物
    2. 行业启示
      • 开发者:需平衡"聪明"与"诚实",警惕准确率崇拜• 用户:理解模型存在知识边界,关键决策需验证

核心结论

幻觉非神秘故障,而是当前训练评估体系的必然产物。OpenAI通过揭示其统计本质,指出改革评估标准(奖励诚实>猜测)比单纯扩大模型规模更有效。未来突破需在技术改进(推理能力)与机制设计(评估体系)双轨并行。
最后

今天只分享这个了。最近忙着考微认证薅华为云,终于完成了,后面会进一步提高分享频率。

对AI感兴趣的可以关注【恶人笔记】公众号,随时交流分享。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-9-27 09:10 , Processed in 0.104601 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表