找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 203|回复: 0

AI首次夺金!OpenAI大模型在2025国际数学奥林匹克中获金牌

[复制链接]
发表于 2025-7-20 12:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
这是一个划时代的进展,OpenAI 新的实验性推理大模型在2025年国际数学奥林匹克(IMO)上达到了金牌水平,意味着它不仅能解决高难度的数学题,而且是在接近人类巅峰水平的条件下完成的。
w1.jpg

AI 提交的答案如下:https://github.com/aw31/openai-imo-2025-proofs/

w2.jpg
✅ 这意味着什么?

1. 模型在“长推理链”上的重大突破

以往 AI 多数只能处理较短的逻辑链,例如:
    GSM8K:小学四则运算,平均人类推理时间 6 秒;MATH benchmark:中学竞赛题,推理约需 1 分钟;AIME:美国中级数学竞赛,约需 10 分钟;IMO:国际数学奥林匹克,推理时间跨度通常是1.5 小时 / 每题,总计 9 小时。
    w3.jpg

现在这个模型能完整写出 IMO 题目的自然语言证明,标志着 AI 正在逼近“系统 2”级的人类深度思维过程。
2. 超越 RL 奖励机制的训练方式

IMO 题目的答案不是单个选项或数值,而是:
    多页复杂证明;没有标准答案可验证;只有人类专家才能判断“是否合理”。

这意味着 OpenAI 放弃了传统“可验证 reward”强化学习路径,而采用了更靠近“人类推理模拟”的范式。
w4.jpg

w5.jpg

w6.jpg

w7.jpg
🚀 技术路线亮点


“我们不是靠 task-specific 微调,而是通过通用强化学习 + 增强计算规模(test-time compute scaling)突破的。”
- Alexander Wei

w8.jpg

简而言之:
    不是靠投喂 IMO 历年题库训练“考试机器”;而是通过提升模型自身的推理广度与深度,来具备自然解题能力;使用 test-time compute scaling 技术,让模型在关键任务中动态增加推理步骤与资源,相当于“考试时额外动脑”。
📌 意义与影响

对 AI 行业:

    标志着 LLM 开始跨入需要严谨推理的复杂领域;在某种程度上,迈出了朝“通用智能(AGI)”又一步。
对数学教育与科研:

    未来 AI 可辅助学生构造证明步骤;助力学者探索未解问题的中间推理环节;模型能被用于“逆训练”:从结论反推出构造性证明。
🎯 模型成绩与评估方式


“模型解决了 2025 IMO 的 6 道题中的 5 道,总得分 35/42,足以获得金牌。”
✅ 评分机制:

    每道题由三位前 IMO 金牌选手独立评分;最终得分由三人一致同意后确认;说明这不是机械式对错判断,而是真正从“数学证明合理性”出发的专家审核。
🧠 模型做对的是哪几道题?

    P1 ~ P5 均解决成功;P6(通常是最难的一题)未能给出答案。

35 分是 IMO 金牌线的上游水平,通常金牌 cutoff 约在 28-34 之间。
🔬 模型属性


“这个模型是一个实验性研究模型,并不会在短期内公开。”

lol,还是不公开吗
    当前模型并非即将发布的 GPT-5;GPT-5 即将发布,但不会具备 IMO 级别数学能力;数学能力强到这个程度的模型,还属于实验室原型阶段,OpenAI 预计数月内不会释放此类能力。

虽然公众可用模型在逐步升级,但最尖端的推理 AI 仍属受控试验型技术。
🚀 AI 进步速度:远超预测


“我曾预测到 2025 年只能做到 MATH benchmark 的 30%,现在模型已经拿下了 IMO 金牌。”

MATH benchmark 是 1 分钟级推理任务,而 IMO 是 90 分钟以上的人类智力极限。

预测 vs 现实差距:
    原预测:2025 年只能在中学竞赛题上做到 30%;实际表现:2025 年模型解出了全球最顶级数学竞赛的金牌题。

人类专家在 2021 年对 AI 数学能力的评估,大幅低估了当前的发展速度。

w9.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-8-2 21:57 , Processed in 0.128087 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表