AI首次夺金!OpenAI大模型在2025国际数学奥林匹克中获金牌

多客科技 · 发表于 2025-7-20 12:13

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
这是一个划时代的进展，OpenAI 新的实验性推理大模型在2025年国际数学奥林匹克（IMO）上达到了金牌水平，意味着它不仅能解决高难度的数学题，而且是在接近人类巅峰水平的条件下完成的。

AI 提交的答案如下：https://github.com/aw31/openai-imo-2025-proofs/

✅ 这意味着什么？

1. 模型在“长推理链”上的重大突破

以往 AI 多数只能处理较短的逻辑链，例如：

现在这个模型能完整写出 IMO 题目的自然语言证明，标志着 AI 正在逼近“系统 2”级的人类深度思维过程。
2. 超越 RL 奖励机制的训练方式

IMO 题目的答案不是单个选项或数值，而是：

这意味着 OpenAI 放弃了传统“可验证 reward”强化学习路径，而采用了更靠近“人类推理模拟”的范式。

🚀 技术路线亮点

“我们不是靠 task-specific 微调，而是通过通用强化学习 + 增强计算规模（test-time compute scaling）突破的。”
- Alexander Wei

简而言之：

📌 意义与影响

对 AI 行业：

对数学教育与科研：

🎯 模型成绩与评估方式

“模型解决了 2025 IMO 的 6 道题中的 5 道，总得分 35/42，足以获得金牌。”

✅ 评分机制：

🧠 模型做对的是哪几道题？

35 分是 IMO 金牌线的上游水平，通常金牌 cutoff 约在 28-34 之间。
🔬 模型属性

“这个模型是一个实验性研究模型，并不会在短期内公开。”

lol，还是不公开吗

虽然公众可用模型在逐步升级，但最尖端的推理 AI 仍属受控试验型技术。
🚀 AI 进步速度：远超预测

“我曾预测到 2025 年只能做到 MATH benchmark 的 30%，现在模型已经拿下了 IMO 金牌。”

MATH benchmark 是 1 分钟级推理任务，而 IMO 是 90 分钟以上的人类智力极限。

预测 vs 现实差距：

人类专家在 2021 年对 AI 数学能力的评估，大幅低估了当前的发展速度。

账号		自动登录	找回密码
密码			注册