找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 199|回复: 0

AI 在数学上已经超越人类了吗?

[复制链接]
发表于 2025-5-30 23:52 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
本文译自2025年5月Epoch AI的文章。作者Anson Ho是该机构研究员。

FrontierMath是Epoch AI去年发布的一项基准测试,旨在评估AI的数学能力上限。它包含300道难度各异的问题,覆盖了从本科高年级到菲尔兹奖得主都会感到挑战的难度范围。

为了确定人类的水平,Epoch AI在麻省理工学院组织了一场竞赛,大约有40名杰出的数学本科生和该领域专家参加。参赛者被分成八个团队,每队四到五人,有4.5小时的时间来解决23个问题,并且可以使用互联网。然后,Epoch AI将他们的表现与FrontierMath上当前最先进的AI系统o4-mini-medium进行了对比。

实验结果表明,o4-mini-medium的成绩超过了人类团队的平均水平,但低于所有团队的总体得分(即一个团队成功解决其他团队没有解决的问题则计分)。因此,目前AI在FrontierMath上的表现尚未全面超越人类,但Epoch AI预计在不久的将来能够实现这一目标。

w1.jpg

图 1:o4-mini-medium 在 FrontierMath 人类基准竞赛中获得了 22% 的分数,超过了平均团队(19%),但低于所有团队的总分(35%)

然而,这些数据仅基于FrontierMath的一小部分——那么,这对整体的人类基准水平来说意味着什么呢?我认为在FrontierMath上最有意义的"人类基准"应该在30-50%之间,但不幸的是,这比表面上看起来要复杂得多。

因此,本文将简要介绍关于此人类基准结果的四个关键要点,包括其来源和意义。
领域专业知识代表性不足

为了确保获得高质量的结果,符合资格的参与者需要证明他们具有卓越的数学能力。例如,这包括拥有博士学位的人,或具有非常强的竞赛记录的本科生。

Epoch AI将参与者分成八个小组,每组四到五人,并确保每个团队在各自涉及的专业领域都至少有一名专家。例如,主题专家可以是在该领域获得研究生学位或目前正在攻读博士学位,并将该主题列为他们首选领域的人。

尽管多领域主题专家组成的纯专家团队最为理想,但实际上大多数团队本科生与专家的比例基本持平。参与者主要来自波士顿数学界。该地区的数学家在分析领域的专业知识相对集中。
竞赛的设计更侧重于反映推理能力,而非广泛的知识

从某些角度来看,AI已经展现出优势。例如,它们比最博学的人类数学家拥有更多的知识。这为它们提供了巨大的优势,因为FrontierMath上的问题涵盖了广泛的主题,包括数论和微分几何等。很难有人能熟悉所有这些领域的前沿知识。

w2.jpg
图 2:完整FrontierMath基准测试中主题的图形表示
尽管AI知识优势明显,但FrontierMath的关键在于考察AI是否具备数学推理能力。

为了获得更有意义的人类基准,Epoch AI选择了需要较少背景知识的问题。这些问题还根据参与者的背景知识进行了量身定制。具体而言,Epoch AI选择了七道本科生可以解答的"通用"问题,以及为专家量身定制的十六道"高级"问题。这些问题分为四个子类别:拓扑学,代数几何,组合学,以及数论。

尽管如此,Epoch AI仍然希望获得一些“高级”问题的回应,这样就不会所有的回应都集中在通用问题上。Epoch AI试图使用竞赛的评分系统来激励这一点:每道正确的"高级"问题计两分,每道"通用"问题计一分。在五个领域("通用"加上四个"高级")中,每个至少答对一题的领域都会多得一分。

最后,获胜团队获得了奖金以激励他们取得优异的成绩:第一名1000美元,第二名800美元,第三名400美元。其他参与者获得150美元,以鼓励他们参与。
"人类基准"的定义有些模糊

各团队通常解决了13%到26%的问题,平均为19%。o4-mini-medium解决了约22%的问题,考虑到样本量,可以认为o4-mini-medium与人类团队的表现基本持平。

然而,这种衡量人类基准的方式可能不够全面。理想情况下,希望每个团队都配备精通全部四个高级领域的专家,但实际上八个团队无一达到这种配置。因此,与拥有所有必要知识的团队相比,平均人类基准分数可能略有低估。

一种修正方法是:只要八个人类团队中有任一给出正确答案,即判定该问题被正确回答。这种方法将正确率提升至约35%,但个人认为这过于乐观。某种程度上,这相当于赋予人类团队"多次射门机会"(类似于在全体团队都具备相关专业知识的题目上采用"pass@8"机制),而o4-mini-medium模型是在 “pass@1”条件下评估。鉴于此,人类在此次竞赛中的表现可能介于这两个范围之间20-30%。

除了评估方式的问题外,还需要考虑另一个因素。特别是,与完整的FrontierMath数据集相比,竞赛问题的难度分布不同,如下表所示。

w3.jpg

FrontierMath竞赛和完整基准测试中问题的难度分布

因此,Epoch AI按难度等级拆分结果,并根据完整基准测试中的难度分布对总分进行加权。基于每个团队的平均值,这会将人类基准提高到大约30%,而经过"多次尝试"后,则提高到52%。
AI 尚未在FrontierMath上超越人类,但它们可能很快就会做到

那么,这一切意味着什么?

首先,知道o4-mini-medium获得的分数与人类团队相似(至少在竞赛的约束条件下),但这并不能告诉人们模型是如何取得这样成绩的。AI只是在猜测FrontierMath问题的解决方案吗?它们与人类的方法相比如何?且听下回分解......

其次,如果人类基准确实在30-50%左右,那么我认为AI很可能在年底前超过这个阈值。

需要注意的是,由于竞赛的形式,人类的表现可能被低估。实验结果表明,人类的表现可能会随着时间的推移而显著提高。o4-mini-medium约5-20分钟完成每个问题,而人类通常需要更长的时间。根据赛后调查,参赛者在其最喜欢的测试题上平均花费约 40 分钟。相关工作表明人类在机器学习任务中也具有更好的长期扩展性,而AI的性能在一段时间后会趋于稳定,人类的表现会持续提高。另外,FrontierMath上的题目并不能直接代表实际的数学研究工作。

不过总体而言,我认为这是一个有价值的人类基准,有助于将FrontierMath评估置于更清晰的参照系中。我很有兴趣观察AI何时会跨越这一门槛。

w4.jpg
订阅“蒋讲数据”不迷路
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

我是开心果

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-6-3 09:52 , Processed in 0.115650 second(s), 32 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表