找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 161|回复: 0

AI笔记32|初看以为DeepSeek在教AI做数学题,再看原来是教AI学会了反思

[复制链接]
发表于 2025-11-29 08:22 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
  目录

全文共计3141字,预计阅读时间5分钟:

1.让AI像人一样有反思能力

2.虽然AI已经学会了思考

3.DeepSeek的策略

4.用数学竞赛成绩说话

5.最后的哔哔

w1.jpg

2025年10月20日,DeepSeek发布了DeepSeek-OCR大模型及对应论文,我还凑热闹记了一篇笔记AI笔记28|DeepSeek-OCR模型为啥让AI圈大佬们如此兴奋,论文的观点是在OCR任务上用图像作为媒介压缩文字再还原效果很好,这个思路或许可以用在AI的VQA任务上解决记忆问题。

2025年11月27日,DeepSeek又低调上了一个新模型DeepSeekMath-V2及其对应论文。

项目及论文地址:

https://github.com/deepseek-ai/DeepSeek-Math-V2

w2.jpg

DeepSeekMath-V2项目主页(图片来源:GitHub截图)

刚开始我还以为这就是个数学模型,来刷分的,仔细读了才发现是我格局小了。

让AI像人一样有反思能力

我还记得高中时做数学题的场景。

有时候做题特别快,答案也对,但换个题型我就不会了,因为我只是碰巧蒙对了答案,记得老师常说不要“一知半解”。而班里的学霸会反思总结每一步的推导过程:这一步为什么成立?换个条件还能用吗?他们不只是会做题,还知道自己为什么做对、为什么做错,更重要的是,理解了方法的本质。因此能触类旁通,成绩也是顶呱呱。不仅能坐第一排,还能收获迷弟或迷妹。

言归正传,人的这种反思能力,在《认知觉醒》这本书中,作者叫它元认知——它能对自己的“思考过程”进行认知和理解。也就是说反思的过程就像是和自己开个总结会,你坐下来对自己说:

1.你今天的工作干得不错,但这个地方要注意;

2.这个行为你是不是太怂了?和煞笔领导就是干。

3.你为什么当时会这么做?

w3.jpg

思考和反思(图片来源:《认知觉醒》)

刚看到DeepSeekMath-V2这个名字时,说实话,第一反应是:又一个数学AI?但看完论文后我发现,人家压根不是为了教AI做数学题,而是在研究一个格局更大的问题:怎么让AI学会反思,知道自己哪里做对了、哪里做错了。

这听起来好像没什么了不起,但我细思极恐。

以前的AI,就像那个只会蒙答案的我。给它一道题,它能算出结果,但问它为什么这样做,它说不清楚。更要命的是,它自己也不知道这个答案是蒙的还是真会。而DeepSeekMath-V2不一样,它不仅能做题,还能像班里的学霸一样检查自己的每一步推导:这一步用的什么原理?逻辑严不严密?有没有漏洞?

这不只是数学能力的提升,而是AI第一次具备了自我认知。它开始理解什么叫"对"、什么叫"错",更重要的是,它知道自己为什么对、为什么错。

虽然AI已经学会了思考

要理解DeepSeekMath-V2的突破,我得先搞清楚AI到底卡在哪儿了?

虽然现阶段,基于思维链训练的AI,已经可以模拟人类的思考过程,能够解决复杂的数学问题,但是它不知道自己思考的对不对。

w4.jpg

开启思考模式的DeepSeek(图片来源:DeepSeek截图)

而且训练AI时采用的强化学习方法:AI生成一个答案,如果答案对了就给奖励,错了就惩罚。听起来很合理对吧?

但这就像训练一只吗喽投篮,投进了给香蕉,投不进不给。吗喽可能学会了投篮的动作,但它永远不会理解什么是抛物线、什么时候该用多大力气。

在数学竞赛里,这个问题就更致命了。比如国际数学奥林匹克竞赛(IMO)或者普特南数学竞赛(Putnam),评分标准不是看你答案对不对,而是看你的证明过程严不严密。可能用了一个错误的方法,碰巧蒙到了正确答案,但在评委眼里,仍然是0蛋。

这就是DeepSeek要解决的根本问题,不是让AI做对题,而是让AI理解什么叫对。也就是说AI不仅要会思考,更要学会反思(知道思考过程对不对)。

DeepSeek的策略

那DeepSeek是怎么让AI学会反思的?

三层自检系统。

说实话,当我看到他们的方案时,第一时间想到的是学校里的教学体系。你想想,一个学生要真正学会数学,需要经历啥?

1

第一层:老师批改作业

学生做完数学作业交上去,老师会逐步检查:这一步推导对不对?用的公式有没有问题?逻辑有没有问题?然后给出评分和批注。

DeepSeek也训练了一个专门的验证器(Verifier),就像数学老师一样。你给它一道题和一个证明过程,它会仔细检查每一步,然后给出评分:

1分:证明完整严谨,逻辑无懈可击;

0.5分:大体思路对,但有些小瑕疵;

0分:推导错误,瞎扯淡。

w5.jpg

整体验证评分(图片来源:论文截图)

那么问题来了谁来保,证这个验证器自己不出错呢?

2

第二层:教研组长检查批改质量

在学校里,老师批改完作业,教研组长还会抽查:这个老师批改得对不对?有没有误判?标准是否统一?(具体抽不抽检,俺也母鸡)

DeepSeek设计了一个更高级的元验证器(Meta-Verifier),专门用来检查验证器的工作质量。它会问:验证器指出的这个错误,真的存在吗?还是验证器自己看错了?

这个设计太关键了。因为AI验证器也会产生幻觉,明明证明是对的,它却说有问题;或者明明有漏洞,它却没发现。通过元验证机制,DeepSeek把验证器的可靠性从0.85提升到了0.96。

w6.jpg

验证器可靠性提升(图片来源:论文截图)

这是什么概念?100次判断,从错15次降到只错4次,几乎和人类一个水瓶了。

3

第三层:学生学会自己检查

真正的学霸,不需要老师天天盯着,他们会主动检查自己的作业:这一步有没有问题?能不能写得更严谨?

DeepSeek让生成数学证明的AI(生成器)也学会了自验证(Self-Verification)。它做完一道题后,会像验证器一样检查自己的每一步推导,发现问题就重新调整,直到确认证明足够严谨才输出。

这就有点像费曼学习法:你以为自己懂了,但当你试着讲给别人听时,才发现有些地方其实没想清楚。DeepSeek的生成器也是这样,它不仅要做题,还要讲题。向自己解释每一步为什么对,这个过程本身就是在深化理解。

更奈斯的是,这三层系统会形成一个协同循环:

1.验证器帮生成器找出证明中的问题;

2.生成器改进后,产生更复杂、更难验证的证明;

3.这些难题又成为验证器的训练素材,让它变得更强;

4.更强的验证器又能发现更细微的问题……

这就像师徒之间的相互促进(教学相长),师傅教徒弟,徒弟进步了,反过来也能给师傅新的启发。

如果了解AI绘画领域的GAN模型(生成对抗网络),碰巧我曾记过这篇笔记AI笔记21|十一假期结束,哔哔AI绘画大模型的前世今生:从GAN到DiT。我会发现这个机制特别像:GAN的生成器努力生成以假乱真的图片,判别器努力识破假图片,两者在对抗中共同进步。

w7.jpg

GAN模型结构示意(图片来源:知乎)

用数学竞赛成绩说话

哔哔了这么多原理,效果到底怎么样?咱们看看DeepSeekMath-V2模型在顶级数学竞赛中的表现。

w8.jpg

普特南数学竞赛成绩(图片来源:论文截图)

先说最叼的,2024年普特南数学竞赛(Putnam),满分120分,DeepSeekMath- V2拿了118分。这是什么概念?人类历史上的最高分是90分,DeepSeekMath V2直接超越了人类的极限,碉堡了。

w9.jpg

数学竞赛题解决率(图片来源:论文截图)

而且这不是偶然。2025年国际数学奥林匹克竞赛(IMO),6道题做对5道,正确率83.3%,达到金牌级别。2024年中国数学奥林匹克竞赛(CMO),6道题拿了4.43分,73.8%的正确率,同样是金牌级别。

但更让我震惊的不是这些分数本身,而是它自我迭代改进的能力。

论文里还有个特别有意思的实验:让DeepSeekMath-V2做IMO 2024的题目,第一次生成证明的通过率只有15%。但它会自己检查证明,发现问题后重新调整,再检查,再调整……经过8次这样的自我迭代,通过率提升到了27%,提升幅度达80%,相当于从15分的学生考到27分。

w10.jpg

8次证明质量改进情况表(图片来源:论文截图)

而且这个过程完全不需要老师指导,全靠它自己的反思(元认知)能力。如果让它同时生成32个不同的证明方案,然后自己评估哪个方案最好,最优方案的通过率能达到42%。这意味着它不仅会做题,还知道哪种做法更靠谱。

这意味着啥?以前的AI,做错了题自己不知道,需要咱们自己检查后告诉它答案是错的。而DeepSeekMath-V2,它自己就能发现这个答案有漏洞,然后主动修正。这不是简单的计算能力提升,而是思维方式的质变。从被动接受反馈,到主动自我纠错。

最后的哔哔

DeepSeek通过教DeepSeekMath-V2这个模型做数学竞赛,让AI学会了反思能力。

这项工作证明,AI可以对思考的过程进行反思。尽管仍存在重大挑战,俺觉得这一研究方向对如何让AI智能更接近人类来说,很有启发。

w11.jpg

END

编辑 | 王彦新一

邮箱 | archi_ybwang@163.com
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-9 15:37 , Processed in 0.097375 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表