找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 110|回复: 0

AI大神 Andrej Karpathy 的 2025 年度复盘

[复制链接]
发表于 2025-12-20 13:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
原文来自 Andrej Karpathy :

https://karpathy.bearblog.dev/year-in-review-2025/

2025年是大语言模型(LLM)进展强劲且充满重要事件的一年。

以下是我个人认为值得注意且略显意外的"范式转变"清单——这些变化改变了整个格局,在概念上给我留下了深刻印象。
1、可验证奖励强化学习(RLVR)

w1.jpg

2025年初,所有实验室的LLM生产流程大致是这样的:
    • 预训练(2020年左右的GPT-2/3)• 监督微调(2022年左右的InstructGPT)• 人类反馈强化学习(RLHF,2022年左右)

这套方法稳定可靠,是训练生产级LLM的成熟配方,维持了相当长一段时间。

2025年,可验证奖励强化学习(RLVR)横空出世,成为这个组合中新的核心阶段。

通过在多个环境中(比如数学题、编程题)针对可自动验证的奖励来训练LLM,这些模型自己摸索出了在人类看来像"推理"的策略。

它们学会了把问题拆解成中间步骤,学会了各种来回尝试、自我修正的解题策略(可以看看DeepSeek R1论文里的例子)。

这些策略在之前的训练方法里很难搞出来,因为我们不知道LLM的最优推理路径该长什么样——它必须自己通过优化来找到管用的办法。

跟SFT和RLHF不太一样(这俩在计算量上都比较轻,只是小修小补),RLVR是针对客观的、没法作弊的奖励函数来训练,所以可以跑很长时间的优化。

结果发现,RLVR的性价比特别高,把原本要用来预训练的算力都吃掉了。

w2.jpg

所以2025年能力提升的大头,其实是各家实验室在消化这个新阶段带来的红利。整体上看,模型规模差不多,但强化学习训练时间长了很多。

这个新阶段还有个独特的地方:我们多了一个新的控制旋钮(以及对应的扩展定律)。

通过生成更长的推理过程、增加"思考时间",就能在测试时用更多算力来提升能力。

OpenAI的o1(2024年底)是第一个RLVR模型的演示,但o3的发布(2025年初)才是真正的转折点,你能直观感受到那种质的飞跃。
2、幽灵vs.动物 / 参差不齐的智能

2025年是我(我觉得整个行业也是)第一次开始真正理解LLM智能的"形状"。

我们不是在"进化动物",而是在"召唤幽灵"。

w3.jpg

LLM技术栈的一切都不同——神经架构、训练数据、训练算法,尤其是优化目标。

所以我们在智能空间里得到了非常不一样的东西,用看待动物的视角来理解它们是不合适的。

从监督信号来说,人类神经网络是为了在丛林里生存而优化的,但LLM神经网络是为了模仿人类文本、在数学题里拿高分、在LM Arena上获得点赞而优化的。

因为可验证领域可以用RLVR,LLM在这些领域的能力会"飙升",整体表现出特别有意思的参差不齐

——它们同时既是天才全能选手,又是容易迷糊的小学生,随时可能被越狱攻击骗到泄露你的数据。
(人类智能:蓝色,AI智能:红色。我喜欢这版本的梗图,虽然找不到X上的原帖了,但它点出了人类智能其实也以自己的方式参差不齐。)

跟这个相关的,是我在2025年对基准测试普遍失去了兴趣和信任。

核心问题是,基准测试天生就是可验证的环境,所以马上就会被RLVR盯上,或者被合成数据生成这种弱一点的方法攻破。

在典型的"刷榜"过程中,实验室团队不可避免地会在基准测试占据的嵌入空间附近构建训练环境,专门长出一根根尖刺去覆盖它们。

在测试集上训练已经成了一门新艺术。

把所有基准都刷爆了,但还是没实现AGI,会是什么样子?

我在这些文章里写了更多:
    • 动物vs.幽灵• 可验证性• 思维空间
3、Cursor / LLM应用的新层级

Cursor最值得注意的(除了它今年的火箭式增长),是它让人信服地展示了"LLM应用"的新层级——大家开始说"某某领域的Cursor"。

w4.jpg

正如我今年在Y Combinator演讲里强调的(有演讲稿和视频),像Cursor这样的LLM应用,是在为特定垂直领域打包和编排LLM调用:
    • 它们做"上下文工程"• 它们在幕后编排多个LLM调用,串成越来越复杂的有向无环图(DAG),仔细平衡性能和成本• 它们为人机协作提供专门的GUI界面• 它们提供"自主性滑块"

2025年有很多讨论围绕着这个新应用层有多"厚"。

LLM实验室会把所有应用都吃掉吗?还是LLM应用有自己的生存空间?

我个人觉得,LLM实验室会倾向于培养出能力全面的大学生,但LLM应用会通过提供私有数据、传感器、执行器和反馈循环,把它们组织、微调、真正编排成特定垂直领域的专业团队。
4、Claude Code / 住在你电脑上的AI

Claude Code(CC)是第一个让人信服的LLM Agent演示——它以循环的方式把工具使用和推理串起来,进行持续的问题解决。

而且,CC很特别的一点是,它跑在你的电脑上,用的是你的私有环境、数据和上下文。

w5.jpg

我觉得OpenAI在这方面走错了路,因为他们把早期的codex/agent工作重点放在从ChatGPT编排的云容器部署上,而不是简单地用本地主机。

虽然在云里跑agent群听起来像是"AGI终局",但我们活在一个能力参差不齐、起飞比较慢的中间阶段世界里,直接在开发者电脑上跑agent更合理。

注意,重要的区别不是"AI操作"具体跑在哪里(云端、本地或别的),而是其他所有东西——那台已经在用的电脑、它的安装配置、上下文、数据、密钥、设置,还有低延迟交互。

Anthropic把这个优先级搞对了,把CC打包成一个好用、极简的命令行工具,改变了AI的样子——它不只是个像Google那样你要去访问的网站,而是一个"住"在你电脑上的小精灵/幽灵。

这是跟AI交互的全新范式。
5、Vibe Coding

2025年,AI跨过了一道能力门槛,让人们可以纯靠说英语就能做出各种厉害的程序,甚至忘了代码的存在。

有意思的是,我在一条随手发的推文里造了"Vibe Coding"这个词,完全没想到它会传这么广 :)

w6.jpg

有了Vibe Coding,编程不再是训练有素的专业人士的专利,而是人人都能干的事。

从这个角度说,它又是我在《赋能人民:LLM如何颠覆技术扩散》里写的那个观点的例子——跟之前所有技术都不一样,普通人从LLM里得到的好处,远超专业人士、企业和政府。

但Vibe Coding不光是让普通人能编程,还让专业人士能写更多本来不会写的软件。

在nanochat项目里,我用Rust vibe coded了自己的高效BPE分词器,不用去学现有库,也不用深入学Rust。

今年我vibe coded了好多项目,做成我想要的东西的快速演示(比如menugen、llm-council、reader3、HN time capsule)。

我甚至vibe coded了整个临时应用就为了找一个bug,因为何乐而不为呢——代码突然变得免费、临时、可塑、用完即扔。

Vibe Coding会重塑软件,改变职位描述。
6、Nano banana / LLM GUI

Google Gemini Nano banana是2025年最不可思议、最具范式转变意义的模型之一。

在我看来,LLM是下一个重大的计算范式,就像1970、80年代的计算机一样。

w7.jpg

所以,我们会因为本质相似的原因,看到类似的创新。

我们会看到个人计算的对应物、微控制器(认知核心)的对应物、互联网(agent网络)的对应物,等等。

特别是在UI/UX方面,跟LLM"聊天"有点像在1980年代给计算机控制台打命令。

文本是计算机(和LLM)的原始数据格式,也是它们偏好的格式,但不是人们偏好的格式,尤其是在输入端。
人们其实不爱读文字——又慢又累。

人们更爱用视觉和空间的方式接收信息,这也是为什么传统计算里会发明GUI。

同样的道理,LLM应该用我们喜欢的格式跟我们说话——通过图像、信息图、幻灯片、白板、动画/视频、网页应用,等等。

这方面的早期版本当然就是表情符号和Markdown这些东西,它们通过标题、粗体、斜体、列表、表格等方式,把文字"装扮"和视觉化布局,让人更容易消化。

但谁来真正构建LLM GUI呢?

在我的理解里,nano banana是第一个早期的提示,告诉我们那可能是什么样子。

重要的是,它的一个值得注意的方面是,这不只是关于图像生成本身,而是文本生成、图像生成和世界知识的联合能力,全都纠缠在模型权重里。
7、总结

2025年是LLM令人兴奋、有点出乎意料的一年。

LLM正在成为一种新型智能,同时比我想的聪明得多,也比我想的蠢得多。

不管怎样,它们超级有用,我觉得哪怕以现在的能力,行业连它们10%的潜力都还没发挥出来。

与此同时,有太多想法可以试,从概念上讲这个领域还很开阔。

就像我今年早些时候在Dwarkesh播客上说的,我同时(表面看起来矛盾地)相信,我们既会看到快速持续的进展,又还有大量工作要做。

系好安全带吧。

w8.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-21 02:29 , Processed in 0.101479 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表