找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 522|回复: 0

AI大神Karpathy 力挺「强化学习环境」,但千万别去创业!

[复制链接]
发表于 2025-9-18 23:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章

w1.jpg

今天来聊一下——强化学习。

因为在 AI 领域,很少有技术能像强化学习(Reinforcement Learning, RL)这样引发如此矛盾的情绪。

强化学习,第一次进入大众视野,是因为 AlphaGo 击败李世石,但真正让强化学习走向主流,是因为 ChatGPT。

ChatGPT 采用的人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback),可以让 AI 学会产生人类想要的回答,能更好地让 AI 和人类的价值观、偏好对齐,这就是为什么 ChatGPT 比早期的 GPT-3 更像一个有用的助手的原因。

w2.jpg

所以强化学习,一下子从一门小众的技术,摇身一变成了各家做模型公司追捧的技术。

其实在 RLHF 流行之前,大模型基本走的是——自监督预训练(MLE)→ 监督微调(SFT/多任务/指令微调)→ 推理时约束与安全过滤 的路线,几乎不使用强化学习。

强化学习强化学习本质上是让 AI 通过"试错"来学习的方法。想象一个孩子学习骑自行车:摔倒了就知道这样不对,保持平衡就知道这样是对的。AI 不需要被告知每一步该怎么做,而是通过不断尝试和接收反馈来改进自己的策略。

在技术层面,强化学习包含四个核心要素:
    智能体(Agent):做决策的 AI 系统环境(Environment):智能体操作的世界动作(Actions):智能体可以执行的操作奖励(Rewards):环境对智能体行为的反馈信号

RLHF 为了让 AI 懂得人类的"口味",采用了三个步骤:

w3.jpg

1、收集人类偏好数据:人类评估员对比不同的 AI 回答,选择更好的那个

2、训练奖励模型:用这些偏好数据训练一个"评分系统"

3、优化语言模型:让 AI 学会产生高分回答

就是我先用人类偏好训练一个“打分器”(奖励模型),再用强化学习把语言模型调到更符合这个打分器/人类偏好的方向上去。

OpenAI 的 o1 和 DeepSeek 的 R1,更是把这种模式推向了新高度。

w4.jpg

大家发现模型好像人类一样思考,可以拆解复杂的问题,可以自我反思纠错和改进。模型展示的这种能力被称为“涌现”,因为人类标注员永远无法预先设计出这样的思维模式。

但是,RLHF 还是要靠人类打分的,依旧有三个老的问题:

贵(标注成本高)、慢(迭代周期长)、主观(不同标注者偏好不一)

所以为了让模型持续变强,就得把评估变成可自主判定的一套系统,最直接的办法,就是把任务装进一个可交互、可复现、可计分的「环境」里。这些环境可以为 AI 提供了一个可以安全试错的空间,就像飞行员在模拟器中练习飞行一样。

环境可以是:
    游戏世界:Atari 游戏、围棋棋盘模拟环境:自动驾驶的虚拟道路数字平台:软件界面、网页环境物理系统:机器人操作台

比如,你可以造一个假的浏览器界面,里面有个假 Amazon 网页,模型的任务是“买一条蓝色牛仔裤”。它得自己决定怎么点菜单、怎么选分类、怎么填地址。如果它买对了,就得高分。买错了,就再来一次。

这样玩几千次之后,模型就学会了如何逛网页、如何遵循任务目标,甚至会总结一些高效策略。这些经验比单纯读一堆网页要有用得多。

强化学习环境的本质,是把模型扔进一个有反馈的空间里,不断试错,直到它进化出更聪明的行为。

所以,各家大模型厂商开始疯狂采购强化学习环境,来训练自己的策略、产品。

比如说,苹果研发团队在今年 2 月也放出一个叫 AppWorld 的 RL 训练框架,在一个“多应用、多操作”的环境中,用 RL 方式去训练模型完成真实事务流,比如:打开应用 → 输入关键词 → 完成任务。

他们把 OpenAI 的 o1 baseline 拿来对比,结果自己的 agent 在效率和成功率上 高出 9 个百分点。

w5.jpg

Karpathy 非常看好强化学习「环境」。

w6.jpg

他指出,AI 发展的不同阶段,关键资源不同:

在预训练时代,重要的是互联网文本;

在监督微调时代,关键是高质量问答对话;

而在今天的时代,我们需要的,是「环境」。

w7.jpg

所以 Karpathy 站出来直接摆出自己的观点,环境是下一个关键。

w8.jpg

强化学习之父理查德·萨顿(Richard Sutton)也曾说:

体验就是指当你与世界互动时获得的数据——这是人类和动物学习的方式。

而环境,就是为 AI 提供这种关键互动体验的必备部分。

而一旦你把它理解为必备&稀缺的资源,就很容易出现一个念头:“那我是不是也能搞个 RL 环境创业公司,卖给 OpenAI 赚大钱?”

不好意思。

这就是今天这篇文章真正想说的事:别创业。千万别。

为什么?因为你根本不是在搞什么创新产品,而是在给 AI 打工,在做一份廉价的“建筑工地脚手架”。

这不是我说的,是 Benjamin Anderson 写的一篇博客。他的原话是:“Don't sell blood to vampires.”

别把血卖给吸血鬼。

w9.jpg

他讲了一个很重要的故事背景。

你可能不知道,现在全球几乎所有头部 AI 实验室,都在到处买 RL 环境。他们出手阔绰,动辄几十万美元甚至百万美元,买一些你听都没听过的小程序。

比如仿 Doordash 的点餐模拟器、仿 Salesforce 的 CRM 交互器、仿 Bass Pro Shops 的钓鱼商城……这些东西看起来无聊至极,但对 AI 来说是宝藏。

于是就出现了一种奇怪的“钱景”:只要你能用 Next.js 搞出一个带 UI 和交互逻辑的「环境」,基本就能把它卖出去。甚至都不需要是真正的产品,只要它能构成“模拟”即可。

w10.jpg

听上去是不是像极了 2012 年的 App 创业热潮?

但 Benjamin 提醒了一个关键风险。

今天你做 RL 环境,明天你就可能被模型本身淘汰。

你开发的点外卖模拟器,用不了三个月,Claude 或 GPT 就能自己写出一个更精致的版本,还能自我评估、自我评分。你这个人类开发者的价值就没了。

就像 2023 年的那波“人类微调众包工人”,曾经靠标注数据、排序模型输出、帮模型选最优回复而吃饭。但到了 2024 年,模型自己就能评估自己,众包平台一夜关闭。

w11.jpg

你看不见的,是一种职业被悄悄地灭种了。RL 环境开发者,也正在重复这条路。

因为你能做出的任何环境,终将都能模型替代。

很多人会说:我可以一直做新的环境啊。

模型学会了购物,我再做一个让它玩扫雷的。扫雷学会了,我再搞一个让它开航天飞机的。

问题是,这不是你一个人的主意。

全世界上万个没工作的小码农和闲着的 AI 写代码模型,都在和你做一样的事。你出一个环境,人家 10 分钟复刻一个,甚至质量更高、还能开源。

w12.jpg

而且注意,模型是不会累的,它没有情绪,也没有专利,更没有什么收入焦虑。

当你还在调试一个按钮点击逻辑时,Claude 已经并发训练了十万次环境互动策略优化算法。

w13.jpg

你再努力,也是一个凡人对抗超人。

而且,现在还有越来越多机构在做「RL 环境开源平台」。

w14.jpg

比如 Prime Intellect 这个新项目,就专门做环境合集的开源集散地。他们提供了大量免费的 RL 环境,还把 GitHub 上所有靠谱的 Verifiers 也都整理了进去。

你想靠卖环境赚钱,结果别人开始免费发货,还顺带做了个网盘。

这一幕像不像几年前的 AI 开源模型大战?刚开始大家还能卖点模型 API,后来 Mistral 一开源,大家都得做白嫖策略了。

环境这事,也正在走向白嫖时代。

所以回到开头的问题:很多 AI 大佬们看好环境,但是为什么不鼓励你去创业?

因为他们看好的是「环境」,不是「你做环境的生意」。就像一个人看好婚礼市场,并不代表他建议你去开婚车租赁公司。

AI 模型确实需要大量互动场景练习,但这些练习题并不是越做越值钱的内容,它们是一次性消耗品。模型一旦掌握了某项任务,对应环境的商业价值就变成了 0。

所以如果你只是想抓住这波风口,靠做环境来发家。那只能说,你是在给别人的通用智能打工,而且是临时工。

真正有价值的,是那个能创造出“能让模型学会做手术”的环境的人。

也就是说,不是前文提到的做小游戏仿真器,是做出真正能让模型实现质变能力的闭环。

这类人,不应该是环境工人。

Karpathy 最后也说了,他其实并不看好 RL 本身。也就是说,他并不认为通过“奖励函数”来训练模型是未来最强的路线。

w15.jpg

他说人类的学习,远不止是“做对了就加分”这种简单规则。人类有抽象能力、有隐喻、有反思、有自我对话。而 AI 也应该有更像人类的学习方式,比如通过“系统提示词”的引导,甚至模拟“做梦”一样的离线学习。

深度学习三巨头之一的 Yann LeCun 也是持反对的观点。
w16.jpg
他曾在 Twitter 上直言:

"强化学习的影响正如我预测的那样小。自监督学习的影响比我预测的还要大。"

而且 LeCun 貌似对强化学习异常严厉:

"因为它需要大量数据来训练模型做甚至简单的任务。我认为这完全没有成功的机会。"

你怎么看待?

强化学习环境之所以值得讨论,不仅因为它们是技术实现的载体,也因为它们代表了 AI 学习模式的根本转变——

之前 AI 学习的是静态数据,现在和以后是和环境动态交互。

本质是强化学习已经具备了价值,而且这些不同的声音都在推动技术进步。

w17.jpg

w18.jpg

w19.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-9-20 17:41 , Processed in 0.228454 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表