【AI技术解读】On-Policy Distillation:让小模型也能“精准学、低成本跑”的训练新范式

我爱免费 · 发表于 2025-10-28 20:25

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
最近由前OpenAI CTO Mira Murati创立的Thinking Machines又出了一篇[blog](https://thinkingmachines.ai/blog/on-policy-distillation/) 。提出了 On-Policy Distillation。非常值得一看。

之前，他们还写过lora，看这里：LoRA Without Regret（RLHF作者出品）,可以说是Thinking Machines出品，必属精品。

📌 简介：大模型“后期训练”的痛点，终于有解了！

一个能解数学题、懂医疗知识的AI大模型，训练要分三步走：

但过去的“后期训练”总有麻烦：

而「On-Policy Distillation」把两种方法的优点捏到了一起。
✨ 主要特点：这三大优势，让它脱颖而出！

1. 行业痛点：传统后训练方法的“两难困境”

后训练阶段，行业主流有两种思路，但都存在明显短板。我们以“训练小模型解数学题”为例，直观对比两者的优劣：

训练方式	核心逻辑	优点	缺点
On-policy	学生模型自己“试错”（采样轨迹），最终按结果给奖励（如RL）	轨迹是学生真实走过的，适配性强	反馈极稀疏（仅“对/错”），无法定位中间错误
Off-policy	学生模仿教师模型/标注数据的输出（如SFT+蒸馏）	反馈更密集、训练过程可控	只学教师“常走路线”，遇新状态易出错，长任务会出现“累积错误”

对比过去的方法：

RL只会说“答案21错了”，学生还是懵，但学生下次遇到自己的错题还是不会改。
「On-Policy Distillation」的核心逻辑特别好懂：

2. 效率炸裂！成本直接砍到1/10

AI训练最烧钱的就是「GPU小时」，而「On-Policy Distillation」把成本压到了极致：
实验数据，在「AIME'24」数学基准测试中（类似AI的数学考试）：

更省的是数据：离线蒸馏要200万条提示才能到70%正确率，它只用7.7万条就达标，数据效率直接拉满。

3. 治好大模型的“健忘症”——学新技能不丢旧本事

大模型有个烦人的毛病：学了新东西，旧能力就忘（比如学了公司文档后，之前的聊天、指令理解能力没了，这叫「灾难性遗忘」）。

但「On-Policy Distillation」能解决这个问题：
博客里做了个实验——训练一个“公司内部助手”：

📝 总结：AI训练“性价比之王”，未来可期！

「On-Policy Distillation」不是什么“颠覆式创新”，而是「精准解决痛点」的实用工具：
它补了RL“反馈稀”、离线蒸馏“不落地”、大模型“爱健忘”的坑，还能砍成本、省数据。

对AI从业者来说，以后不用花大价钱租GPU，小模型也能训出媲美大模型的专业能力；对行业来说，不管是做「数学推理AI」「企业内部助手」，还是「持续学习的对话机器人」，它都能帮上忙。

如果你关注AI技术落地，这个方法值得重点盯——毕竟能「降本增效」的技术，永远是行业的香饽饽～

账号		自动登录	找回密码
密码			注册

萍聚头条

【AI技术解读】On-Policy Distillation:让小模型也能“精准学、低成本跑”的训练新范式

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块