找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 149|回复: 0

【AI技术解读】On-Policy Distillation:让小模型也能“精准学、低成本跑”的训练新范式

[复制链接]
发表于 2025-10-28 20:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
最近由前OpenAI CTO Mira Murati创立的Thinking Machines又出了一篇[blog](https://thinkingmachines.ai/blog/on-policy-distillation/) 。提出了 On-Policy Distillation。非常值得一看。

之前,他们还写过lora,看这里:LoRA Without Regret(RLHF作者出品),可以说是Thinking Machines出品,必属精品。

w1.jpg
📌 简介:大模型“后期训练”的痛点,终于有解了!

一个能解数学题、懂医疗知识的AI大模型,训练要分三步走:
    预训练:学基础能力,比如说话、认常识(像我们小学学拼音识字);中期训练:学专业技能,比如读代码、看医疗文档(类似中学学数理化);后期训练:练特定行为,比如按指令聊天、一步步解数学题(好比大学练专业实操)。

但过去的“后期训练”总有麻烦:
    用「强化学习(RL)」吧,就像让学生自己做题,只知道“对/错”,却不知道错在哪一步(反馈太稀疏);用「离线蒸馏(Off-policy Distillation)」吧,又像让学生抄“学霸笔记”,但学霸的解题场景,学生根本遇不到(脱离实际)。

而「On-Policy Distillation」把两种方法的优点捏到了一起。
✨ 主要特点:这三大优势,让它脱颖而出!

1. 行业痛点:传统后训练方法的“两难困境”

后训练阶段,行业主流有两种思路,但都存在明显短板。我们以“训练小模型解数学题”为例,直观对比两者的优劣:
训练方式核心逻辑优点缺点
On-policy学生模型自己“试错”(采样轨迹),最终按结果给奖励(如RL)轨迹是学生真实走过的,适配性强反馈极稀疏(仅“对/错”),无法定位中间错误
Off-policy学生模仿教师模型/标注数据的输出(如SFT+蒸馏)反馈更密集、训练过程可控只学教师“常走路线”,遇新状态易出错,长任务会出现“累积错误”

w2.jpg

对比过去的方法:

RL只会说“答案21错了”,学生还是懵,但学生下次遇到自己的错题还是不会改。
「On-Policy Distillation」的核心逻辑特别好懂:

    先让“学生模型”自己做题(比如解「5+2×3」),生成完整的解题过程(哪怕错了也没关系);再让“老师模型”(性能更强的大模型)生成每个token的概率,学生,只要保证这个概率分布和老师相近即可。
    w3.jpg
2. 效率炸裂!成本直接砍到1/10

AI训练最烧钱的就是「GPU小时」,而「On-Policy Distillation」把成本压到了极致:
实验数据,在「AIME'24」数学基准测试中(类似AI的数学考试):
    用RL训练,要17920 GPU小时才能到67.6%正确率;用「On-Policy Distillation」,只花1800 GPU小时,正确率就冲到74.4%——成本降了10倍,效果还更好!

更省的是数据:离线蒸馏要200万条提示才能到70%正确率,它只用7.7万条就达标,数据效率直接拉满。

w4.jpg
3. 治好大模型的“健忘症”——学新技能不丢旧本事

大模型有个烦人的毛病:学了新东西,旧能力就忘(比如学了公司文档后,之前的聊天、指令理解能力没了,这叫「灾难性遗忘」)。

但「On-Policy Distillation」能解决这个问题:
博客里做了个实验——训练一个“公司内部助手”:
    先让模型学公司文档(新知识),结果聊天能力从85%掉到79%;再用「On-Policy Distillation」微调,聊天能力恢复到83%,公司知识还从36%涨到41%——既没忘旧技能,还把新技能学更牢了。
📝 总结:AI训练“性价比之王”,未来可期!

「On-Policy Distillation」不是什么“颠覆式创新”,而是「精准解决痛点」的实用工具:
它补了RL“反馈稀”、离线蒸馏“不落地”、大模型“爱健忘”的坑,还能砍成本、省数据。

对AI从业者来说,以后不用花大价钱租GPU,小模型也能训出媲美大模型的专业能力;对行业来说,不管是做「数学推理AI」「企业内部助手」,还是「持续学习的对话机器人」,它都能帮上忙。

如果你关注AI技术落地,这个方法值得重点盯——毕竟能「降本增效」的技术,永远是行业的香饽饽~
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-10-31 22:20 , Processed in 0.111462 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表