作者:微信文章
过去一年,一个越来越流行的叙事正在 AI 行业内部迅速扩散:由于高质量的人类真实数据(Human-generated data)几乎被耗尽,开发者正大规模转向使用 合成数据(Synthetic Data),即“用 AI 训练 AI”。笔者曾在不止一次的会议上听到研究人员、产业人士提过或者正在做这样的事情。
在语言模型、图像生成、代码补全等领域,这条路径看起来颇为成功,也正在被视为“规模瓶颈之后的新增长曲线”。这条路是对的吗?如果把视角转向自动驾驶,这个叙事会立刻显露出一个根本性问题--并非所有 AI,都可以被“AI 生成的数据”持续喂养。自动驾驶,恰恰是那个最残酷、也最具警示意义的反例。一、模拟数据 vs 真实数据:差异不在“真假”,而在“权重与责任”
即便大量使用模拟数据,自动驾驶系统仍然必须在真实世界完成三项关键校准:概率分布校准、哪些情况常见,哪些罕见但高风险。风险偏好校准--哪种错误更不可接受,激进与保守的边界在哪里。闭环责任校准--错误 → 后果 → 责任 → 修正 → 再验证。这是一条只能在真实道路上完成的闭环。五、更深一层的问题:AI 用 AI 训练 AI 的天花板在哪里?
从更高层看,这并非工程问题,而是方法论问题。生成式 AI 的本质是:在已知分布内进行高质量补全。而自动驾驶面对的是开放世界、非平稳分布;由社会博弈驱动的行为系统。这意味着,如果长期脱离真实世界输入:模型会在自己的认知闭环中不断自洽、表现看似越来越好,却可能越来越偏离现实。这在承担真实世界责任的系统中,是不可接受的。六、自动驾驶给整个 AI 行业的一个冷静提醒
自动驾驶正在用最残酷的方式提醒整个 AI 行业:模拟数据的价值在于“加速”,真实数据的价值在于“定性”。前者决定效率,后者决定资格。当 AI 系统开始进入真实世界、开始影响生命安全、开始承担法律与社会责任时——时间、规模与真实运行,将成为任何模型能力之上的终极约束。这也是为什么,在自动驾驶领域,真正的护城河从来不是“谁更会生成数据”,而是:谁能更长时间、更大规模地活在真实世界里。
还有一个严峻问题,那就是“用 AI 训练 AI”。虽然这种方式能够极大地降低成本并填补数据缺口,但也带来了独特的风险--核心挑战:模型崩溃(Model Collapse)
当 AI 长期且重复地在自身生成的内容上进行递归训练时,会出现以下现象:
模型崩溃: AI 会逐渐遗忘真实分布中的“长尾”细节(即罕见但重要的信息),输出开始趋向于平庸的平均值。那如何避免“崩溃”?
1、必须在合成数据中按比例混入真实的人类数据,以保持模型对现实世界的感知。
2、通过控制 AI 生成特定领域的异构数据(如不同文体、不同逻辑),来增加合成数据集的广度。
3、建立严格的 AI 自动审核机制(如 InstructLab),剔除低质量或带有严重偏见的内容。
“用 AI 训练 AI”也会导致误差叠加: 初始模型的微小错误或偏差会在每一代训练中被放大,最终导致模型输出变得荒诞、无意义(Gibberish)。