萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 199|回复: 0

AI 的下半场:从模型训练到现实任务

[复制链接]
发表于 2025-4-20 23:32 | 显示全部楼层 |阅读模式
作者:微信文章
最近,OpenAI 的研究员姚顺雨的这篇 blog(The Second Half: https://ysymyth.github.io/The-Second-Half/)非常火。仔细研读了一些,记录了一些笔记。

如果要用一句话概括,可能是 AI 的下半场将把重心从「如何把模型训到过关」转向「先界定真实世界中值得解决的任务,再用交互式、顺序式的评估去衡量进步」。


趋势是什么?

现在和之前有什么不同:RL finally works(强化学习终于见效了),更准确地说是 RL finally generalizes(强化学习终于泛化了)。

接下来会发生什么?从解决问题过渡到定义问题。

在新时代评估比训练更重要。不应该只是问“我们能训练一个模型解决 X 问题吗?”更应该转向“我们应该训练 AI 做什么?我们应该如何衡量真正的进步?”心态和技能从关注技术的研究员视角转变为用户和问题解决视角的产品经理视角。
上半场:以方法为核心的时代

在 AI 的上半场,研究的重心在于训练更强大的模型、发明更高效的算法。论文引用量的分布可以说明这一点:

模型训练和方法的论文引用量显著高于基准或任务的引用量。

为什么会这样?

A great new method can hillclimb many different benchmarks because it’s simple and general, thus the impact tends to go beyond an individual task. 一个好的新方法可以在很多 benchmark 上爬山,因为它足够通用、足够简单,因此能产生超出单一任务的影响力。

因为在过去,“方法”不仅更难做、也更吸引人——它具备通用性和上限未知的探索空间。——创建一个新的算法或模型架构需要非凡的洞察力与工程能力,此外方法通常也比单点的任务更通用。
Recipe:通用智能的配方

作者总结了过去几年推动 AI 突破的“配方”:

大规模语言预训练 + Scale(数据和算力)+ Reasoning & Acting(推理与行动)

只要按比例堆料并持续加热,就能复制出强大的通用模型。

为什么这个配方它能够奏效?

可以用 RL 的经典三要素——环境 (Environment)、算法 (Algorithm)、先验 (Prior)——来解释:过去大家聚焦算法,环境通常被简化为恒定的小玩具世界;而在深度 RL 时代,真正决定模型性能的是海量多样的环境/语料与恰当的先验,算法更像“火候控制”,作者说 “到头来 RL 算法可能是最琐碎的部分”。

OpenAI 曾经希望将所有的数字世界都变成一个可交互的环境、然后用智能的 RL 算法解决它,最终得到数字世界的 AGI。但实践证明,缺失的并不是算法,而是先验知识(可以通过与 RL 无关的方式获得)和任务设计。

回顾上半场的游戏逻辑是:发明新的方法 → 攻克已有 benchmark → 设计更难的 benchmark → 再发明新方法…如此反复,形成了一个“刷榜-内卷”循环。


下半场:从“能做”到“该做”

传统基准刷榜分数越来越高,但对经济和用户价值提升有限。作者认为这是当前 AI 面临的最重要的问题 —— utility problem(效用)问题。

随着 RL 的泛化能力增强,AI 的发展进入了下半场:评估比训练更重要。我们需要重新思考两个问题:
    我们应该训练 AI 做什么?我们应该如何衡量进步?
下半场的游戏规则

我们应该从根本上重新思考评估。传统的评估方法设计和现实世界的设计方式有很大差异:
    传统的评测假设任务是自动运行的,现实中的 Agent 则需要与人互动(不是你发一段长消息,然后等十分钟后得到结果,而是多轮的互动)。传统的评测假设任务是独立、随机分布的(如测试集包含 500 个任务,对每个任务单独评测,再把各项指标平均得到总分),现实中人们是按照顺序逐个完成任务,而不是一次性并行。

为此,作者在博客中指出 AI 下半场的游戏规则是:


    为现实世界制定新的、具备实用性的任务和评测。(贴近真实应用、包含交互、动态变化或安全对齐维度,让“有用”而非“刷榜”成为目标。)再用那份配方(或给配方添加新材料)来解决这些任务。通过「评测 → 暴露短板 → 改进配方 → 再评测」如此往复形成正向循环。
写在最后

未来的 AI 研发和应用,可能更像是产品经理视角:

不只是去思考“我们能不能做某件事”,而是要问“我们该做什么、用户需要什么”。

从技术驱动,到任务导向,AI 的 paradigm shift 正在发生 —— 关注更好的任务定义、更合理的评估设计。

注:原文版权归博客作者所有,本文仅用作学习交流用,侵删。另文章配图由 GPT4o 生成,可能存在拼写错误。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-5-6 13:31 , Processed in 0.053804 second(s), 15 queries , Redis On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表