找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 128|回复: 0

AI进入下半场,重心已从“训练”转向“评估”,新机会已经出现!

[复制链接]
发表于 2025-11-15 21:51 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
这几天,我的注意力都被一个非常有趣的AI比赛吸引了——六个全球最顶级的AI各拿1万美元炒虚拟币。
今天我不是来讲这个比赛的,只是从这个比赛发现,AI 已经进入下半场了,重心从“训练”转向了“评估”,评估 AI 在各个不同行业的作用,以及定义问题和解决问题。

上半场揭秘:AI为什么突然这么猛?


很多人以为AI的进步就是砸钱、堆数据、做大模型。
但真正的性能拐点来自强化学习 (Reinforcement Learning)。

等等,强化学习是80年代的老算法了,为什么现在才爆发?
因为OpenAI找到了一个“作弊级”的配方:

超强性能 = 80% (先验知识 + 环境) + 20% (强化学习算法)

这是什么意思?
    • 先验知识: 就是那个砸了几百亿训练出来的“预训练大模型”。它已经懂得了“巴黎是法国首都”、“天空是蓝色”等海量世界知识。你不是从零开始训练一个“小白”。• 环境: 就是AI的“互动场所”,比如电脑界面、游戏世界、代码编辑器,甚至是真实的机器人。• 强化学习: 只是最后那临门一脚的“算法”。

性能贡献的80%都来自前两者。你给AI一个足够好的“知识底座”和一个“高质量的训练场”,它的性能就会飞涨。

上半场的“天花板”:我们的考卷不够用了!


正因为这个“配方”太猛,AI进步快到让我们“飞在盲区”。
我们用来衡量AI能力的“考卷”(即各种测试集),正在以前所未有的速度失效。

举个例子:一个叫MMLU的测试集,好几年前还是“高考地狱难度”,大家都在刷分作弊。而到了今天,顶尖模型不作弊也能随随便便拿满分。

这就导致了一个巨大的问题:评价体系失真了。
    • 一个2020年的模型考76分。• 一个2025年的模型考99分。• 分数只差了不到50%,但实际性能可能差了几百倍!

当所有AI都开始考98、99、100分时,我们就彻底分不清谁好谁坏了。所以,测试集的寿命越来越短。

我们还在用“小学数学题”去考“博士生”,这套评价体系已经崩了。

欢迎来到下半场:重新定义问题


既然“训练”已经不是瓶颈,那么“下半场”的挑战是什么?
答案是:评估与定义问题。

我们不能再用“5000道选择题算平均分”这种方式来测试AI了。我们需要全新的、更高级的“考卷”。

未来的测试会是怎样的?
不再看单次得分,而是看“长期成长性”。

这就像一个刚入职的实习生:
上半场的考法: 让他做一道题,看他会不会。(得分90)
下半场的考法: 让他去一个真实的代码库工作。看他是不是越干越熟练?是不是能从重复的错误中学习?是不是能更快地适应新工具?

我们评价AI,也要看它在真实、复杂的环境中,能否表现出“持续进步”的能力。

天平已经转动:AI 下半场的四个机会


既然天平已经转动了,那机会会在哪里?

简单来说,机会从“造锤子”的人,转向了“设计图纸”和“制定标准”的人。

以下是这一转变带来的四个机会:
1. 评估即服务 (Evaluation-as-a-Service)


随着所有模型都接近满分,传统的“考卷”(如MMLU)失效了。市场急需新一代的“考场”和“考题”。
    • 新型评估基准(Benchmark 2.0): 开发能够衡量AI“真正能力”的工具会成为一个巨大的产业。这不再是静态的选择题,而是:
      • 动态环境: 创造像游戏或模拟器一样的复杂环境,评估AI的长期学习、适应和成长能力。• 多智能体(Agent)评估: 测试AI在多任务协作、对抗或谈判中的表现。• 行业专用基准: 为金融、法律、医疗等垂直领域设计专业“资格考试”,评估AI在真实工作流中的表现。
    • 创业/就业方向: 创办提供AI模型评估、比较和排名的第三方平台;或者加入大公司开发内部的评估工具套件。
2. AI安全与对齐(AI Safety & Alignment)


这是“评估”领域最重要、最紧急的方向。当模型强大到我们无法完全预测其行为时,“评估”就等于“安全”。
    • AI审计师与红队(Red Teaming): 这是一个全新的职业。专门负责像黑客一样攻击和测试AI,找出它的漏洞、偏见、安全隐患和“胡说八道”的倾向。• 可解释性 (Interpretability): 开发工具和技术,让我们能“打开黑匣子”,理解AI为什么会做出某个特定决策。• 治理与合规: 随着各国政府(如欧盟的AI Act)出台法规,企业需要大量合规专家和工具,来证明其AI系统是公平、透明、无害的。• 创业/就业方向: 加入顶级AI实验室(如OpenAI、Anthropic)的安全与对齐团队;或创办AI安全审计公司,为企业提供合规咨询和服务。
3. 问题定义者(Problem Definer)


这是“定义问题”的核心。AI是锤子,但现在的问题是我们缺乏好的“图纸”。
    • AI产品经理/策略师: 这个角色的价值将急剧上升。他们不需要是顶级的算法工程师,但必须深刻理解某个特定行业(如制药、材料科学、教育、客服)。• 工作: 不再是问“AI能做什么?”,而是定义“在我的行业里,最有价值的、可以被AI解决的、且能被清晰评估的问题是什么?”• 例子:
      • 客服领域: 定义一个好的客服AI,不再是看它回答了多少问题(旧指标),而是看它在多轮对话后,能否主动识别并解决客户的“潜在未说出口”的需求(新指标)。• 科研领域: 定义一个“能从数据中发现物理定律”的任务。
    • 创业/就业方向: 成为连接AI技术和行业需求的“翻译官”。如果你在某个行业有深厚经验,现在去学习AI,你的价值将远超单纯的AI工程师。
4. 高质量的环境与数据(The "Environment")


如前所述,性能的80%来自于“先验知识和环境”。在“训练”的上半场,大家比拼的是“先验知识”(预训练数据)。在“评估”的下半场,大家比拼的就是“环境”。
    • 模拟器与数字孪生: 创造高保真的虚拟环境(如自动驾驶模拟器、机器人操作系统模拟、复杂的金融市场模拟)将是核心基础设施。AI在这些高质量环境里“试错”和“评估”的成本远低于现实世界。• “反馈”数据的收集: 强化学习的核心是“反馈”(奖励或惩罚)。如何设计机制,高效收集人类对AI行为的优质反馈(即RLHF的进化版),将是决定模型能否持续改进的关键。• 创业/就业方向: 开发用于AI训练和评估的专业模拟软件;或研究如何更高效地收集和利用人类反馈数据。

复合型人才的春天


AI的“下半场”对“通才”和“复合型人才”极其友好。
    • 如果你是工程师,可以转向AI评估工具、安全和可解释性领域。• 如果你是行业专家(如医生、律师、教师、科学家),你的机会来了。你的行业知识现在是定义AI应用边界和评估标准的最稀缺资源。

轮到你了

    • 根据这个逻辑,你觉得还有哪些机会呢?欢迎在评论区留言,我们一起交流。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-11-22 22:09 , Processed in 0.089509 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表