如果你是大模型竞品公司的工程师,这或许是个好消息!对我个人而言,作为一个试图利用大模型能力赚钱的人,它们还没有聪明到能解决整个问题,对那些担心快速过渡到 AI 经济会带来道德风险的人来说,或许也不需要太过担忧了。
与此同时,有一种观点认为,模型得分与消费者体验脱节是一个不好的迹象。如果业界现在还搞不清楚如何衡量模型的智力,而模型大多局限于聊天机器人,那么当 AI 在管理公司或制定公共政策时,又该如何制定衡量其影响的标准呢?如果我们在将公共生活中繁琐而艰难的部分委托给机器之前就陷入了古德哈特定律(当一个政策变成目标,它将不再是一个好的政策),我想知道原因。
AI 实验室是在作弊吗?
AI 实验室的创始人们经常认为,他们正在进行一场文明竞争,以控制整个未来的光锥,如果他们成功了,世界就将会改变。指责这些创始人从事欺诈行为以进一步实现这些目的是相当合理的。
然而在大模型领域,除了几个明显的例外,我们几乎所有的基准测试都具有标准化测试的外观和感觉。我的意思是,每一个都是一系列学术难题或软件工程挑战,每个挑战你都可以在不到几百个 token 的时间内消化并解决。也许这只是因为这些测试评估起来更快,但人们似乎理所当然地认为,能够获得 IMO 金牌的 AI 模型将具有与陶哲轩相同的能力。因此,「人类的最后考试」(ENIGMAEVAL)不是对模型完成 Upwork 任务、完成视频游戏或组织军事行动的能力的测试,而是一个自由反应测验。
我不会做任何「人类的最后考试」的测试问题,但我今天愿意打赌,第一个拿到满分的大模型仍然无法作为软件工程师就业。 HLE 和类似的基准测试很酷,但它们无法测试语言模型的主要缺陷,比如它们只能像小商贩一样通过复述的方式来记住东西。Claude Plays Pokemon 是一个被过度使用的例子,因为视频游戏涉及许多人类特定能力的综合。这项任务适合于偶尔回忆 30 分钟前学到的东西,结果不出所料地糟糕。
就我个人而言,当我想了解未来能力的改进时,我将几乎只关注 Claude Plays Pokemon 这样的基准测试。我仍然会查看 SEAL 排行榜,看看它在说什么,但我的 AI 时间表的决定因素将是我在 Cursor 中的个人经历,以及 LLM 处理类似你要求员工执行的长期任务的能力,其他的一切都太过嘈杂。
这并不是说 AI 模型认为它遵循了你的指示,但实际上并没有。LLM 实际上会在简单的应用程序中说,它报告的是一个「潜在」问题,并且可能无法验证。我认为发生的情况是,大型语言模型被训练成在与用户的实时对话中「看起来很聪明」,因此它们更喜欢突出显示可能的问题,而不是确认代码看起来不错,就像人类想要演得很聪明时所做的那样。