找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 120|回复: 0

「AI 产品调研」|17 亿美元的 LMArena,正在如何终结 AI 评测刷榜时代?

[复制链接]
发表于 2026-1-8 00:03 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
上周在一个 AI 产品群里,有人丢出了一张截图——某家刚拿到 B 轮的创业公司,宣称他们的模型在 MMLU 上超过了 GPT-4。群里沉默了几秒,然后有人回复:“又是这套叙事。”

这种集体性的疲倦,可能是 2025 年 AI 圈最真实的情绪。每周都有新的榜单冠军,每个月都有“史上最强”的开源模型,但打开来用,要么是在特定题库上过拟合了,要么就是回答得云山雾罩。最后大家私下交流时,还是会问:“你们生产环境用的到底是哪个?”

w1.jpg

就在这种信任崩塌的背景下,一个看起来相当简单的项目拿到了 1.7 亿美金的融资。它叫 LMArena,原名 Chatbot Arena,来自伯克利的 LMSYS 实验室。估值 17 亿美金,年收入 1500 万美金——56 倍的市销率,这在 SaaS 行业里已经是顶级独角兽的待遇。

它的核心产品逻辑简单到令人意外:让用户看两个匿名 AI 的回答,选出哪个更好。
为什么“开盲盒”比跑代码更可信?

第一次接触 LMArena 是在 2023 年夏天。当时 GPT-4 还是个稀缺品,20 美金的月订阅对很多开发者来说不算小数。在 Reddit 上看到有人提到,通过 LMArena 测试有 50% 概率能免费调用 GPT-4,于是就点进去了。

w2.jpg

界面简陋得让人怀疑是个实验室的临时项目。输入问题,等两个匿名的“Model A”和“Model B”同时回答,然后投票选出更好的那个。只有在投票之后,系统才会揭晓这两个模型的真实身份。

那种体验很独特——有点像在进行某种心理实验。你会开始质疑自己的判断:“这个回答的排版是不是影响了我?”“看起来更专业,但真的回答了核心问题吗?”

后来才知道,这种设计不是为了好玩,而是数学上的必然选择。传统的评测方式会问“这个回答打几分”,但问题在于,每个人心中的 8 分标准都不一样。有人觉得回答得详细就是 8 分,有人觉得简洁才是 8 分。这种主观评分根本没法收敛成客观结论。

LMArena 用的是“成对比较”——不问绝对分数,只问相对好坏。数学上这叫 Bradley-Terry 模型,配合 Elo rating system,可以把几十万次模糊的主观判断收敛成一个相对稳定的排名。

这个设计的价值在于,它承认了主观性的不可避免,但用统计学的方式驯服了主观性。从产品设计角度看,这是一种“拥抱不确定性”的方法论——与其追求每个评分的绝对准确,不如让大量的相对比较自然收敛。

但这里有个没人愿意承认的问题

150 万次人类投票,听起来样本量很大,很“民主”。但如果你仔细观察榜单,会发现一个值得警惕的现象:排名靠前的模型,回答都在变长。

w3.jpg

在一次测试中,我遇到过这样的情况:Model A 给了段简洁的代码,功能完整;Model B 先解释了背景知识,再给代码,还加了详细注释,排版精美,语气友好。我犹豫后投给了 Model B。

揭晓时发现:Model A 是 GPT-4,Model B 是个相对小众的模型。

后来看到有人统计,人类评测者存在明显的 Verbosity Bias。只要回答得够长、排版够好、语气够友善,哪怕内容有些许瑕疵,也更容易获得好评。这类似于面试中的“表达能力陷阱”——会讲故事的候选人往往比真正有能力的候选人更容易通过。

这带来了一个系统性的后果:模型厂商开始针对 LMArena 的用户偏好进行定向优化。现在的 AI 回答中,不必要的冗余内容在增加,不是因为它们能力提升了,而是因为它们学会了迎合评价体系。

Scale AI 的创始人 Alexandr Wang 对此提出了质疑。他推出的竞品 Seal Showdown 采用了完全相反的逻辑:不要普通用户投票,而是雇佣领域专家进行付费评估。他的核心论点是——在医疗、法律、量子计算这些专业领域,大众的“直觉”不仅无法反映真实质量,反而会引入噪声。

这场争论目前没有定论。从产品定位看,两种模式针对的可能是不同的场景。LMArena 衡量的是“公众可接受度”,Seal Showdown 衡量的是“专业任务完成度”。如果你在做 C 端的对话产品,LMArena 的参考价值更高;如果是 B 端的垂直应用,可能需要构建自己的评测体系。

但不可否认的是,LMArena 已经在“话语权”这个层面赢了。
它是怎么冷启动的?

双边市场的冷启动问题,LMSYS 的解法相当聪明。2023 年 3 月,他们发布了开源模型 Vicuna,标签是“达到 GPT-4 90% 能力”。这个定位在开源社区引发了广泛讨论。

w4.jpg

为了证明这个 claim,他们搭建了一个体验页面。流量涌入后,页面上出现了“竞技场”入口——“你也可以对比一下 Vicuna 和其他模型”。

这是典型的“特洛伊木马”策略:用一个明星产品(Vicuna)作为流量入口,把用户导向真正的核心产品(Arena)。而且因为 Arena 里可以免费调用 GPT-4、Claude 这些商业模型,很多开发者愿意贡献投票以换取使用权。

从商业模式看,这种设计有一定的争议性。用户以为自己在“免费使用 GPT-4”,实际上在为 LMArena 生产高质量的 RLHF 数据。这些数据最终会被授权给模型厂商。但从产品冷启动的角度,这种“价值交换”是合理的——Google 用免费搜索换行为数据,Facebook 用免费社交换社交图谱,LMArena 的逻辑本质上是一致的。
那 17 亿美金到底在买什么?

1500 万美金的年收入,撑起 17 亿的估值,这个估值逻辑值得拆解。

表面上,LMArena 的收入来源包括:Private Arena(厂商付费内测)、数据授权、API 调用。但资本看中的是更深层的东西——定价权。

w5.jpg

可以想象这样的场景:一家企业要采购 1000 万美金的 AI 推理算力,决策依据是什么?不会是厂商的自测报告,也不会是技术社区的零散讨论,而是 LMArena 的排名。如果你的模型在 LMArena 上排第五,可能连 RFP 的门槛都进不去。

这种影响力的商业价值是巨大的。LMArena 不需要直接售卖产品,只需要维持榜单的公信力,全行业的资源配置就会按照它的指引流动。

这类似于标准普尔在金融市场的地位,或者米其林指南在餐饮业的地位。它们不生产实体产品,但掌握了最稀缺的资源——信任。

支撑这个商业模式的技术底座是 vLLM。这是 LMSYS 团队开发的推理引擎,通过 PagedAttention 技术,将大模型推理吞吐量提升了 20 倍以上。从成本结构看,如果没有这个技术,支撑 150 万次免费的商业模型调用在经济上是不可持续的。

vLLM 让 LMArena 不仅是裁判,也是技术供应商。这种“既参与游戏又制定规则”的双重角色,在传统行业会面临反垄断问题,但在 AI 这个快速演进的领域,暂时还处于监管的灰色地带。

但我始终有个疑问

当 Elo 排名开始直接影响融资额和股价时,Gaming the system 会成为必然。

w6.jpg

有讨论提到,部分厂商会针对 LMArena 的常见问题分布进行“针对性训练”。这类似于应试教育中的“题海战术”——如果模型被专门优化在特定 prompt 模式下表现更好,那 Elo 分数反映的就不再是通用能力,而是“应试能力”。

更隐蔽的问题是评测者群体的偏差。目前活跃在 Arena 上的主要是开发者、研究员、AI 爱好者,这个群体的偏好不一定代表普通用户。一个在 LMArena 上排名第一的模型,在真实的 C 端场景中,可能不如排名第五的模型实用。

LMSYS 团队也意识到了这些问题。他们在尝试“多维度排名”——在“创意写作”、“代码生成”、“逻辑推理”等不同维度分别排名。但这又引入了新的复杂性:维度如何划分?权重如何分配?这些决策背后,依然是主观判断。

从产品演进的角度看,任何评价体系在获得权力后,都会成为被博弈的对象。这不是 LMArena 特有的问题,而是所有“第三方评测”都会面临的结构性困境。
下一个战场在哪里?

文本对话的评测可能已经接近饱和。LMArena 最近推出了 Vision Arena(图像对比)和正在内测的 Video Arena(视频对比)。

但对这些扩展,我持谨慎态度。图像和视频的“质量”比文本更依赖主观审美。除非是明显的技术缺陷(如 AI 生成图像中的手部畸变),否则“哪张图更好”的问题很难形成共识。Midjourney vs DALL-E 的讨论经常会陷入风格之争,而非能力之争。

真正有价值的评测方向可能是 Agent。

未来的 AI 不只是回答问题,而是执行任务——预订机票、处理退款、编写并部署代码、甚至操控设备。评估 Agent 的能力,不能只看它的输出,还要看执行路径、容错能力、效率优化。

这需要一个动态的、可交互的测试环境,而不是静态的问答对。目前不清楚 LMArena 是否在这个方向布局,但如果他们做了,这会是一个量级更大的市场。

另一个值得关注的方向是 LLM-as-a-Judge。

人类评测的成本和速度是瓶颈。LMSYS 已经在尝试用 GPT-4o 这类顶级模型给其他模型打分。这在效率上是质的飞跃,但会引入新的偏差——如果 GPT-4o 本身偏好某种回答风格,那用它当裁判,所有模型都会向那个风格收敛。最终结果可能是同质化,而非多样性。

这是个需要权衡的产品决策:我们希望 AI 朝着“统一的最优解”进化,还是保持生态的多样性?前者效率更高,后者创新空间更大。


关注作者,如果有你感兴趣的 AI 产品,欢迎在评论区留言,我来安排时间调研和分析。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-1-9 04:38 , Processed in 0.095748 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表