找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 94|回复: 0

AI的“绩效考核”来了:OpenAI全新测评GDPval,大模型在真实任务上的首次成绩单

[复制链接]
发表于 2025-9-26 13:30 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
你都怎么判断一个大模型的能力如何:

是在MMLU上超越人类平均分?还是在数学推理任务超越现有SOTA XX%?

但其实,测评结果亮眼,并不代表模型在真实场景中表现更好。因为,现有评测往往考的是模型在考试题、学术题上的表现,而不是它在现实工作中的能力。

当人们对模型“零点几分的提升”越来越无感,到底如何判断AI在实际工作中的效果?

GDPval,

评估模型的“班力”有多强

针对这个问题,OpenAI昨天在官网发布了全新 AI 评测体系——GDPval,试图用一种全新的方式,来回答:AI 在真实、有经济价值的任务中,表现究竟如何?

w1.jpg

从名称就能看出GDPval的野心:GDPval 来源于国内生产总值(GDP)这一关键经济指标。OpenAI特意从对GDP贡献最大的行业中挑选了核心职业,进而抽象出一系列能够代表现实岗位价值的任务。

换句话说,GDPval 不仅要回答“模型会不会做题”,更要回答“它能不能创造经济价值”。

任务从哪来?

OpenAI选取了美国 GDP 贡献度最高的 9 个行业;职业筛选基于 BLS(美国劳工统计局)和 O*NET 的任务数据,优先选择知识型工作占比 ≥60% 的岗位,以聚焦 AI 最可能产生效能的领域。

w2.jpg

w3.jpg

w4.jpg

OpenAI选取的9个行业 左右滑动查看

测评设计了 44 个职业、1320 个任务,基本覆盖了社会中常见的高价值岗位(职业领域包括:零售贸易、批发贸易、信息产业、专业/科学和技术服务、医疗保健与社会援助、金融与保险、房地产与租赁、政府、制造业)。

任务形式

与传统 benchmark 最大的不同在于:GDPval 测的不是知识点,而是生产力。OpenAI这次给到的任务不是简单的“答题”,而是模拟一份完整的工作交付物。

测评由14 年从业经验的专业人士设计与多轮复核(每个职业 30 个全量任务;开源金集每个职业 5 个任务)。任务不是一句问答,而是带参考文件与上下文,要求输出完整交付物(文档、幻灯片、示意图、表格、多媒体)。

OpenAI举了几个例子:

制造业工程师:在汽车装配线上设计一款工装夹具(jig),简化电缆卷车的测试步骤,让原本需要两人操作的测试可以由一人完成。交付物是一份 3D 概念设计,并以 PDF 形式提交展示文档。

w5.jpg

批发销售分析师:审核近期批发订单,找出 SKU 级别的价格不一致和包装数量(Case Pack)错误,并用 Excel 制作校验表和汇总透视表,同时用 Word 撰写简要分析与改进建议,支持财务和合规。

w6.jpg

广告视频制片人:为一家 B2B 客户策划并执行 60 秒实拍广告,从 7 月 7 日启动会议到 8 月 29 日交付,需排定完整制作进度表,涵盖脚本、分镜、拍摄、后期和客户审阅环节,最终以可视化 PDF 日历形式提交。

w7.jpg

评测方式

OpenAI 采取了多层次的评价机制:

专家盲评:把 AI 和人类提交的成果混在一起,交给行业专家打分。专家不知道哪个是 AI 哪个是人类,确保评判公正。

多维标准:评分不仅看“对不对”,还看可行性、完整性、逻辑性和专业性,最大程度模拟现实职场的考核。

自动评审器:OpenAI 还训练了一个“AI 评委”,通过学习专家的偏好来预测评分,这样能在大规模样本上快速给出可靠参考。

这一整套设计,使得GDPval更接近真实世界的“绩效考核”。

首次结果:哪家最强,差距在哪?

在GDPval的首次评测中,参与的模型包括:GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro,以及 Grok 4。


    整体表现最强的是 Claude Opus 4.1。

在 220 个金集任务中,它的输出有将近一半的案例被专家评为“与人类专家一样好,甚至更好”。特别是在文档格式、美学呈现(如文档排版、幻灯片布局) 上,Claude 表现突出。

w8.jpg

Claude Opus 4.1在近一半的任务中,

产出的成果评分达到或优于人类。


    GPT-5 在“准确性”维度优势明显。

尤其是在查找专业知识、处理领域细节时,GPT-5的得分最高。整体来看,GPT-5的表现比GPT-4o提升显著,显示出过去一年模型进步的线性趋势——从GPT-4o(2024 年春发布)到GPT-5(2025 年夏),性能提升超过一倍。

w9.jpg

从GPT-4o到GPT-5,在GDPval任务上的表现

一年内增长了两倍多。

OpenAI的盲评数据显示:今天的头部模型已经逼近行业专家的平均水平。在部分任务中,AI的交付结果不仅能达到“持平”,还常常在专业性或呈现质量上被评为更优。不过,模型的不足同样明显:在复杂创造性任务、需要跨领域深度推理的场景里,人类专家依旧占优。

更让人意外的是效率差距。OpenAI 测算发现:

    完成同样的GDPval任务,AI模型平均比人类专家快约100倍。

    仅以API调用计费,AI模型平均成本比人类劳动力低约100倍。


当然,这里不包括现实使用中所需的人工监督、修改和与团队的整合流程。但即便如此,在模型强项任务上,“先交给 AI,再交给人类复核” 已经能带来显著的时间和经济节约。

GDPval仍有局限

目前,OpenAI的GDPval还只是一个初步尝试。它覆盖了 44 种职业、数百项任务,但依旧难以完整还原真实工作中的复杂性。

比如:

缺乏上下文积累:现在的评测多是一锤子买卖,没法体现多轮迭代和改进过程。现实中,一个法律简报可能要经过客户反馈、数次修改才能定稿;一份数据分析也常常需要反复验证和推敲。

任务定义清晰:GDPval 的任务通常都有明确的提示和参考文件,但真实世界往往模糊不清。比如,律师在动笔前必须先和客户沟通、厘清目标,而不是直接生成文档。

OpenAI表示将持续把GDPval扩展到更多的职业、行业和任务类型,并增加交互性,纳入更多涉及模糊信息处理的工作场景。长期目标是让GDPval能够更好地衡量模型在多样化知识工作中的真实进展。

“人机协同”的人工智能未来

GDPval的结果已经表明:在一些重复性强、定义清晰的任务上,AI的速度和成本优势十分明显。但这并不意味着“人类要被取代”。因为大多数岗位远远不只是把任务拆分清单然后逐一完成,它们还包含了沟通、判断、创造力,以及在不确定情境中做出抉择的能力。

GDPval的价值在于帮助我们找到不同模型擅长的环节,让人类能把精力投入到更具创造性、更有价值的部分。如果这种互补关系能够建立起来,它不仅能提升个人生产力,更有可能转化为大规模的经济增长。

参考来源:

OpenAI

https://openai.com/index/gdpval/
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-9-26 19:03 , Processed in 0.139180 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表