|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
作者:微信文章
结论1:AI技术正经历着一场惊人的加速发展,在过去几年中取得了指数级的进步,在许多任务上已经超越人类。预计在未来几年内,AI 在现有主流基准上将全面稳定地超越人类水平,并且AI 的“智力天花板”将被持续推高。
这张图表展示了从2012年到2024年初,8项关键AI技术在特定基准测试(Benchmarks)上的表现,并与人类在该任务上的表现(Human baseline,设定为100%)进行比较,其中7项已经超越了人类基准线,剩余1项也很接近了。特别值得注意的是近几年的发展速度,随着半导体技术的进步,多条曲线,尤其是代表更复杂能力的曲线,在2021年之后呈现出非常陡峭的上升斜率。
图像分类(Image Classification, ImageNet Top-5):在2015-2016年就接近或达到了人类水平。
中等水平的阅读理解(Medium-level reading comprehension, SQuAD 2.0):在2018-2019年达到。
英语语言理解(English language understanding, SuperGLUE):在2020-2021年左右超越人类。
视觉推理(Visual reasoning, VQA):在2020-2021年超越。
多任务语言理解(Multitask language understanding, MMLU):在2023-2024年超越。
竞赛级数学(Competition-level mathematics, MATH):从相对较低的水平在短时间内实现了巨大的飞跃,在2023-2024年超越。
博士级科学问题(PhD-level science questions, GPQA Diamond):AI的表现从出现开始就迅速攀升,在2023-2024年超越。
多模态理解与推理(Multimodal understanding and reasoning, MMMU):在2022年后也显示出加速增长。
反映了AI能力的发展路径:早期突破主要在感知层面(如图像识别)和相对基础的语言任务。而近年来的快速进展则更多地体现在需要更深层次理解、逻辑推理、跨学科知识应用(MMLU, GPQA)以及整合多种信息模态(MMMU, VQA)的复杂认知任务上。
结论2:顶尖AI智商已经达到人类前1%,进入了传统意义上“高智商”的区间。挪威门萨(Mensa Norway)IQ测试是门萨国际组织在挪威分支的标准化智力评估工具,其测试时长为25分钟35题,最高分数设置为145(标准差15),主要考察图形分类、空间推理、逻辑关系等能力。TrackingAI.org通过两种不同的 IQ 测试,一种自己出题、不上线的"Offline Test" 和 "Mensa Norway" 挪威门萨测试来评估和比较不同人工智能(AI)模型的“智商”水平。每周测试 20 个语言 AI 和 6 个视觉 AI,并显示最近 7 次测试的平均分数。在挪威门萨测试中:
2025年4月17日发布的openAI O3智商136,已经达到人类前1%的水准2025年3月25日发布的Gemini 2.5 Pro Exp.智商128,接近人类前2%大多数AI智商已经超过100,超越了人类的平均值
128的数值和我每天用Gemini 2.5 Pro的体感基本吻合,经常会被它的智商惊叹到。
在"Offline Test"中,3个大模型超过110:
2025年4月17日发布的openAI O3智商1162025年3月25日发布的Gemini 2.5 Pro Exp.智商1152025年2月25日发布的Claude 3.7 Sonnet Extended,智商110
AI 在不同类型的 IQ 测试中表现可能差异巨大。这也提示我们,使用单一 IQ 测试来评估 AI 的“通用智能”可能存在局限性,结果可能受到测试设计和 AI 模型特定能力的强烈影响。Mensa Norway 测试的高分可能反映了当前 AI 在模式识别、逻辑推理(尤其是非语言类)方面的强大能力。
|
|