找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 299|回复: 0

麻省理工给孩子的AI启蒙课第四课 | 机器学习之AI视觉革命的“基础设施”是什么(必备知识点梳理-2)

[复制链接]
发表于 2025-3-14 02:02 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

上一篇梳理了计算机的视觉模型、将视觉认知进行数学抽象的技术——卷积神经网络(CNN,机器学习之什么是“卷积神经网络”(必备知识点梳理-1),今天继续来梳理第二个知识点:用于计算机视觉和深度学习模型训练的大规模图像分类数据集,AI视觉革命的“基础设施”——ImageNet。

ImageNet是由斯坦福大学李飞飞教授团队,于2009年推出的大规模图像分类数据集,它包含超过1.4亿张图片(截至2023年的数据,初始版本为1400多万),覆盖2.1万种物体类别(如动物、植物、日常用品等)。它的核心目标是为人工智能模型提供丰富、多样化的训练数据,解决传统AI依赖人工标注数据的局限性。(详情请参考李飞飞教授于2015年的TED演讲)

李飞飞教授2015年TED演讲视频

形象点来理解,ImageNet就是AI的“图像百科全书”,和人类通过阅读海量书籍学习知识一样,它为AI提供了覆盖广泛视觉概念的图像数据。此外,ImageNet还是训练AI的“沙盒”,开发者可以用它测试和优化模型,就像用标准试题检验学生的学习效果一样。

w2.jpg

1. 创建背景

李飞飞在普林斯顿大学攻读博士期间(1996-2001),师从诺贝尔奖得主霍普克罗夫特(John Hopcroft),专注于人工智能和计算机视觉领域的研究。这一时期,她对图像理解的核心挑战——如何从海量数据中学习特征——已经产生了深刻思考。

2006年访问谷歌时,她接触到谷歌的图片搜索技术,意识到如果能将互联网上的海量图片组织成结构化数据库,将对机器学习产生巨大推动。后来,她结识了WordNet项目的负责人Christian Felbaum(自然语言处理领域的著名学者),后者提及的通过视觉示例阐释WordNet中概念的计划,成为ImageNet项目的灵感来源。“ImageNet”这个名字也来源于此。

w3.jpg

WordNet是一个由普林斯顿大学认知科学实验室开发的英语词汇数据库,不同于传统的字典或词库,它把单词按照意义组成同义词集,形成一个巨大的语义网络(semantic network)。也就是说它是按照单词意义组织起来的一个“语义词典”,与常规字典的按字母顺序排列完全不同。WordNet将人类语言抽象为了可计算的结构,为机器理解语义提供了首个大规模标注数据集,至今仍是语义理解的核心资源,在自然语言处理和人工智能领域有着十分广泛和重要的应用。

w4.jpg

2007年,李飞飞联合普林斯顿的同事Alex Krizhevsky、Ilya Sutskever(后两人因AlexNet闻名)及斯坦福的学生,开始构思ImageNet项目。

2. 数据收集与标注

李飞飞团队最初计划手动标注约2000万张图片(覆盖2.2万个类别),但按每小时10美元的人工成本计算,需19年才能完成。这一方案因时间与资金压力被放弃。

2008年,团队成员孙民引入著名的在线众包平台Amazon Mechanical Turk(AMT),将标注任务拆分为微任务分配给来自全球167个国家的近五万名志愿者。通过这一模式,标注效率提升至日均处理数千张图片,最终仅用两年半,便完成了全部数据集的标注工作。

w5.jpg

ImageNet的图片标注采用了采用“三重审核”机制:初级标注由AMT志愿者完成,复核由斯坦福学生交叉验证,最终审核由李飞飞团队人工抽查。最终,其标注准确率达95%以上,成为行业标杆。

ImageNet的图片标注,采用了图像级标注和对象级标注两种方式。图像级标注用于判断图像中是否存在特定的对象类,如 “此图像中有老虎” 或 “此图像中没有老虎”;对象级标注不仅要指出图像中存在的对象类,还要提供指定对象(的可见部分)周围的边界框信息,即在图像中如果有老虎,标注人员会在老虎的可见部分周围绘制一个矩形框(即边界框),并记录该边界框的坐标信息,如左上角坐标和右下角坐标。

3. 成果发布与影响

2009年,ImageNet正式发布,包含1400万张图像、2.2万个类别(基于WordNet层级结构),其中100万张图像有边界框标注,成为当时全球最大的图像数据库。

w6.jpg

4. ImageNet大规模视觉识别挑战赛(ILSVRC)

2010年,ImageNet开始主办ILSVRC挑战赛,吸引了全球顶尖团队参与。参赛者需要基于ImageNet数据集的1000个类别子集、超过100万张图片展开图像分类、目标检测等任务竞赛。

该竞赛见证了深度学习的崛起:

    2012年,AlexNet首次采用卷积神经网络,将图片识别的错误率从25%降至15.3%(深度学习由此崛起);后续GoogLeNet(2014年,6.67%)、ResNet(2015年,3.57%)和SENet(2017年,2.25%)不断突破技术瓶颈,正确率最终超越人类识别水平(人类的错误率约为5%)。


    该竞赛推动了GPU算力与分布式训练技术发展,催生了工业界与学术界的深度合作(如谷歌、百度等团队参与),激发了深度学习领域的“里程碑式事件”,并直接影响了CVPR、ICCV等计算机视觉领域顶级学术会议的研究方向。ILSVRC挑战赛于2017年举办了最后一届,该赛事的落幕也标志着ImageNet退出一线研究场景,让位于了多模态与长视频理解的数据集。

w7.jpg

5. 新一代数据集的崛起

李飞飞团队近年聚焦于空间智能(Spatial Intelligence),并于2023年创立了World Labs,尝试将ImageNet的经验迁移至三维场景理解,目标是让AI像人类一样“理解空间关系并预测物理世界”。2024年,李飞飞与吴佳俊团队推出了HourVideo数据集,专注于评估多模态模型对一小时以上长视频的理解能力。与ImageNet的静态图像不同,HourVideo 模拟了人类对动态场景的感知方式,直接挑战当前模型(如 Gemini Pro 1.5)的短板。(此即李飞飞教授在2024年TED的演讲主题)

李飞飞教授2024年TED演讲:两个演讲时隔九年,AI的发展对比让人惊叹

新兴的替代数据集:

COCO:侧重目标检测与分割,支持多任务标注(2017年发布)。

OpenImages:包含800万张图像、600个类别,强调真实场景复杂性(2016年发布)。

视频数据集:如YouTube-BERT(2019年)和Veo 2(2025年),推动跨模态AI发展。

6. ImageNet当前的应用场景

ImageNet作为人工智能领域的里程碑式数据集,当前其地位已从单纯的数据集演变为了深度学习基础设施的核心组件,主要应用于预训练和迁移学习,同时在技术评估、跨领域研究等领域持续发挥影响力。

ImageNet是目前迁移学习的核心资源,其预训练模型通过微调可适配医疗影像分析(如CheXNet)、自动驾驶(目标检测)等场景,显著降低新任务的数据需求。

ImageNet的扩展版本(如ImageNet-21K)包含更多类别和场景,支持多模态研究(如视觉-文本联合训练)11。其层次化结构也为语义理解任务提供了基础。

尽管ILSVRC竞赛已停办,但ImageNet仍是学术界验证新算法的重要平台。例如,2023年Sora视频生成模型仍以ImageNet的视觉理解能力为参考。

w8.jpg

7. 总结

根据李飞飞教授的演讲,ImageNet的诞生是为了让计算机能够学会“看”世界。它的大规模数据完美适配了卷积神经网络的训练需求,让一口准备好几十年的锅(CNN在上世纪七八十年代已是成熟技术),终于炒上了菜(ImageNet)。这两者的结合,一是产生了对强大算力的需求,由此推动了GPU(图形处理器)的迭代,成就了英伟达(NVIDIA)公司在AI芯片业的霸主地位,二是激活了深度学习的第二次生命,在2012年的ImageNet大规模视觉识别挑战赛上,AlexNet横空出世,深度学习的研究和发展由此再次起航。

当前,ImageNet的地位已经从单纯的数据集转变为了人工智能发展的基础设施,在迁移学习、模型预训练以及模型性能评估上发挥着巨大作用。而接续ImageNet数据集地位的是多模态数据集、场景化专业数据集、自监督与合成数据集以及基于ImageNet数据集自身的进化和拓展版本等。

竟然这么难梳理!但是,但是,我竟然觉得自己有那么稍许的开窍了~

今天不学,要工作、要看书,周末不学,要玩耍、要带娃~
提前祝大家周末愉快~


w9.jpg

w10.jpg
关注我 不迷路
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-8-9 17:41 , Processed in 0.137862 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表