大侠编辑 + CDO 官网
大侠序:不是每个标题都值得大侠做个序,但这个不同。“Transformer”,在电子学领域译作 “变压器”,在动画片里则是 “变形金刚” 。给大侠印象最深的莫过于 “六面兽” 了,七七卡卡嘴里一念叨,各种形状的武器就变出来了。在 AI 领域,可以翻译成 “转换器”,但似乎业界的专家们大多主张不翻译了,大概可能谁也搞不清楚大脑里的东西是个啥,索性就这样吧。
回到这个标题,本意是 “实用转换器” 的崛起,不过大侠觉得,可能 “变形金刚” 更传神一些。所以就这样吧。看正文!正文:今年早些时候,当 DeepSeek 以一小部分资源匹配更大型 AI 模型的性能时,它在 AI 社区中引起了震动。警钟很明确:更大并不总是更好。“人们开始意识到,仅仅训练和继续扩展现有架构并不是最终的解决方案,” ABBYY AI 战略高级总监 Max Vermeir 说。这一启示来得正是时候。据 Vermeir 称,AI 行业对计算资源的渴望已经达到了贪婪的程度,一些模型需要 “数百 GB 的内存来运行一个实例”。这是一个现实检查,迫使该行业面对一个令人不安的事实:当前为多模态模型扩展基于 transformer 的架构的道路不仅具有挑战性;这可能是不可持续的。雄心壮志的十字路口:AGI 梦想与商业现实(The crossroads of ambition: AGI dreams vs. business realities)该行业正在见证一场可能重塑其未来的迷人分裂。“有这种双重动态正在发生,” Vermeir 解释道。“一个是 AGI 的持续竞赛,另一个是我们如何吸取教训并真正为商业环境中的人们服务?” 这种二分法不仅仅是理论上的,它还推动了公司如何实现 AI 的真正变化。ABBYY 在这场比赛中押注了另一匹马:小语言模型 (SLM)。“小语言模型的效率要高得多,” Vermeir 认为。“每当我们谈论文档 AI 和流程 AI 时......这一切都与速度、准确性和一致性有关,这与大语言模型(LLM)完全相反。大语言模型凭借其概率方法擅长完成一般任务,而 SLM 在特定的业务环境中提供聚焦的一致结果。基于智能体的 AI 的出现为这种复杂性增加了另一层。虽然围绕 AI 智能体的讨论相当多,但 Vermeir 警告说,“智能体清洗(agent washing)” — 将基本水平的自动化过度推销为复杂的 AI 智能体。然而,他仍然 “对这个项目更加乐观,因为它不会那么被炒作,而且实际上很快就会有实际应用。”技术战场:融合、注意力、对齐(The technical battleground: Fusion, attention, alignment)Vermeir 认为,AI 智能体成功实施的关键在于他们获得的工具。“智能体需要工具;智能体本身就是那种会思考的大脑,但它需要 '双手' 才能真正去做某事。这就是文档处理变得至关重要的地方,以至于 NVIDIA 最近也进入了智能文档处理市场。“这就是我们仍然可以用于训练模型的数据所在的地方”,Vermeir 指出。这也是 AI 工程师遇到障碍的领域,尤其是在处理来自多模态输入的多种类型的数据(例如语音、文本、视觉等)时。
Max Vermeir @ ABBYY:要知道没有一种放之四海而皆准的方法,请查看您正在尝试使用的应用场景,并为特定任务选择正确的技术,以避免过度拟合。最近,该行业正在努力解决多模态 Transformers 中早期和晚期融合(fusion)策略之间的选择。早期融合(Early fusion)提供了更深入的交互,但需要更多的计算资源,并且难以解决缺失的模式。晚期融合(Late fusion)在决策之前独立处理模态,提供更大的灵活性,但可能会丢失模态间的连接(inter-modal connections)。Google 的多模态瓶颈转换器 (MBT, multimodal bottleneck transformer) 试图使用交叉注意力来混合这两种策略,从而找到最佳平衡点。注意力机制(Attention mechanisms)允许神经网络在进行预测时专注于输入数据中最相关的部分。想象一下阅读一份长文档:您的注意力转移到最重要的句子上。同样,在 AI 中,注意力有助于模型确定关键信息的优先级。这在多模态 AI 中尤为重要,因为模型必须处理和集成文本、图像和音频等各种数据类型。Vermeir 解释说,在这里,自我注意机制(self-attention mechanisms)开始出现,特别是 DeepMind 的 Perceiver IO 架构,该架构 “通过这种统一的注意力机制处理任意输入模式,从而扩展了自我注意的概念”。然而,跨模态对齐(cross-modal alignment)仍然是一个开放的挑战,研究人员仍在探索分层注意力 (hierarchical attention)和多智能体方法。实用主义胜利:正确工具的艺术(Pragmatism triumphs: The art of the right tool)在评估这些复杂的系统时,Vermeir 提倡一种务实的三步法:首先,“意识到没有一种放之四海而皆准的方法”;其次,“查看您正在尝试使用的应用场景”;最后,为特定任务选择合适的技术。他略带讽刺地指出,有时,该解决方案甚至可能不需要高级 AI,并指出了与一些数据科学家讨论最佳模型架构的经历。“问题的最佳解决方案常规的表达方式(regular expression)。”解决方案过于复杂的风险在业务应用程序中尤为明显。Vermeir 用应付账款说明了这一点:“如果你正在尝试解决一个应付账款问题,并且你有一个做过拟合的模型 ...... 比如我应该因为我有折扣就早点支付这张发票吗?你希望它做对了。否则,您将在实际需要之前向供应商付款。” 他还指出,这是许多企业返回像 ABBYY 这样的公司的原因之一,“这些公司已经拥有正确的流程和结果”。展望未来,Vermeir 将自适应(adaptive)transformer 和多智能体方法视为基于 Transformer 架构的未来。“许多智能体将并行工作以有效地处理多模态输入,每个智能体都有自己的专长,” 他预测。自适应 transformer 会自动适应任务复杂性。他还认为知识图谱为企业提供了关键的流程理解。然而,该行业将继续看到 “努力实现 AGI(大侠注:AGI,即 Artificial General Intelligence,通用人工智能) 的大型的基于云的计算集群” 和更实用、更高效的解决方案之间的 “二元性(duality)”。但成功的关键不仅仅是选边站队,而是在创新和实际应用之间找到适当的平衡。然而,Vermeir 认为,该行业将继续在 “基于云的 AGI 梦想和实用、高效的解决方案” 之间跳舞。赢家不会是那些选择另一方的人;它将是那些掌握将正确工具与正确任务相匹配的艺术,并拥有对流程的深刻理解的人。在过程智能领域,ABBYY 相信它拥有决定性的优势。(大侠注:受篇幅限制,本文有删节,全文获取方式见文末)
写在最后
未来,是人与智能体共舞的时代。
未来,是实现臻于至善的 “以人为本” 的生产和生活的时代。
未来,正在路上。
如果你对文章中提到的观点感兴趣,希望学习并应用于所在的企业中,并希望在企业从数字化到智能化的转型道路上进一步学习,建立个人和企业对数智化时代的底层共识、打造个人和组织的业务领导力,欢迎关注下方公众号,获取《数字化转型与创新管理 VeriSM》国际认证课程及其他相关课程信息。
大侠拥有 IT 领域知名考试服务机构 EXIN(国际信息科学考试协会) 和 AI 领域国际领先组织 BCS(英国计算机协会)联合发布的 AI 讲师认证。大侠基于全行业数智化转型培训和咨询经验,和 EXIN 联袂打造了全新升级的 AI 课程 — 《EXIN BCS AI 基础精要》,如果你希望进一步了解 AI 的商业价值本质,接触全球 TOP AI 企业的具体竞争策略与创新商业实践,欢迎报名参加,直接扫描文首二维码,给大侠微信留言!
课程特别适合于非 IT 技术专业背景的业务管理、项目管理及职能管理人士。如果你对于市场上面向大众百姓、用 GenAI 作图写 PPT 的工具化课程或者面向技术人员的算法类课程不感兴趣、而是希望真正掌握 AI 商业价值,了解如何从企业、组织和业务的角度运用AI赋能商业成果,那么这门课程就非常适合你了,而且这门课也许是迄今为止市场上唯一定位于此的课程,希望你成为这个方向的学习先锋!