AI 系列(7):大模型AI 的局限和未来突破的方向

新闻 · 发表于 2025-12-27 12:46

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
大模型的 AI 浪潮席卷而来，很多人惊呼人类要被替代，那么问题真的有这么严重吗？现在的AI有哪些局限，未来的突破方向又在哪里？我们今天来探讨一下这些问题：
基于Transformer的大模型的爆发

让我们先回到这场波澜壮阔的 AI 革命的前期，看看基于Transformer的大模型是如何从黑暗中崛起的吧。

先说一个趣事：笔者在读研究生的时候，恰好就是人工智能专业，因为这个方向成立时间不长，学这个方向的人很少，我们这届只有2个人。所以，很多专业课都是导师1v2给我俩上课。记得第一次1v2上课之前，我和另一个同学，各自守着偌大的教室的西北角和东北角。导师进入了教室，先是左右扫了我俩一眼，然后悠悠地说：“难道你俩一个是‘符号派’的，一个是‘连接派’的，水火不容吗？”然后，老师看着一脸迷茫的我俩，说了一句我们能听懂的话：“都给我坐到第一排这来！”于是我们只好灰溜溜的坐到了导师的眼皮底下......通过后来的学习，我们才明白导师的意思：当时，AI存在两大流派：符号主义和连接主义。

符号主义认为人类智能的本质是逻辑符号的处理，所以，这个流派的科学家试图把人类专家的所有知识，人工编码成成千上万条逻辑规则，输入计算机，然后让计算机可以处理相对专业领域的工作。所以，符号主义主打“逻辑至上”，而符号主义的巅峰就是在1997年，IBM深蓝计算机战胜卡斯帕罗夫。所以，2000年左右的时候，是各种专家系统大行其道的岁月。但是，后来符号主义逐渐衰落，主要原因就是：人们发现很多知识是无法显性化写成规则的，而且，有些领域过于复杂，要制定的规则极多且有可能相互冲突，而且，很多时候也无法穷举所有规则，一旦出现规则没有覆盖到的情况，专家系统就无法解决。

连接主义的思路就是模拟人脑神经元连接，认为智能来自于大量简单单元的并行交互。所以，连接主义不会告诉计算机什么是“猫”，而是喂给它一万张猫的照片，让它自己调整参数去拟合特征。所以，连接主义是基于统计的。而在我读研究生的时代，计算机还是486，586这些上古计算机，基于这样的算力，连接主义也无法实现自己的理想。不过，连接主义的算法还是在不断进步，包括长短期记忆网络（LSTM），深度信念网络（DBN）这些论文都为神经网络的时代埋下了伏笔。2012年是一个转折点，Alex Krizhevsky 和 Ilya Sutskever（Hinton 的学生）使用AlexNet横扫 ImageNet 竞赛，证明了 GPU + 深层卷积神经网络（CNN）可以碾压传统的手工特征提取，至此，深度学习的大门被打开了。

2017年，谷歌大脑的8位科学家提出的Transformer架构横空出世，拉开了这轮AI大潮的序幕。Transformer算法使得成千上万个 GPU 并行计算成为可能，巨大的算力得到了足够的发挥空间，于是，人们发现，随着参数规模的不断扩大，AI变得越来越聪明了，也就是缩放定律（ Scalinglaws）能够发挥作用。之后的事情大家就都熟悉了，各家开始比拼参数个数和模型规模，英伟达市值一飞冲天等等，不再赘述。
自学习能力之殇

基于Transformer算法的大模型取得了惊人的突破的同时，也有一个非常明显的问题：大模型的知识和能力在训练完成之后就已经冻结，不再能够从后续的推理和交流过程中学到新的知识，或者纠正既有知识的错误。这也就导致了，当前的AI大模型都是 “出道即巅峰”。这多少有点儿像古龙小说的主人公，也不知道在哪里习得的绝世武功，基本上一出来就是绝世高手，爽固然是爽，但是缺乏了一点儿成长的乐趣。在这点上，我还是更喜欢金庸的小说的人物成长的经历。毕竟，无论你武功多高，如果不进步，总有一天会被超越，而真正可怕的对手是那种永不停止进步的敌人。那么，为什么不在推理时期，把内容喂给大模型，让它能从新的交流中学到知识呢？主要有如下原因：

有的读者也许会质疑，不对呀，我在用Gemini的时候，就可以要求它记住我说的话，让它以后都要参考这些内容。或者，我在用NoteBookLM的时候，就可以指定知识源，让它用这些内容作为交流的基础，这不是AI记住了新的东西吗？其实，这是一种错觉。大模型并没有把你要求它记住的东西融入自身模型，而是使用了两种技术，实现了“假装学习”。

一种叫做上下文学习：这利用的是 Transformer 的上下文窗口，把用户要求记住的话作为当前提示词（Prompt）的一部分一起输入模型，所以，这更像是RAM（内存），只要对话没关，在这个窗口范围内，AI就能“查阅”之前的信息。但一旦对话结束或超出窗口长度，这些信息就彻底丢了，并没有融入到大模型本身中。而各家在处理上下文的时候，窗口长度差异较大。比如Gemini或者国内的Kimi就可以处理很长的上下文，这就会给人造成这些大模型很聪明，能够记住很多东西的印象。

另一种叫做检索增强生成（RAG）：是目前企业级应用（如字节内部的知识库问答）的主流方案，当然，NoteBookLM 也是这个原理。本质上，就是当您问一个问题的时候，AI 会先去用户指定的知识库或者信息源里搜相关信息，把搜到的内容贴到提示词里，再回答问题。

不过，现在前沿的研究方向中，也在尝试从某种程度改善这个问题。2025年4月斯坦福和 UCSD 提出的TTT架构(Test-Time Training)，这种新架构允许模型在推理的过程中，利用当前的输入数据，通过梯度下降临时更新一层隐藏的参数。这意味着模型真的在“读”您的提示词时实时地临时修改了自己的神经网络，从而在处理超长视频或极度复杂的上下文时，比传统注意力机制效率高得多。
未来突破的方向

科学家们在当前的 Transformer 的大模型基础上，还在做一些提升和优化，比如前面提到的TTT架构；还有解决过度思考的问题；让 AI 拥有工具调用能力以便解决复杂问题；以及把AI应用于各个垂直领域等等，这些都是当前技术的延伸和拓展，我觉得算不上根本性的突破。个人觉得，就当前的AI能力的整体来看，有如下几个问题可能是更加根本性的，分别是：自学习能力和创造力、功耗问题、对物理世界的感知理解和操控。我们分别聊聊。

首先，还是自学习能力。虽然有一些临时的补救措施，但是，当前的AI本质上还是缺乏自身不断进化和改进的能力。反观我们人类，今日的人类大脑的结构和一万年前的基本毫无差别，但是，今日人类的知识结构和要学习的技能，与一万年前的人类有天壤之别。何以我们可以用这么古老的硬件配置，毫无压力的适应迥异的知识技能要求，这点上，至今仍然是一个谜，我们不得而知，而这个问题的解决，可能才是人工智能超越人类的起点。与此紧密相关的是创造力。当前的AI本质上是对人类知识的压缩与重组，它极其擅长举一反三，但很难“无中生有”。我觉得，这个问题可能依赖于自学习能力的建立。

然后，是功耗问题。大模型对能源的消耗是惊人的。学习相同问题，人脑以区区20瓦的功耗吊打所有的大模型。在这个问题上的任何突破都会带来巨大的价值。看看今年年初，DeepSeek的发布对美国股市带来的重创就知道这里有多么大的商机。不过，反过来看，这个问题没有解决之前，对中国这种能源大国来讲，反而是一个巨大的优势。

最后，对物理世界的感知理解和操控。当前的AI知识还是局限在人类喂给它的数字化内容，而实际物理世界被数字化的程度极低：AI看了1万个小时的足球比赛的视频，虽然可以理解出比赛的规则，但永远无法悟出踢到球那一瞬间脚面受到的反作用力大小，以及如何把球踢入球门。目前的世界模型，VLA 模型以及具身智能等方向，都是在这个方向的探索。

虽然当前的 AI 还远不能构成对人类的威胁，但是，在当前的 AI 的帮助之下，人类的科技突破已经明显加速，所以，以上三个问题的突破，距离我们也许并不遥远。而如果 AI 真的突破了以上三点，我觉得，人类需要考虑的问题可能就是：如何让 AI 在可控的范围内为人类服务，从而避免人类被AI彻底替代甚至抛弃了。

嗯，今天的内容有点儿太宏观，人类被替代的那天到来之前，我们可以先看看如何让 AI 更好的为我们服务。下篇聊聊如何让 AI 完成基于特定数据的个性化工作吧。

账号		自动登录	找回密码
密码			注册

AI 系列(7):大模型AI 的局限和未来突破的方向

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块