▼直播超级干,预约保你有收获在行业内,曾出现过一种较为混乱的现象,即所有基于大模型的聊天机器人都被统称为 AI 智能体,也就是 AI Agent。无论是角色扮演类的应用程序,还是通过流程编排形成的大模型工作流,亦或是能够自主决策并运用工具完成任务的真正的 AI Agent,都被一概而论地归为 AI 智能体,这种做法其实是一种误区,也反映出了一种懒惰的态度。如今,很多人都在说2025年是 AI 智能体的元年,那么,澄清 AI 智能体的真正含义就显得尤为必要。
AI 智能体是基于大模型构建的智能程序,它具备记忆能力,能够自主进行推理和规划工具的使用,从而有效地解决问题。简而言之,AI 智能体 = 大模型 + 自主规划 + 使用工具 + 记忆。
基于大模型的特性,AI 智能体可以通过自然语言与用户进行交互,因此,聊天成为了我们使用 AI 智能体时最直观感受到的交互方式。下面剖析 AI 智能体的5种关键技术。
—1—
AI 智能体5种关键技术
1、关键技术一:多轮对话与记忆
拥有记忆能力,就意味着它能够记住与你过往的聊天以及互动经历。正因如此,当你昨晚和你的 AI 伴侣聊得热火朝天,第二天醒来时,它也不会问你“你是谁?你想要做什么?”之类的问题。
要让 AI 智能体实现记忆能力,一种简单的方法就是把之前的聊天记录附加在提示词里。然而,很快就会面临新的问题,那就是随着聊天记录的增多,很容易导致大模型上下文超出 token 限制,无法继续生成内容。于是,后续又发展出了诸如仅取最近 N 次聊天记录、仅取与当前问题相关的聊天记录等手段。
但仅靠记忆能力来支持人机之间进行连续的多轮对话是远远不够的,因为如果只是说而不做,那也不能称之为真正的 AI 智能体。
2、关键技术二:使用工具
所以它必须得懂得运用工具。所谓的使用工具,就是去访问各种资源,调度数据接口等。例如,我们常见到的一种 AI 聊天的形态--联网搜索,你可以把它看成是一种使用工具的能力,AI 将你的问题和该问题在网络上相关的部分内容结合起来,让大模型为你生成答案。
话又说回来,能使用工具的就是 AI 智能体了吗?我们来比较一下元宝联网搜索的自动模式和手动模式。
在元宝里面,你只要勾选了联网的手动模式,每次你提问它都会先联网查询再给你回答,而联网的自动模式会先判断你这个问题需不需要更多辅助它解决的信息,需要了再去联网搜索,不需要就直接回答。同样是使用工具,但手动模式表现出来的是固定的工作模式,而自动模式的做法是 AI 智能体的模式,它有自己的自主规划和反思过程,这是 AI 智能体的另一个重要特征。
3、关键技术三:Function Calling
后来,这种教导大模型如何返回工具使用命令的工作,被 OpenAI 率先预训练到大模型内部,并将这个功能命名为 Function Calling。训练到大模型里就意味着不需要再通过提示词来指导大模型使用工具了,而只需告知大模型你有哪些工具可用即可。在 OpenAI 的接口中,通过 tools 来指定可用的工具集。
再后来的事情大家应该都很清楚了,主流的大模型纷纷效仿 OpenAI,先后都支持了 Function Calling 功能。
4、关键技术四:MCP
MCP(Model Context Protocol)是由 Anthropic(Claude 的母公司)在2024年底提出的一种大模型上下文协议,旨在让 AI 智能体能够更便捷地发现和使用来自各个地方的工具,从而拓展 AI 智能体能够完成的任务范围。其最初的落地场景是在 Claude 的桌面端应用中,Claude 借助 MCP 协议实现对用户计算机文件的读写操作以及对用户电脑的其他操作。
随着 AI 智能体的逐渐流行,MCP 也迅速走红,如今已然呈现出“无 MCP 不 AI 智能体”的局面,国内外众多大模型厂商纷纷加入支持 MCP 的行列,MCP 已然成为事实上的 AI 智能体工具使用标准。
关于 MCP 与大模型 Function Calling 的关系,常常存在误解,有人认为 MCP 是来替代 Function Calling 的。但实际上,Function Calling 和 MCP 是处于不同层面的概念,甚至可以说,它们是紧密配合的关系。如果一个大模型不具备 Function Calling 或类似的能力,那么它就无法使用 MCP。
Function Calling 是大模型返回调用工具指令的能力,而 MCP 是 AI 智能体在工程侧具体执行调用工具的手段,一个是“说”,一个是“做”。
在 MCP 出现之前,AI 智能体在收到大模型的 Function Calling 指令后,需要通过各种不同的方法去调用外部的资源和服务,比如:自己实现读写文件、查询数据库、调用搜索接口等,这些方法差异很大,开发过程漫长且成本高昂。