找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 151|回复: 0

AI Agent,你不懂的都在这里

[复制链接]
发表于 2025-11-8 23:54 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
一、前言——LLM

w1.jpg

LLM的发展可以追溯到20世纪中叶的自然语言处理研究,但真正形成现代LLM的关键在于深度学习和大数据的结合。早期,语言模型主要基于规则系统和同级方法,例如n-gram模型(基于词频统计预测下一个词)。这些模型简单但是很局限,没有办法处理复杂的语义。
    关键转折点:神经网络的兴起。20世纪80-90年代,递归神经网络(RNN)和长短期记忆网络(LSTM)的出现允许模型处理序列数据,但在长序列上易出现梯度消失的问题,导致很难去训练大规模模型。Transformer架构的诞生(2017年):这是LLM形成的里程碑。Google研究团队在论文《Attention Is All You Need》提出,Transformer取代了RNN,使用自注意力机制(Self-Attention)来并行处理序列提高效率和性能。在此基础上就使得模型能够处理更长的上下文,并能捕捉词与词之间的复杂关系。

早期LLM如BERT(Google于2018研发)和GPT-1(OpenAI于2018开发)就是基于Transformer的变体。

w2.jpg

二、从LLM到AI Agent

w3.jpg

AI从被动响应系统向主动智能代理的转变,这一过渡源于LLM的核心局限性。LLM基于Transformer架构,如Decoder-Only模型,擅长处理序列数据并生成文本,但它们本质上是静态的预测引擎,仅靠预训练数据和上下文窗口(Contest Window)来输出响应,无法与外部环境交互或执行多步策略。这就催生出了AI Agent的定义:一个以LLM为基础模型(Foundation Model),集成规划、工具调用和反馈循环的自制系统,能够分解任务、调用外部API并迭代优化结果。(POMDPs中也提到,AI Agent旨在实现从L0到L5的自治水平)
💦LLM的局限性

    知识延后与实时性缺失:LLM的参数化知识没法访问动态信息,就容易导致幻觉。Agent通过Tool Calling API集成外部接口,从而能够拓展边界——经典的就比如RAG。被动响应与缺乏行动:LLM仅生成文本,不能执行操作进行交互。Agent引入Action Space的定义,使用ReAct或Plan-and-Execute框架,让LLM输出结构化行动——例如调用RESTful APIs。短期上下文与记忆不足:LLM的Attention Mechanism限制于固定窗口(例如Llama 3.1的128K),很容易导致灾难性遗忘(Catastrophic Forgetting)。Agent采用Long-Term Memory通过Episodic Buffers来支持持续学习而不是一次性的训练。单步骤 vs 多步骤:LLM擅长单词推理,但多步任务还是需要ToT(Tree)或GoT(Graph)来探索路径。Agent的必要性在于分层规划(Hierarchical Planning),通过支持反馈循环来处理不确定性——例如BabyAGI用MCTS模拟决策树。
技术定义视角

AI Agent基于2023 年 Yao 等人的《Reasoning and Acting》论文,可以形式化为一个元组{M,P,T,Mem,Exec}:

M是核心LLM;

P是规划模块;

T是工具集;

Mem是记忆系统;

Exec是执行引擎;

不同于传统规则_based Agents(例如FSM聊天机器人),AI Agent强调自主性,利用LLM“涌现”的能力(比如In-Context Learing)学习而无需参数更新。LangChain Expression Language与Multi-Agent Conversation对于这一块的定义已经标准化了

以上提到的种种局限使得LLM在复杂场景中能力不足,但AI Agent通过集成这些技术实现了必要的“思考”到“行动”的转变。这一过渡不仅提升了效率,还引入了安全性考虑——例如Constitutional AI(Anthropic使用Self-Critique Prompts)能够确保Agent输出符合伦理规范。

三、有哪些关键组件

w4.jpg
核心模型

    AI Agent的“大脑”,负责处理自然语言输入、生成推理和决策输出。目前主流Mixture-of-Experts(MoE)架构(例如GPT-5、Grok4)通过动态激活专家子模块实现高效的推理,主要包含以下技术:Tokenization + Embedding、注意力机制、强化学习对齐(RLHF、DPO)
规划模块(Planning Module)

    负责任务分解、路径探索和动态调整,支持Agent从反应式转向主动式。核心是Reasoning Engine,通过CoT提示技术逐步生成思维链。今年ReAct(Reasoning and Acting)框架标准是最普遍的——交替进行推理和行动,再结合1Relection Prompting反思失败原因。
🌟关键名词

任务分解:使用Decomposition 技术或Least-to-Most Prompting,把复杂目标拆分为子任务序列。

规则优化:集成GoT用图结构表示计划,支持并行探索;或者使用分层规划再多代理系统中分配角色。

适应性:通过奖励机制评估计划质量来自我修正
工具集

Agent通过工具集获取了与外部世界交互的能力,核心是在于FunctionCalling或Tool Calling API(核心是通过JSON等结构化维护参数)——最近的比如OpenAI的Atlas,Perplexity AI。
记忆模块

通过存储与检索上下文,长期的学习能够比买呢Agent重复工作。主要分为Short-Term Memory(基于LLM的Context Window)和Long-Term Memory(RAG)——核心是通过Fine-Tuning或In-Context Learning来更新记忆保存有价值的内容。

目前更多基于感知和执行的组件更多的在智能化原件上(智驾、机器人、陪伴娃娃),将更多的多模态数据与模型进行交互,这些是正在实时发生的改变。

四、Agent的工作流程

w5.jpg

本质上AI Agent是一个动态的、迭代的循环系统(常见架构LangGraph/AutoGen)
    Observation:Agent 首先接收来自任务环境 的输入或状态。这些环境可以多种多样,包括自然语言交互环境(例如问答任务),具身环境 (Embodied Environments)(例如机器人操作) 或 Web 环境 (Web Environments)(例如网页购物Thought and Planning:此阶段主要依赖规划模块,其核心是推理引擎,通常由LLM-Profiled Policy (glmpolicy) 扮演。glmpolicy 可以是执行器 (glmactor)(直接从状态映射到行动) 或规划器 (glmplanner)(生成一系列行动序列)。通过利用 CoT (Chain-of-Thought) 等提示技术逐步生成思维链。对于多步骤任务,则采用更复杂的规划工作流 (Search Workflows),如 ToT (Tree-of-Thoughts) 或基于 MCTS (Monte Carlo Tree Search) 的模拟搜索,以实现分层规划 和路径探索。这些技术通过任务分解将复杂目标拆分为子任务序列。Action and Tool Calling:通过工具集 (Tool Set) 获取了与外部世界交互的能力,弥补了 LLM 知识延后和缺乏实时性的局限。其核心在于Function Calling或Tool Calling API,通常以 JSON 等结构化方式维护参数。例如,Agent 可以使用 RAG 机制 来访问动态信息。一般采用 ReAct (Reasoning and Acting) 或 Plan-and-Execute 等框架,使 LLM 输出结构化的行动,从而实现自主工具使用,即 Agent 能够根据推理结果自主触发工具的使用。Feedback and Iteration Loop:反馈可以来自任务环境本身,工具或由人工评估提供。LLM-Profiled Evaluator (glmeval) 在此发挥核心作用。在反馈学习工作流中,glmeval 提供反馈(可以是自由文本反射 或离散值分类),用于指导 glmpolicy 修订和重新生成整个决策,例如在 Reflexion 框架中进行“自我反思” 。通过采用长期记忆 (Long-Term Memory)(例如 RAG 和 Episodic Buffers)来存储和检索上下文,支持持续学习,有效避免了 LLM 在固定上下文窗口 (Context Window) 下容易出现的灾难性遗忘 (Catastrophic Forgetting) 问题。Output:当所有子任务完成或达到停止条件(如任务目标满足或迭代上限),Agent 使用总结提示来整合结果。这涉及多模态融合 (Multimodal Fusion) 如果有图像或数据输入,但在这里聚焦文本。

五、未知与机遇

w6.jpg

——写给 2035 年的你

十年后,你打开手机,屏幕自动亮起:“早,昨晚我替你把 Q3 财报、孩子作业、父母体检报告全部跑完,还顺手帮你妈把社区团购砍价到 6 折。” 这就是 Andrej Karpathy 在 2024–2025 年连续 7 条 X 线程里反复强调的终极图景:Agent 不再是工具,而是你的人生操作系统。

他把未来拆成四层确定性:
    1. 2025–2026,超级 Copilot:3 行自然语言 → 42 节点可视化 Workflow,一键部署;2. 2027–2028,个人 OS:50 个微 Agent 常驻后台,每打开一个 App 就是一次“开小会”;3. 2029–2031,企业中枢:Agent Graph 取代 ERP,800 节点实时调度 3 万名员工;4. 2032–2035,文明级 MCTS:全球交互沉淀为共享记忆海洋,人与 AI 共用一个永不停歇的 ReAct 循环。

“LLM 是键盘,Agent 是电脑;键盘已死,电脑已活。”

今天,你还需手动 Prompt;

明天,Agent 会替你写 Prompt;

后天,它会替你活。

把这 300 字存进时间胶囊,2035 年打开,

你会发现:

我们不是在迎接 Agent 时代,

我们只是提前 10 年搬进了它。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-11-14 12:38 , Processed in 0.120335 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表