在大模型技术爆发之前,智能体(Agent)的功能与体验受限于人工智能(ArtificalIntelligence,AI)技术,简单地讲,就是受限于“大脑”不够聪明。而当前 AI 技术在大模型上的突破与爆发,使得 AI Agent技术也变得成熟并迅速火爆起来。大模型在生成、计算以及逻辑推理能力上都实现了质的飞跃,从而让 Agent能够为用户带来更多的功能和更好的体验。本章将介绍 Agent 的背景知识,帮助读者对智能体有个一般性的认识。
🚀一、智能体概述
🔎1.为什么需要一个智能体 (Agent)
为了体现当代 Agent 依赖于人工智能大模型的能力,我们将其称作 AI Agent、AI 智能体或者人工智能体,还有一些文章将其直译为“AI代理”。目前,在计算机、人工智能专业技术领域,一般将 Agent 或 AI Agent 统一翻译为“智能体”。在信息技术飞速发展的当下,人工智能领域持续推陈出新,智能体与 DeepSeek 大模型成为近期科技圈的焦点。在此时代背景下,“智能体+DeepSeek”正崭露头角,有望开启下一个重大的 IT 发展浪潮,引领未来变革,成为科技领域的下一个风口。
🦋1.1 AI的发展历程
要向读者讲清楚智能体的概念,我们首先需要了解人工智能(AI)的基本概念。AI 是指通过计算机程序模拟人类智能的技术。这些程序可以执行诸如学习、推理、规划、自然语言处理等任务。自 20 世纪 50 年代 AI 概念提出以来,AI 技术经历了多次重大的突破。AI 的发展历程可以分为以下几个重要阶段:
初期发展阶段(20世纪50年代—20世纪70年代):这个阶段的 AI 研究主要集中在符号主义和逻辑推理上。艾伦·图灵提出了图灵测试,作为衡量机器是否具有智能的标准。1956年的达特茅斯会议确定了人工智能这个概念,被认为是 AI 研究的开端。因此,1956 年也被称为人工智能元年。早期发展阶段(20世纪80年代—20世纪90年代):这一时期,专家系统成为 AI 研究的主要方向。专家系统通过编码专家知识来解决特定领域的问题,取得了显著的成果,但也暴露出知识获取难题和系统僵化等问题。现代发展阶段(21世纪—):随着计算能力和数据量的爆炸式增长,机器学习特别是深度学习技术迅速发展。AI 系统从依赖预定义规则转向通过数据训练模型,实现了图像识别、自然语言处理、自动驾驶等多种复杂任务。
🦋1.2 Agent 能解决什么问题
大语言模型(Large Language Model, LLM,简称大模型)是近年来人工智能领域的重大突破之一。大模型旨在理解和生成人类语言,它们在大量的文本数据基础上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等。大模型的特点是基于神经网络、自然语言处理(Natural Language Processing,NLP)技术,多轮对话和写作生成能力非常优秀。尤其是像 GPT-4 这样的大语言模型,简直就是 AI 界的“超级明星”。这些模型通过海量的数据训练,具备强大的自然语言处理能力,可以生成高质量的文本,进行复杂的对话。例如,GPT-4 在文本生成和理解任务中就像是“语言魔法师”。大模型能适应不同的应用场景,从生成文本到处理对话,再到复杂的决策任务,样样在行。大模型能够生成高质量的自然语言文本,就像一个写作天才,永远不会有创意枯竭的时候。
现在已经有了 AI 大模型,例如 DeepSeek、OpenAI 的 GPT、字节的豆包等,为什么又出现了 Agent,这是刻意为了显得厉害搞出来的概念吗?
OpenAI 研发出 ChatGPT 并持续引领大模型发展,它定义 AI Agent 就是由大模型驱动,由规划决策(Planning)组件、记忆(Memory)组件、工具(Tools)组件、行动(Action)组件等组件组成的可以自主执行任务的程序,如图 1-1 所示,它就像一个代替人类完成工作的代理人。Agent 各个组件的作用概括如下:
规划决策组件:依赖于大模型自身的能力和提示词的指引,让模型反思和自我批评,并把任务分解成多个步骤,然后逐个完成。记忆组件:分为短期记忆和长期记忆两种类型,用于记住沟通上下文。工具组件:调用各种 API,包括日历、代码解释器、计算器、搜索 API 等。行动组件:说白了就是它动手干活的部分。它能根据任务选择不同的方法——要查资料就翻记忆库,要分析问题就分步推理,甚至还能自己写代码。