找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 462|回复: 0

AI Agent 是啥?看完这个绿豆视频你就全懂了

[复制链接]
发表于 2025-7-6 03:56 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
大家好,我是阿娇



最近lovart国内版本星流app,火出圈了。

体验地址,网页版:https://www.xingliu.art/

也可以下载app,星流。

这次我是体验视频功能,之前用lovart主要做设计图片等,

我还写了一篇文章,关于图片设计的提示词,收到很多粉丝的喜欢,大家可以参考,拿来即用。

【实测】Lovart牛  会用的人更牛  20个案例一学就会

在星流app里,我直接在对话框中,输入:帮我生成一个从绿豆到绿豆芽的科普视频,高清写真,时长30秒。

今天以这个例子「绿豆发芽科普视频 Agent」为例,带你用一种“讲故事+类比+逐层拆解”的方式,一口气讲懂 Agent 是什么、怎么设计、怎么运作、底层代码可能长啥样、要用哪些 AI 工具和框架。没有技术背景,都能看懂,以后你就大概知道agent是如何工作的了,不会觉得它高深莫测了。

为什么这个案例特别适合解释 Agent?

因为它是一个非常清晰的「任务链 + 多模态 + 用户反馈」完整闭环,你能看到:

    每一步都是 AI 真正在“干活”;

    有结果图,有音乐,有视频;

    Agent 每完成一步,就说一句话反馈(仿佛在汇报);

    所有步骤都串得非常有逻辑。


🧠一句话解释:Agent 就像一个“AI打工人”

你可以把 Agent 理解成一个“有逻辑、有计划、会使用工具的 AI 打工人”,它不像 ChatGPT 那样只是聊天,而是能“分步骤办事”。

比如这个案例里,Agent 接到任务是:

👉 “请你做一个介绍绿豆发芽过程的科普视频”

这不是一句话能完成的事情,它需要懂得:

    发芽过程要分几个阶段?

    每个阶段需要生成什么图片?

    怎么拼成视频?要不要加背景音乐?

    背景音乐从哪来?要不要科普风格?

    每一步做完要告诉用户!


这时候,一个合格的 Agent,就会像个认真负责的员工一样,动脑、动手、调用工具,一步步完成这个任务。
🧱Agent 的“骨架”:逻辑结构

你可以把 Agent 的工作流程理解成一条 “任务链”,它会把一个复杂任务拆成一个个小任务,然后依次完成。

在绿豆发芽案例里,任务链长这样:
[接收需求]
   ↓
[计划步骤:共需要6张图+1段音频+拼视频]
   ↓
[第1张图 → 生成绿豆干燥状态照片]
   ↓
[第2张图 → 浸泡0h、1h、2h照片]
   ↓
[第3张图 → 发芽阶段图]
   ↓
[第4张图 → 成熟期+标注结构图]
   ↓
[生成配套背景音乐]
   ↓
[用图片+音乐合成视频]
   ↓
[生成结果呈现给用户]

w2.jpg

关键点:每一步 Agent 都知道干什么,用什么工具,如何衔接下一步。
🧰  Agent 的“工具箱”:能干活全靠这些插件

Agent 自己不会画图、做音乐、剪视频,它其实就是个“调度员”,它调用各种 AI 能力来完成工作。
任务使用的 AI 技术(可能)
图像生成Stable Diffusion / Midjourney(图生图)
背景音乐生成Suno.ai / Boomy(文生音乐)
视频拼接RunwayML / Pika Labs / FFmpeg 脚本
内容理解GPT-4o / Claude 来分析需求和组织内容
结构标注自定义 Prompt + GPT 生成图像说明文本

这些工具在 Agent 背后就像各种“小外包”,Agent 会说:“嘿,图像生成模型,帮我画个绿豆刚泡水1小时的样子!”

1)第一步:生成图片,调用图像生成工具插件

w3.jpg

过程中,还展示调用了知识库,展示了详细的图片提示词

w4.jpg

2)第二步:生成【浸泡期】图片,调用图像生成工具插件

w5.jpg

3)第三步:生成【萌芽期】图片,调用图像生成工具插件

w6.jpg

4)第4步:生成【初期的】图片,调用

w7.jpg

4)第4步:生成【成熟期的图片】,调用图像生成工具插件

w8.jpg

5)第5步:生成【背景音频】,调用文生音频插件sono.ai
w9.jpg

6) 第5步:生成【视频】,调用可灵2.1插件工具

w10.jpg

Agent 的“大脑”:怎么安排每一步

Agent 背后的“大脑”其实就是一个“任务计划器”,它需要有几个能力:
✅ 理解需求(用大模型解析)


    “我要生成一个科普视频” → 用 GPT-4 拆解成图+文+音+视频任务
✅ 调度任务(用代码执行)


    先做图,再拼视频,不能乱顺序

    每一步要用哪种工具?需要什么参数?
✅ 记住中间结果(上下文记忆)


    图1做完存起来,等视频合成用

    风格设定参数要贯穿始终

开发一个 Agent,要准备哪些模块?

模块作用技术推荐
意图理解拆解用户需求GPT-4 / Claude /
任务编排安排步骤,顺序,依赖LangChain / LangGraph / CrewAI
工具集成封装图像、音频、视频等 APIPython + requests / SDK
状态管理存储中间结果,保持上下文内存系统 / Redis 缓存
交互前端呈现结果,接受输入React Native / Flutter / Webview


接下来围绕这 5 个核心模块,从原理 + 作用 + 开发建议 + 技术细节的角度,做一次完整展开。即使你是刚入门 AI 应用开发,也能一步步上手。
🧠 1. 意图理解(Intent Parsing)

🧩 作用

让 Agent 能“听懂人话”,把一句话需求拆成多个具体小任务。

比如用户说:

“请生成一个绿豆发芽过程的科普视频”

Agent 要理解:

    “科普视频” = 需要图像 + 音频 + 文字 + 视频合成

    “绿豆发芽过程” = 至少包括干燥 → 浸泡 → 发芽 → 成熟几个阶段

    输出形式 = 视频 + 中间素材
🔧 技术建议


    使用 GPT-4 / Claude 生成任务清单

    可以引导生成 JSON 结构的 task plan,便于后续解析执行
✅ 示例 Prompt

请你作为一个智能助手,把这句话拆解成多个步骤,每步说明要做什么、使用什么工具:
“我要做一个绿豆发芽过程的科普视频。”
输出 JSON,每一步包含:
- name: 步骤名
- description: 做什么
- tool: 可能使用的工具名🔗 2. 任务编排(Task Planning / Orchestration)

🧩 作用

把意图理解出来的任务顺序执行、判断依赖关系、错误处理、并发控制。

比如你不能先合成视频再做图,要先做完所有图像和音乐,最后再视频合成。
🔧 技术推荐

工具说明
LangChain支持 Agent 执行链、工具注册、对话状态控制
LangGraph更高级的“任务图”系统,适合任务有分支、循环、条件判断的场景
CrewAI多 Agent 协作框架,每个 Agent 有职责,如图像专家、文案专家
✅ 实现建议


    定义 Task 类,每个类有:执行函数、前置条件、依赖输出、错误处理

    维护一个 Task DAG(有向图)或顺序队列,根据依赖自动排序执行
🛠️ 3. 工具集成(Tool Calling / Plugin Binding)

🧩 作用

Agent 本身不会“画图/剪视频/生成音乐”,它需要调用这些功能的外部 API 或模型,就像打工人用工具。
🧰 工具类型与调用方式

工具类型示例调用方式
图像生成DALL·E, SDXL, MidjourneyAPI or SDK
音乐生成Suno, Boomy, MusicGenAPI
视频合成RunwayML, Pika Labs, FFmpegAPI or Shell 脚本
文本生成GPT, ClaudeSDK or OpenAI API
🧠 4. 状态管理(Memory & Context Storage)

🧩 作用

Agent 不是一次性问答,它需要记住之前的输出、当前在哪一步、有哪些图像文件已经生成等。
🧰 技术方案

类型技术用途
本地内存Python 字典demo 快速跑通
持久化缓存Redis存储中间变量、图片路径、任务状态
数据库SQLite / MongoDB多用户多会话任务存储(进阶)
✅ 示例

self.memory = {
    "image_1": "url1.png",
    "image_2": "url2.png",
    "music": "music.mp3",
    "video_status": "pending"
}
结合 Redis 存储:
redis.set(f"user:{user_id}:step:1", "done")📱 5. 交互前端(User Interface)

🧩 作用

让用户清晰看到每一步执行结果、还能输入下一步需求。
✨ 好的前端需要:


    展示每步结果(图像、音乐、视频、任务描述)

    可以追踪当前任务进度(进度条或提示语)

    可以编辑某一步参数(比如风格、音乐风格等)

    提供下载/播放/分享等功能
🔧 技术推荐

技术场景
Flutter跨平台 App,适合手机端(如星流 app)
React / Next.jsWeb 端 Agent 控制台
WebView + 原生模块嵌入式 Agent UI + 原生音视频播放控件


🧩 总结一句话:

Agent 就是你请来的一位“有大脑 + 有工具 + 懂流程 + 会反馈”的 AI 员工,帮你自动完成复杂任务,比如做视频、写文案、查资料、生成作品等。

【关于我】

w11.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-8-8 11:23 , Processed in 0.129815 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表