| 
 | 
 
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册 
 
 
 
×
 
作者:微信文章 
大家好,我是阿娇 
 
  
 
最近lovart国内版本星流app,火出圈了。 
 
体验地址,网页版:https://www.xingliu.art/ 
 
也可以下载app,星流。 
 
这次我是体验视频功能,之前用lovart主要做设计图片等, 
 
我还写了一篇文章,关于图片设计的提示词,收到很多粉丝的喜欢,大家可以参考,拿来即用。 
 
【实测】Lovart牛  会用的人更牛  20个案例一学就会 
 
在星流app里,我直接在对话框中,输入:帮我生成一个从绿豆到绿豆芽的科普视频,高清写真,时长30秒。 
 
今天以这个例子「绿豆发芽科普视频 Agent」为例,带你用一种“讲故事+类比+逐层拆解”的方式,一口气讲懂 Agent 是什么、怎么设计、怎么运作、底层代码可能长啥样、要用哪些 AI 工具和框架。没有技术背景,都能看懂,以后你就大概知道agent是如何工作的了,不会觉得它高深莫测了。 
 
为什么这个案例特别适合解释 Agent? 
 
因为它是一个非常清晰的「任务链 + 多模态 + 用户反馈」完整闭环,你能看到: 
 
每一步都是 AI 真正在“干活”; 
 
有结果图,有音乐,有视频; 
 
Agent 每完成一步,就说一句话反馈(仿佛在汇报); 
 
所有步骤都串得非常有逻辑。 
  
 
🧠一句话解释:Agent 就像一个“AI打工人” 
 
你可以把 Agent 理解成一个“有逻辑、有计划、会使用工具的 AI 打工人”,它不像 ChatGPT 那样只是聊天,而是能“分步骤办事”。 
 
比如这个案例里,Agent 接到任务是: 
 
👉 “请你做一个介绍绿豆发芽过程的科普视频” 
 
这不是一句话能完成的事情,它需要懂得: 
 
发芽过程要分几个阶段? 
 
每个阶段需要生成什么图片? 
 
怎么拼成视频?要不要加背景音乐? 
 
背景音乐从哪来?要不要科普风格? 
 
每一步做完要告诉用户! 
 
  
这时候,一个合格的 Agent,就会像个认真负责的员工一样,动脑、动手、调用工具,一步步完成这个任务。 
🧱Agent 的“骨架”:逻辑结构 
 
你可以把 Agent 的工作流程理解成一条 “任务链”,它会把一个复杂任务拆成一个个小任务,然后依次完成。 
 
在绿豆发芽案例里,任务链长这样: 
[接收需求] 
   ↓ 
[计划步骤:共需要6张图+1段音频+拼视频] 
   ↓ 
[第1张图 → 生成绿豆干燥状态照片] 
   ↓ 
[第2张图 → 浸泡0h、1h、2h照片] 
   ↓ 
[第3张图 → 发芽阶段图] 
   ↓ 
[第4张图 → 成熟期+标注结构图] 
   ↓ 
[生成配套背景音乐] 
   ↓ 
[用图片+音乐合成视频] 
   ↓ 
[生成结果呈现给用户] 
 
 
 
 
关键点:每一步 Agent 都知道干什么,用什么工具,如何衔接下一步。 
🧰  Agent 的“工具箱”:能干活全靠这些插件 
 
Agent 自己不会画图、做音乐、剪视频,它其实就是个“调度员”,它调用各种 AI 能力来完成工作。 
| 任务 | 使用的 AI 技术(可能) |  | 图像生成 | Stable Diffusion / Midjourney(图生图) |  | 背景音乐生成 | Suno.ai / Boomy(文生音乐) |  | 视频拼接 | RunwayML / Pika Labs / FFmpeg 脚本 |  | 内容理解 | GPT-4o / Claude 来分析需求和组织内容 |  | 结构标注 | 自定义 Prompt + GPT 生成图像说明文本 |  
  
这些工具在 Agent 背后就像各种“小外包”,Agent 会说:“嘿,图像生成模型,帮我画个绿豆刚泡水1小时的样子!” 
 
1)第一步:生成图片,调用图像生成工具插件 
 
 
 
 
过程中,还展示调用了知识库,展示了详细的图片提示词 
 
 
 
 
2)第二步:生成【浸泡期】图片,调用图像生成工具插件 
 
 
 
 
3)第三步:生成【萌芽期】图片,调用图像生成工具插件 
 
 
 
 
4)第4步:生成【初期的】图片,调用 
 
 
 
 
4)第4步:生成【成熟期的图片】,调用图像生成工具插件 
 
 
 
 
5)第5步:生成【背景音频】,调用文生音频插件sono.ai 
 
 
 
6) 第5步:生成【视频】,调用可灵2.1插件工具 
 
 
 
 
Agent 的“大脑”:怎么安排每一步 
 
Agent 背后的“大脑”其实就是一个“任务计划器”,它需要有几个能力: 
✅ 理解需求(用大模型解析) 
 
 
“我要生成一个科普视频” → 用 GPT-4 拆解成图+文+音+视频任务 
 ✅ 调度任务(用代码执行) 
 
 
先做图,再拼视频,不能乱顺序 
 
每一步要用哪种工具?需要什么参数? 
 ✅ 记住中间结果(上下文记忆) 
 
 
图1做完存起来,等视频合成用 
 
风格设定参数要贯穿始终 
 
  开发一个 Agent,要准备哪些模块? 
 
| 模块 | 作用 | 技术推荐 |  | 意图理解 | 拆解用户需求 | GPT-4 / Claude / |  | 任务编排 | 安排步骤,顺序,依赖 | LangChain / LangGraph / CrewAI |  | 工具集成 | 封装图像、音频、视频等 API | Python + requests / SDK |  | 状态管理 | 存储中间结果,保持上下文 | 内存系统 / Redis 缓存 |  | 交互前端 | 呈现结果,接受输入 | React Native / Flutter / Webview |  
  
 
接下来围绕这 5 个核心模块,从原理 + 作用 + 开发建议 + 技术细节的角度,做一次完整展开。即使你是刚入门 AI 应用开发,也能一步步上手。 
🧠 1. 意图理解(Intent Parsing) 
 
🧩 作用 
 
让 Agent 能“听懂人话”,把一句话需求拆成多个具体小任务。 
 
比如用户说: 
 
“请生成一个绿豆发芽过程的科普视频” 
 
Agent 要理解: 
 
“科普视频” = 需要图像 + 音频 + 文字 + 视频合成 
 
“绿豆发芽过程” = 至少包括干燥 → 浸泡 → 发芽 → 成熟几个阶段 
 
输出形式 = 视频 + 中间素材 
 🔧 技术建议 
 
 
使用 GPT-4 / Claude 生成任务清单 
 
可以引导生成 JSON 结构的 task plan,便于后续解析执行 
 ✅ 示例 Prompt 
 
请你作为一个智能助手,把这句话拆解成多个步骤,每步说明要做什么、使用什么工具: 
“我要做一个绿豆发芽过程的科普视频。” 
输出 JSON,每一步包含: 
- name: 步骤名 
- description: 做什么 
- tool: 可能使用的工具名🔗 2. 任务编排(Task Planning / Orchestration) 
 
🧩 作用 
 
把意图理解出来的任务顺序执行、判断依赖关系、错误处理、并发控制。 
 
比如你不能先合成视频再做图,要先做完所有图像和音乐,最后再视频合成。 
🔧 技术推荐 
 
| 工具 | 说明 |  | LangChain | 支持 Agent 执行链、工具注册、对话状态控制 |  | LangGraph | 更高级的“任务图”系统,适合任务有分支、循环、条件判断的场景 |  | CrewAI | 多 Agent 协作框架,每个 Agent 有职责,如图像专家、文案专家 |   ✅ 实现建议 
 
 
定义 Task 类,每个类有:执行函数、前置条件、依赖输出、错误处理 
 
维护一个 Task DAG(有向图)或顺序队列,根据依赖自动排序执行 
 🛠️ 3. 工具集成(Tool Calling / Plugin Binding) 
 
🧩 作用 
 
Agent 本身不会“画图/剪视频/生成音乐”,它需要调用这些功能的外部 API 或模型,就像打工人用工具。 
🧰 工具类型与调用方式 
 
| 工具类型 | 示例 | 调用方式 |  | 图像生成 | DALL·E, SDXL, Midjourney | API or SDK |  | 音乐生成 | Suno, Boomy, MusicGen | API |  | 视频合成 | RunwayML, Pika Labs, FFmpeg | API or Shell 脚本 |  | 文本生成 | GPT, Claude | SDK or OpenAI API |   🧠 4. 状态管理(Memory & Context Storage) 
 
🧩 作用 
 
Agent 不是一次性问答,它需要记住之前的输出、当前在哪一步、有哪些图像文件已经生成等。 
🧰 技术方案 
 
| 类型 | 技术 | 用途 |  | 本地内存 | Python 字典 | demo 快速跑通 |  | 持久化缓存 | Redis | 存储中间变量、图片路径、任务状态 |  | 数据库 | SQLite / MongoDB | 多用户多会话任务存储(进阶) |   ✅ 示例 
 
self.memory = { 
    "image_1": "url1.png", 
    "image_2": "url2.png", 
    "music": "music.mp3", 
    "video_status": "pending" 
} 
结合 Redis 存储: 
redis.set(f"user:{user_id}:step:1", "done")📱 5. 交互前端(User Interface) 
 
🧩 作用 
 
让用户清晰看到每一步执行结果、还能输入下一步需求。 
✨ 好的前端需要: 
 
 
展示每步结果(图像、音乐、视频、任务描述) 
 
可以追踪当前任务进度(进度条或提示语) 
 
可以编辑某一步参数(比如风格、音乐风格等) 
 
提供下载/播放/分享等功能 
 🔧 技术推荐 
 
| 技术 | 场景 |  | Flutter | 跨平台 App,适合手机端(如星流 app) |  | React / Next.js | Web 端 Agent 控制台 |  | WebView + 原生模块 | 嵌入式 Agent UI + 原生音视频播放控件 |  
  
 
🧩 总结一句话: 
 
Agent 就是你请来的一位“有大脑 + 有工具 + 懂流程 + 会反馈”的 AI 员工,帮你自动完成复杂任务,比如做视频、写文案、查资料、生成作品等。 
 
【关于我】 
 
 
 |   
 
 
 
 |