找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 169|回复: 0

AI工具推荐--AI录制回放工具Terminator

[复制链接]
发表于 2025-10-27 21:02 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
今天来推荐另一个Windows UI 操作的AI工具:Terminator,AI录制回放工具!

上一期我们聊了 Windows-Use,一款让大模型直接操控 Windows GUI 的开源工具,有朋友反馈:“对于Windows桌面自动化的有了新思路!”

今天要介绍的这款工具Terminator,可能更让你眼前一亮——它不仅支持 Windows,还兼容 macOS;不仅有 Python、TypeScript、Rust 多语言 SDK,还能像录制宏一样自动生成自动化脚本;更关键的是,官方宣称:比通用 AI Agent 快 100 倍,成功率超 95%!

温馨提示:和所有直接操作系统 GUI 的工具一样,Terminator 仍处于实验阶段,请勿在生产环境直接使用敏感操作,建议先在虚拟机或测试机中体验!

一、为什么 Terminator 值得关注?


Terminator 由 Mediar.ai 团队开发,定位非常清晰:为 AI Agent 赋予“双手”,让它能像人类一样操作任意桌面软件——无论是微信、Excel、还是老旧的 Win32 程序。

它的核心理念是:不要让 AI 盲猜界面,而是通过操作系统原生的无障碍(Accessibility)API 精准定位元素。这意味着:
    无需截图识别(不依赖 CV 模型)可操作后台应用(不需要窗口在前台)跨应用无缝切换(从浏览器跳到记事本毫无压力)确定性高、速度快(大模型只在异常时介入)

它甚至刚刚获得了 280 万美元融资,目标是“给每一台桌面装上 AI 的手”,前景还是可期的。

二、技术亮点:Playwright 风格 + AI 智能兜底


Terminator 最大的创新在于:用确定性代码执行常规流程,仅在出错时调用大模型进行恢复。这大大降低了对 LLM 的依赖,也提升了稳定性和速度。
核心特性一览:

特性说明
Playwright风格API.locator('name:Save').click() 语法熟悉又强大
多语言支持Python / TypeScript / Rust / MCP(Model Context Protocol)
工作流录制手动操作一次,自动生成 YAML 自动化脚本(Windows 独占)
浏览器+原生应用通吃通过 Chrome 插件 + 系统无障碍 API 双引擎驱动
MIT 开源协议可商用、可魔改、无厂商锁定

三、Windows使用说明

命令行安装

irm https://mediar.ai/install.ps1 | iex
Python包安装

pip install terminator
初始化环境


安装完成后,运行 setup 命令配置依赖
terminator setup

这会自动:
    安装 Chrome 插件(用于浏览器自动化)检查 VC++ 运行库配置后台服务(MCP Agent,可以给配合claude code、cursor等试用)

说明:安装过程中请不要操作鼠标键盘,避免干扰自动配置。
编写一个脚本:打开记事本并输入文字

# save_note.py
import terminator

desktop = terminator.Desktop()
desktop.open_application("notepad")
desktop.locator("role:Edit").typeText("Hello from Terminator!")
desktop.pressKey("{Ctrl}s")  # 触发保存
# 后续可配合 locator 选择桌面路径并确认

四、录制回放演示:


来看看 Terminator 如何进行录制回放,对于需要单一场景做UI压测的,还是很有用的:
录制脚本

    打开录制器 terminator recorder start --name demo_calc 终端会回显 ?Recording... Press Ctrl+C to stop.人为操作(别动鼠标/键盘之外的程序) Win → 输入 calc → 回车(启动计算器) 依次点按键 7 + 3 = 看到结果 10 即可结束录制 Ctrl+C 终止,当前目录即生成两个文件: demo_calc.yml # 脚本(人类可读) demo_calc.timing.json # 打点计时(回放用)查看脚本(可编辑,可以适配更多场景和功能) name: demo_calc steps: - openApplication: calc - click: {name: "Seven"} - click: {name: "Plus"} - click: {name: "Three"} - click: {name: "Equals"}

一键回放脚本

# 本地回放
terminator run demo_calc.yml

# 若要加速 2 倍
terminator run demo_calc.yml --speed 2

# 静默模式(无窗口置顶)
terminator run demo_calc.yml --headless

回放时你会看到:
    计算器自动被拉起 → 依次点击 7 + 3 = → 结果 10 出现 → 进程退出。任何一步找不到元素,会自动调用 LLM 恢复(需配 key)。

Python回放脚本

from terminator import Desktop

desk = Desktop()
desk.play_yaml('demo_calc.yml')   # 同效命令行回放
print('结果:', desk.locator('role:Text').text())  # 读取结果框

大模型配置


Terminator 作为跨平台桌面自动化工具,其LLM集成具备本地模型无API依赖、云端模型灵活对接、MCP协议兼容扩展的特点,既支持轻量本地部署,也能满足企业级云端模型需求。下面以常用云端API对接配置为例,其他方式可以详见github。
云端模型配置(以OpenAI GPT-4o为例)

通过环境变量配置Terminator关联API Key

# Windows PowerShell
$env:AI_PROVIDER="openai"
$env:AI_MODEL="gpt-4o"
$env:OPENAI_API_KEY="你的API Key"

# macOS/Linux Terminal
export AI_PROVIDER=openai
export AI_MODEL=gpt-4o
export OPENAI_API_KEY="你的API Key"
验证云端模型

import terminator

desktop = terminator.Desktop(use_ai=True)
# 让GPT-4o解析复杂指令(如"打开浏览器,搜索'Terminator LLM配置'")
desktop.ai_execute("Open Chrome and search for 'Terminator LLM configuration'")
    若Chrome自动打开并完成搜索,说明云端LLM配置成功。

五、如何精准定位 UI 元素


Terminator 依赖 Windows 的 UI Automation Tree,你需要借助工具查看元素属性。
推荐工具:

    Accessibility Insights for Windows(微软官方,可视化强)Inspect.exe(Windows SDK 自带,轻量)

操作示例:
打开计算器 → 启动 Accessibility Insights → 鼠标悬停在“7”按钮上 → 查看其 Name = "Seven", ControlType = Button → 编写选择器:locator('name:Seven')

六、Windows vs macOS vs Linux 支持情况


虽然Terminator支持跨平台,但目前Windows是开发重心,功能最全面:
核心功能Windows支持情况其他系统情况
界面元素定位稳定支持macOS/Linux部分支持
点击/输入等操作稳定支持macOS/Linux部分支持
应用/窗口管理稳定支持macOS/Linux部分支持
浏览器自动化稳定支持全平台支持
工作流录制稳定支持macOS/Linux暂不支持

七、与Windows-Use 对比

对比维度Windows-UseTerminator
核心定位聚焦Windows GUI层,LLM驱动的轻量自动化工具跨平台桌面自动化引擎,兼顾开发者与团队协作
技术架构基于UIAutomation/PyAutoGUI,无计算机视觉依赖预训练工作流+AI兜底恢复, accessibility-first
支持平台Windows 7-11(仅Windows)Windows(完整版)、?? macOS/Linux(部分功能)
LLM适配支持任意LLM(Ollama、Gemini、GPT等)支持MCP协议对接主流AI(Claude等),侧重工作流驱动
开发语言支持Python(唯一)Python、TypeScript/Node.js、Rust、MCP
核心功能打开应用、点击/输入、Shell命令、界面捕获核心功能全覆盖+工作流录制、浏览器自动化、多显示器支持、元素截图
性能表现适配简单场景,响应速度中等100x快于通用AI代理,成功率>95%
安装配置依赖Python 3.12+,pip/uv直接安装,配置简单支持CLI/MCP/VS Code插件安装,自动配置依赖,步骤稍多
开源授权MIT协议(开源免费)MIT协议(开源免费)
适用场景个人轻量自动化、LLM集成场景、简单重复操作复杂流程自动化、跨平台需求、团队协作、企业级部署

八、结语


Terminator 的出现,标志着 AI 自动化正从“视觉猜测”迈向“语义操作”的新阶段。可能它不再是一个“玩具”,而是走向真正可用于企业级流程自动化的基础设施。

虽然目前仍需手动编写选择器、调试流程,但随着 工作流录制 + AI 恢复机制 的成熟,未来还是可以期待一下全平台一键录制回放的,大家也可以多多试用,有问题可以去github给他们提issue。

项目地址:https://github.com/mediar-ai/terminator
PyPI 安装:pip install terminator


我是AI工具探索者和开发者,会持续追踪最前沿的 AI 开源项目与自动化技术。
接下来,我会陆续分享自研的 AI 工具与框架——从AI自动化框架到评测平台,应有尽有,敬请关注和期待!

如果你觉得这篇文章有用,欢迎点赞、转发、关注!我们下期见!

Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-10-31 06:48 , Processed in 0.083942 second(s), 27 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表