AI 编程新范式:从代码驱动,正在转向终端驱动(Terminal-driven)?

新闻 · 发表于 2025-7-16 22:10

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
目前像 Cursor、Windsurf 和 GitHub 的 Copilot 这样的代码编辑工具，一直是 AI 驱动软件开发的标准配置。但随着 agentic AI（具备自主决策与执行能力的智能体）日益强大，以及“vibe coding”（基于意图和上下文氛围的轻量化编程方式）的兴起，一种微妙的转变正在悄然改变 AI 系统与软件交互的方式。

从“写代码”到“操控系统”

AI 不再只是“写代码”，而是越来越多地直接与系统的终端（shell）进行交互。这一变化可能看起来不显眼，但它正在深刻重塑 AI 驱动软件开发的路径，并可能对整个领域的未来走向产生重大影响。

所谓终端，大多数人可能会联想到 90 年代黑客电影中那个黑白屏幕，它是一种老派但功能强大的界面，能用来运行程序和处理数据。虽然它没有现代代码编辑器那样炫目的视觉界面，但如果你知道如何使用，它就是一个极其强大的工具。而即使代码智能体可以编写和调试程序，最终把代码变成真正可运行的软件，仍然常常需要借助终端工具。

这场向终端转移的趋势最明显的信号，来自几家顶级 AI 实验室。自 2 月以来，Anthropic、DeepMind 和 OpenAI 相继发布了基于命令行的编码工具（分别是 Claude Code、Gemini CLI 和 CLI Codex），这些产品很快成为它们最受欢迎的工具之一。

由于这些产品在品牌和界面上看起来与传统代码工具相似，因此这一转变并不容易察觉。但从底层来看，AI 智能体与其他计算机（无论是在线还是离线）之间的交互方式，确实发生了实质性的变化，而且很多人认为，这只是开始。

“我们最大的押注是未来 95% 的大模型与计算机之间的交互都将通过类似终端的接口完成，”终端测试基准 Terminal-Bench 的联合创建者 Mike Merrill 表示。

为什么“终端交互”更重要？

终端工具的崛起也恰逢传统代码工具开始显得不太稳定。AI 代码编辑器 Windsurf 近期因收购风波四起而陷入混乱：一部分高管被谷歌挖走，剩余公司则被 Cognition 收购，导致其面向消费者的产品前景堪忧。与此同时，最新研究表明，程序员可能高估了传统工具带来的效率提升。一项对 Cursor Pro（Windsurf 的主要竞争对手）进行的 METR 研究发现，尽管开发者认为这些工具能让他们提速 20%–30%，但实际操作中反而慢了近 20%。换句话说，代码助手反而让程序员更耗时。

这为 Warp 等公司提供了机会。Warp 当前在 Terminal-Bench 排名第一，并自称是一种“智能体开发环境”（agentic development environment），定位于 IDE 和命令行工具（如 Claude Code）之间的中间层。

不过，Warp 创始人 Zach Lloyd 对终端依然充满信心，认为它可以解决许多传统代码编辑器（如 Cursor）难以处理的问题。

“终端处于开发者技术栈的最底层，因此也是运行智能体最具通用性的位置，”Lloyd 表示。

为了更清晰地理解这种新范式的不同之处，不妨看看它们使用的评估方式。传统的代码生成工具主要解决 GitHub 上的问题（以 SWE-Bench 测试为代表）。每道题目都是一个未解决的 GitHub issue，本质上是“代码坏了，模型不断尝试，直到修好为止”。像 Cursor 这样的产品虽然在方法上更复杂，但底层逻辑仍是从“坏的代码”开始，变成“能运行的代码”。

而基于终端的工具视野更广，超越代码本身，关注程序运行的整体环境。这包括编程本身，但也涵盖了更偏 DevOps 的任务，比如配置 Git 服务器、排查脚本为何无法运行等。

在 TerminalBench 的一道题中，智能体需要根据一个解压程序和一份目标文本文件，反向推导出压缩算法的实现。另一道题要求智能体从源码构建 Linux 内核，但题目并未说明它需要自己去下载源码。解决这类问题需要一种类似人类程序员那样“硬碰硬”的解决问题能力。

“TerminalBench 的难点不只是我们问了什么问题，”该基准测试的共同创建者 Alex Shaw 解释说，“而在于我们把这些智能体放进了什么样的环境中。”

关键是，这种新方法强调逐步解决问题的能力，这正是 agentic AI 强大的根本。但即使是最先进的 agentic 模型，也还无法应对所有这些复杂环境。Warp 在 Terminal-Bench 中只解决了大约一半的问题，虽然得分仍属领先，但也说明这项挑战有多艰难，以及我们距离释放终端全部潜力还有多远。

尽管如此，Lloyd 认为我们已经到了一个临界点：终端工具足以可靠地处理开发者日常工作中大部分“非编码（non-coding tasks）”任务，这是一个无法忽视的价值主张。non-coding tasks虽然不直接写代码、但是开发流程中非常关键的工作，通常需要开发者使用终端完成。这类任务不仅耗时，而且容易出错，因此具备很高的自动化价值。

以下列出了主要的non-coding tasks，以及AI能带来的价值：

类别	具体任务举例	AI 工具自动化的价值
开发环境配置	- 安装依赖包- 配置虚拟环境- 初始化项目结构	减少环境搭建时间，避免依赖冲突
版本控制与 Git	- 设置远程仓库- 切换/合并分支- 处理冲突	降低 Git 操作门槛，提高协作效率
构建与部署流程	- 构建项目- 下载压缩包并解压- 编译内核/运行构建脚本	自动完成繁琐流程，减少人为错误
调试与排错	- 运行失败排查- 日志分析- 缺依赖或权限错误诊断	降低问题定位难度，节省调试时间
系统与环境变量	- 设置环境变量- 修改 shell 启动配置- 配置 .env 文件	统一配置环境，支持跨平台部署
DevOps 运维	- SSH 登录远程服务器- 拷贝部署文件- 启动远程服务/脚本	实现类 DevOps 能力，提高自动部署效率
文件与数据操作	- 文件重命名/移动/删除- 文本处理/数据过滤	批量处理效率高，减少重复性劳动
CI/CD 配置	- 编辑构建脚本- 设置 GitHub Actions- 添加自动化测试	实现持续集成流程，推动项目自动化
启动与运行验证	- 跑通开发环境- 启动本地服务- 检查端口是否监听/接口是否响应	快速验证部署成果，确保项目“能跑起来”

这些“非编码任务”虽然没有写一行业务逻辑，但决定了开发者能否顺利开始、持续推进和最终交付一个项目。终端 AI 工具的价值，正是在这些环节释放出来。

Cursor拟以100亿美元估值融资，AI编程领域蓬勃发展

账号		自动登录	找回密码
密码			注册

萍聚头条

AI 编程新范式:从代码驱动,正在转向终端驱动(Terminal-driven)?

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块