找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 316|回复: 0

AI 编程新范式:从代码驱动,正在转向终端驱动(Terminal-driven)?

[复制链接]
发表于 2025-7-16 22:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
目前像 Cursor、Windsurf 和 GitHub 的 Copilot 这样的代码编辑工具,一直是 AI 驱动软件开发的标准配置。但随着 agentic AI(具备自主决策与执行能力的智能体)日益强大,以及“vibe coding”(基于意图和上下文氛围的轻量化编程方式)的兴起,一种微妙的转变正在悄然改变 AI 系统与软件交互的方式。

从“写代码”到“操控系统”

AI 不再只是“写代码”,而是越来越多地直接与系统的终端(shell)进行交互。这一变化可能看起来不显眼,但它正在深刻重塑 AI 驱动软件开发的路径,并可能对整个领域的未来走向产生重大影响。

w1.jpg

所谓终端,大多数人可能会联想到 90 年代黑客电影中那个黑白屏幕,它是一种老派但功能强大的界面,能用来运行程序和处理数据。虽然它没有现代代码编辑器那样炫目的视觉界面,但如果你知道如何使用,它就是一个极其强大的工具。而即使代码智能体可以编写和调试程序,最终把代码变成真正可运行的软件,仍然常常需要借助终端工具。

这场向终端转移的趋势最明显的信号,来自几家顶级 AI 实验室。自 2 月以来,Anthropic、DeepMind 和 OpenAI 相继发布了基于命令行的编码工具(分别是 Claude Code、Gemini CLI 和 CLI Codex),这些产品很快成为它们最受欢迎的工具之一。

由于这些产品在品牌和界面上看起来与传统代码工具相似,因此这一转变并不容易察觉。但从底层来看,AI 智能体与其他计算机(无论是在线还是离线)之间的交互方式,确实发生了实质性的变化,而且很多人认为,这只是开始。

“我们最大的押注是未来 95% 的大模型与计算机之间的交互都将通过类似终端的接口完成,”终端测试基准 Terminal-Bench 的联合创建者 Mike Merrill 表示。

为什么“终端交互”更重要?

终端工具的崛起也恰逢传统代码工具开始显得不太稳定。AI 代码编辑器 Windsurf 近期因收购风波四起而陷入混乱:一部分高管被谷歌挖走,剩余公司则被 Cognition 收购,导致其面向消费者的产品前景堪忧。与此同时,最新研究表明,程序员可能高估了传统工具带来的效率提升。一项对 Cursor Pro(Windsurf 的主要竞争对手)进行的 METR 研究发现,尽管开发者认为这些工具能让他们提速 20%–30%,但实际操作中反而慢了近 20%。换句话说,代码助手反而让程序员更耗时。

这为 Warp 等公司提供了机会。Warp 当前在 Terminal-Bench 排名第一,并自称是一种“智能体开发环境”(agentic development environment),定位于 IDE 和命令行工具(如 Claude Code)之间的中间层。

不过,Warp 创始人 Zach Lloyd 对终端依然充满信心,认为它可以解决许多传统代码编辑器(如 Cursor)难以处理的问题。

“终端处于开发者技术栈的最底层,因此也是运行智能体最具通用性的位置,”Lloyd 表示。

为了更清晰地理解这种新范式的不同之处,不妨看看它们使用的评估方式。传统的代码生成工具主要解决 GitHub 上的问题(以 SWE-Bench 测试为代表)。每道题目都是一个未解决的 GitHub issue,本质上是“代码坏了,模型不断尝试,直到修好为止”。像 Cursor 这样的产品虽然在方法上更复杂,但底层逻辑仍是从“坏的代码”开始,变成“能运行的代码”。

而基于终端的工具视野更广,超越代码本身,关注程序运行的整体环境。这包括编程本身,但也涵盖了更偏 DevOps 的任务,比如配置 Git 服务器、排查脚本为何无法运行等。

在 TerminalBench 的一道题中,智能体需要根据一个解压程序和一份目标文本文件,反向推导出压缩算法的实现。另一道题要求智能体从源码构建 Linux 内核,但题目并未说明它需要自己去下载源码。解决这类问题需要一种类似人类程序员那样“硬碰硬”的解决问题能力。

“TerminalBench 的难点不只是我们问了什么问题,”该基准测试的共同创建者 Alex Shaw 解释说,“而在于我们把这些智能体放进了什么样的环境中。”

关键是,这种新方法强调逐步解决问题的能力,这正是 agentic AI 强大的根本。但即使是最先进的 agentic 模型,也还无法应对所有这些复杂环境。Warp 在 Terminal-Bench 中只解决了大约一半的问题,虽然得分仍属领先,但也说明这项挑战有多艰难,以及我们距离释放终端全部潜力还有多远。

尽管如此,Lloyd 认为我们已经到了一个临界点:终端工具足以可靠地处理开发者日常工作中大部分“非编码(non-coding tasks)”任务,这是一个无法忽视的价值主张。non-coding tasks虽然不直接写代码、但是开发流程中非常关键的工作,通常需要开发者使用终端完成。这类任务不仅耗时,而且容易出错,因此具备很高的自动化价值。

以下列出了主要的non-coding tasks,以及AI能带来的价值:
类别具体任务举例AI 工具自动化的价值
开发环境配置- 安装依赖包- 配置虚拟环境- 初始化项目结构减少环境搭建时间,避免依赖冲突
版本控制与 Git- 设置远程仓库- 切换/合并分支- 处理冲突降低 Git 操作门槛,提高协作效率
构建与部署流程- 构建项目- 下载压缩包并解压- 编译内核/运行构建脚本自动完成繁琐流程,减少人为错误
调试与排错- 运行失败排查- 日志分析- 缺依赖或权限错误诊断降低问题定位难度,节省调试时间
系统与环境变量- 设置环境变量- 修改 shell 启动配置- 配置 .env 文件统一配置环境,支持跨平台部署
DevOps 运维- SSH 登录远程服务器- 拷贝部署文件- 启动远程服务/脚本实现类 DevOps 能力,提高自动部署效率
文件与数据操作- 文件重命名/移动/删除- 文本处理/数据过滤批量处理效率高,减少重复性劳动
CI/CD 配置- 编辑构建脚本- 设置 GitHub Actions- 添加自动化测试实现持续集成流程,推动项目自动化
启动与运行验证- 跑通开发环境- 启动本地服务- 检查端口是否监听/接口是否响应快速验证部署成果,确保项目“能跑起来”

这些“非编码任务”虽然没有写一行业务逻辑,但决定了开发者能否顺利开始、持续推进和最终交付一个项目。终端 AI 工具的价值,正是在这些环节释放出来。

Cursor拟以100亿美元估值融资,AI编程领域蓬勃发展
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-10 06:55 , Processed in 0.105693 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表