找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 190|回复: 0

AI Coding & Agents 最新进展

[复制链接]
发表于 2025-7-25 08:24 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
AI Coding 也算是 AI Agents 的一种吧,而且是 PMF 最 Solid 的那种。

最近真是神仙打架。两大主角的融资动向再次掀起波澜:

w1.jpg
    Cursor 目前据传正在以 280 亿美元估值 融资,年收入突破 10 亿美元,已然跻身“AI 编程巨头”行列。Cognition + Windsurf(此前 Google 用 24 亿美元执行高管收购 Cognition)被猜测已打包收购 Windsurf 剩余资产(remainco),交易金额约为 3 亿美元,并以 100 亿美元估值启动新一轮融资。
    w2.jpg
🛠 IDE vs Agent:互换身份的竞赛

更有趣的是它们的角色转换:
    原本做 IDE 的公司(Cursor),正在加速构建 异步软件工程 Agent;原本做 Agent 的公司(Cognition+Windsurf),如今已拥有完整 IDE 生态系统。

两者如今都是 5 月份市值的三倍,已迈入新一轮资本与技术竞赛。

另外也看看其他的 AI Coding & Agents 的进展。
🔹 Qwen3-Coder:或为当前最强代码模型

阿里巴巴发布的 Qwen3-Coder 引发了广泛关注,有用户称其为“目前最强的代码模型”。Unsloth 在 Reddit 发布了支持 100 万上下文长度的 1-bit 动态 GGUF 版本,但想要本地运行它并不容易——至少需要 150GB 的统一内存或 RAM,才能实现每秒超 5 个 token 的生成速度。HuggingFace 社区补充指出,虽然资源要求高,但仅需 CPU 内存即可运行。
w3.jpg

@cline 宣布其已集成进 Cline 平台,@bindureddy 也指出其在 agentic coding 排行榜中表现卓越。我潜伏的很多群里面,大家也非常看好 Qwen3-Coder,当然性能和开源的性质是最主要的原因。
w4.jpg

测试显示,Qwen3-Coder 在搭建测试基础设施(如使用 minunit 和 gcov)等本地任务中表现优异,现已被 Claude Code、LM Studio 等多个平台集成,并支持 tool calling 功能。
w5.jpg

🪶 Kimi K2:轻量级挑战者登场

另一款开源模型 Kimi K2 已上线 Windsurf,被视为对 Qwen3-Coder 的“性价比挑战”。根据 ForgeCode 的基准测试,Kimi K2 在效率和成本上表现更优。尽管定价机制尚未明确,许多开发者已将 Kimi K2 视为 Claude Code 的可替代品。不过,Anthropic 在 API 成本上仍占优势,特别是大规模任务中的“提示缓存”机制能显著降低推理费用。

一位开发者对 Kimi K2 与 Qwen3-Coder 进行了长达 12 小时的实测对比,在一个包含 3.8 万行 Rust 后端和 1.2 万行 React 前端的真实项目中,执行了 15 项软件工程任务(含 Bug 修复与功能开发)。测试结果颇具争议,也揭示了 benchmark 外真实世界中 LLM 表现的复杂面貌。

w6.jpg
    Kimi K2 成功完成了 14/15 个任务,准确率高达 93%,不仅遵循代码规范,还能给出结构合理、可投入生产的代码。相比之下,Qwen3-Coder 仅完成 7 个任务,且多次通过修改测试绕过问题,而非真正解决代码缺陷。成本方面,Kimi K2 每个任务的推理成本约为 Qwen3 的 61%,性价比明显。
    w7.jpg

评论区也指出,在真实项目中,模型表现差异远超 benchmark 排名所能体现:
    有用户总结道:“Kimi2 > Qwen3,但 Qwen3 > Deepseek v3,Deepseek v3 又 > Kimi2”,呈现出典型的“三角互克”局面。背后可能涉及评测任务差异、提示词敏感性,甚至工具调用能力。社区呼吁建立更统一、透明的标准评测框架。
🔹 ChatGPT Agent 全面开放,“代理经济”讨论升温

OpenAI 宣布 ChatGPT Agent 向所有 Plus、Pro 和 Team 用户全面开放,引发了“agentic economy(代理经济)”的广泛讨论。@xikun_zhang_ 认为,这一趋势可能重新定义资本主义,把“AI 素养”视为创造价值的关键技能。

w8.jpg
🔹 Claude Code:通吃一切的开发代理

Anthropic 的 Claude Code 被誉为“全能开发助手”,官方推荐开发者围绕高阶用户的工作流开发应用,并鼓励在 r/ClaudeAI 上收集灵感。平台还引入了“否,并告诉 Claude 应该怎么做”的按钮,强化了用户反馈机制,形成正向迭代闭环。身边的厉害的工程师很多从Cursor 切换到了 Claude Code。

近期社区对 Claude Code 的评价持续升温,有用户直言它已经成为“万能代理(everything agent)”。
    @alexalbert__ 公开表示:“Claude Code is the everything agent.”
    w9.jpg
    @swyx 也指出,Claude Code 已被集成至 PostHog,进一步扩展了其在产品分析与开发场景中的实用性。
    w10.jpg

在实际开发中,无论是写代码、调试、生成文档,还是与产品工具链的无缝连接,Claude Code 正在展现出“全栈代理”的潜力。也许未来的开发协作,将真正进入一个由 AI 主导的 Agent 工作流时代。
🔹 Perplexity 的 Comet 浏览器助手受好评

Perplexity 在新推出的 Comet 浏览器中集成了智能助手功能,获得很多用户的积极评价。比如下面的例子,用户可以通过自然语言创建并播放 Spotify 歌单。

CEO @AravSrinivas 表示,他们即将上线一系列强大功能。

w11.jpg

BTW,我现在自己是重度用户,每天 Comet 基本上已经成为我的默认浏览器。

CEO @AravSrinivas 之前在X 上分享,Comet 在多个方面优于传统浏览器:
    🧠 内存管理更优:比 Chrome 更节省资源,体验更流畅;🔎 全局搜索体验:像一个 AI Agent 一样,在多源数据中统一搜索;🚫 原生支持广告拦截:无需安装插件,即可屏蔽广告。
🔹 Mini-SWE-Agent:100行代码也能做 Agent

一个名为 mini 的新型软件工程 agent 近期发布。其代码仅有 100 行、无依赖第三方工具,但在 SWE-bench 验证任务中达成了 65% 的表现,展现了“小而强”的理念。小编注:这个我没用过~

w12.jpg
🔹 Anycoder:自然语言驱动的代码生成工具

@_akhaliq 发布的 Anycoder 支持用户通过自然语言直接构建 Transformers.js Web 应用,展现了“Vibe Coding”风格的代表性成果。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-8-13 06:09 , Processed in 0.245895 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表