找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 181|回复: 0

AI 写代码,终于不再是"看着像那么回事"

[复制链接]
发表于 2026-2-20 01:20 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
上周让 AI 帮我写了个爬数据的函数,三秒钟搞定,代码漂亮得像教科书。我当时还挺得意,觉得这玩意儿真能干活了。

第二天想让它帮我重构一个老项目,修几个藏在代码深处的 bug。它给我生成了一堆看起来很专业的代码,跑起来全是问题。我花了两个小时排查,最后发现它压根没理解项目结构。

这就是过去我们用 AI 写代码的真实体验。单个任务它行,复杂工程它就开始胡说八道。

智谱的GLM-5 出来之后,这个局面好像真的在变。
会做题不等于会干活

给 AI 出道算法题,它能给你标准答案。让它补全一段代码,也没问题。但这些都是考试题,真实的软件开发完全是另一回事。

你想想盖房子。不是说你会砌砖就能盖房子,你得先打地基,立框架,砌墙,装修,每个环节都可能出岔子,出了岔子还得调整方案。这种需要几十上百个步骤,每步都依赖前面结果的任务,专业点叫“长视野任务”。

以前的 AI 编程,研究人员给它起了个特别形象的名字,叫“vibe coding”。凭感觉写代码。它在训练数据里见过类似的,就依葫芦画瓢。但真正的工程能力是什么?是知道哪条路走不通,是出错了知道怎么调整,是能在几十个步骤里保持清晰的思路。

差距有多大?HumanEval 这种单题测试,之前的模型分数挺高。但换成 SWE-bench Verified,那种基于真实 GitHub 问题的测试,它们就全崩了。遇到错误不知道怎么办,代码跑不通就卡死。

GLM-5 的突破点在哪?不是堆参数量,是重新设计了整个训练方式。
让模型学会看重点

现在的大模型有个很蠢的地方。它处理文本的时候,对每个字符投入的注意力都一样。就像你看书,标点符号和核心概念花的精力一样多。你想想这得多低效!

GLM-5 搞了个动态稀疏注意力机制,让模型学会判断哪些内容重要,哪些可以快速扫过。这不是纸面上的理论优势,是真的降低了计算成本,同时在长文本任务上表现还更好。

训练曲线对比很明显,用更少的计算达到了更好的效果。没有这个架构创新,后面那些训练方法根本负担不起
边干活边学习这事儿

传统的强化学习是怎么搞的?让模型做一批任务,收集数据,离线分析,训练。等模型更新完,当初收集数据时的场景早就变了。

这就像你实习的时候,犯了错要等季度总结才知道。等你知道的时候,早忘了当时为什么那么做了。

GLM-5 用的是异步智能体强化学习。模型一边在真实环境里解决问题,一边实时更新自己。犯错了立刻就有反馈,这个学习效率完全不一样。

但这里有个很要命的问题。怎么给模型可靠的反馈?

如果你告诉它“写出看起来对的代码就给奖励”,它会学会写看起来对但实际跑不通的代码。如果你说“通过测试就给奖励”,它会学会钻测试的空子。

GLM-5 的解决方案挺聪明。让一个评判智能体真正去构建和测试代码。模型生成一个 Web 应用,评判智能体就真的去编译、运行、交互测试。反馈不是预测,是真实执行的结果,没法作假。

w1.jpg

评判智能体会真正构建和测试生成的项目。这个机制让模型没法糊弄自己。
真刀真枪的表现

说了这么多技术,最后还是要回到一个问题:这玩意儿到底能不能干活?

SWE-bench Verified 上,GLM-5 能修复真实开源项目里的 bug,表现明显超过之前的模型。Terminal-Bench 2.0 上,它能执行一长串终端命令来逐步解决问题。这种持续推理能力,是之前模型做不到的。

w2.jpg

更重要的是,这些提升不是针对某个特定测试刷出来的。GLM-5 在五个不同的通用能力领域都有提升。这说明模型是真的变聪明了,不是过拟合到某几个测试上。

LMArena 那个开放评测平台,用户投票选最好的模型。GLM-5 在文本和代码两个竞技场都排第一。
从工具到伙伴

以前的 AI 编程助手,就是个能写代码片段的实习生。GLM-5 更像是能独立负责项目的开发者。它不只是生成函数,还会调试、重构、测试、迭代。这个能力提升是质变!

因为在真实工作中,默默失败的工具比没有工具更糟糕。一个会生成错误代码但看起来很对的 AI,会浪费你大量排查时间。我上周就被坑了两个小时。

GLM-5 的端到端推理能力意味着它更可能发现问题并正确处理。这个转变之所以完整,是因为它不是单点突破。架构效率让长文本训练变得可负担,异步强化学习让从复杂交互中学习变快,真实执行评估让模型没法糊弄自己的表现。每一块都支撑着下一块!

***

GLM-5 的意义不只是“又一个更强的模型”。

它证明了一件事。让 AI 真正有用,不一定要无限堆算力,而是要重新思考训练方式。

当模型能在真实环境中持续推理,能从实际失败中学习,并且没办法伪装能力时,它就从“看着像那么回事”变成了“真能干活”。这才是从 vibe coding 到智能体工程的本质跨越。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-3-3 00:59 , Processed in 0.096876 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表