AI 写代码,终于不再是＂看着像那么回事＂

多客科技 · 发表于 2026-2-20 01:20

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
上周让 AI 帮我写了个爬数据的函数，三秒钟搞定，代码漂亮得像教科书。我当时还挺得意，觉得这玩意儿真能干活了。

第二天想让它帮我重构一个老项目，修几个藏在代码深处的 bug。它给我生成了一堆看起来很专业的代码，跑起来全是问题。我花了两个小时排查，最后发现它压根没理解项目结构。

这就是过去我们用 AI 写代码的真实体验。单个任务它行，复杂工程它就开始胡说八道。

智谱的GLM-5 出来之后，这个局面好像真的在变。
会做题不等于会干活

给 AI 出道算法题，它能给你标准答案。让它补全一段代码，也没问题。但这些都是考试题，真实的软件开发完全是另一回事。

你想想盖房子。不是说你会砌砖就能盖房子，你得先打地基，立框架，砌墙，装修，每个环节都可能出岔子，出了岔子还得调整方案。这种需要几十上百个步骤，每步都依赖前面结果的任务，专业点叫“长视野任务”。

以前的 AI 编程，研究人员给它起了个特别形象的名字，叫“vibe coding”。凭感觉写代码。它在训练数据里见过类似的，就依葫芦画瓢。但真正的工程能力是什么？是知道哪条路走不通，是出错了知道怎么调整，是能在几十个步骤里保持清晰的思路。

差距有多大？HumanEval 这种单题测试，之前的模型分数挺高。但换成 SWE-bench Verified，那种基于真实 GitHub 问题的测试，它们就全崩了。遇到错误不知道怎么办，代码跑不通就卡死。

GLM-5 的突破点在哪？不是堆参数量，是重新设计了整个训练方式。
让模型学会看重点

现在的大模型有个很蠢的地方。它处理文本的时候，对每个字符投入的注意力都一样。就像你看书，标点符号和核心概念花的精力一样多。你想想这得多低效！

GLM-5 搞了个动态稀疏注意力机制，让模型学会判断哪些内容重要，哪些可以快速扫过。这不是纸面上的理论优势，是真的降低了计算成本，同时在长文本任务上表现还更好。

训练曲线对比很明显，用更少的计算达到了更好的效果。没有这个架构创新，后面那些训练方法根本负担不起
边干活边学习这事儿

传统的强化学习是怎么搞的？让模型做一批任务，收集数据，离线分析，训练。等模型更新完，当初收集数据时的场景早就变了。

这就像你实习的时候，犯了错要等季度总结才知道。等你知道的时候，早忘了当时为什么那么做了。

GLM-5 用的是异步智能体强化学习。模型一边在真实环境里解决问题，一边实时更新自己。犯错了立刻就有反馈，这个学习效率完全不一样。

但这里有个很要命的问题。怎么给模型可靠的反馈？

如果你告诉它“写出看起来对的代码就给奖励”，它会学会写看起来对但实际跑不通的代码。如果你说“通过测试就给奖励”，它会学会钻测试的空子。

GLM-5 的解决方案挺聪明。让一个评判智能体真正去构建和测试代码。模型生成一个 Web 应用，评判智能体就真的去编译、运行、交互测试。反馈不是预测，是真实执行的结果，没法作假。

评判智能体会真正构建和测试生成的项目。这个机制让模型没法糊弄自己。
真刀真枪的表现

说了这么多技术，最后还是要回到一个问题：这玩意儿到底能不能干活？

SWE-bench Verified 上，GLM-5 能修复真实开源项目里的 bug，表现明显超过之前的模型。Terminal-Bench 2.0 上，它能执行一长串终端命令来逐步解决问题。这种持续推理能力，是之前模型做不到的。

更重要的是，这些提升不是针对某个特定测试刷出来的。GLM-5 在五个不同的通用能力领域都有提升。这说明模型是真的变聪明了，不是过拟合到某几个测试上。

LMArena 那个开放评测平台，用户投票选最好的模型。GLM-5 在文本和代码两个竞技场都排第一。
从工具到伙伴

以前的 AI 编程助手，就是个能写代码片段的实习生。GLM-5 更像是能独立负责项目的开发者。它不只是生成函数，还会调试、重构、测试、迭代。这个能力提升是质变！

因为在真实工作中，默默失败的工具比没有工具更糟糕。一个会生成错误代码但看起来很对的 AI，会浪费你大量排查时间。我上周就被坑了两个小时。

GLM-5 的端到端推理能力意味着它更可能发现问题并正确处理。这个转变之所以完整，是因为它不是单点突破。架构效率让长文本训练变得可负担，异步强化学习让从复杂交互中学习变快，真实执行评估让模型没法糊弄自己的表现。每一块都支撑着下一块！

***

GLM-5 的意义不只是“又一个更强的模型”。

它证明了一件事。让 AI 真正有用，不一定要无限堆算力，而是要重新思考训练方式。

当模型能在真实环境中持续推理，能从实际失败中学习，并且没办法伪装能力时，它就从“看着像那么回事”变成了“真能干活”。这才是从 vibe coding 到智能体工程的本质跨越。

账号		自动登录	找回密码
密码			注册

AI 写代码,终于不再是＂看着像那么回事＂

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块