多客科技 发表于 2026-1-21 09:35

AI斗地主哪家强?

作者:微信文章

前言

先跟大家道个歉——标题党了。AI在线斗地主PK项目,正在开发中,之后将放到《AI斗地主到底哪家强?》一文中。本次先各家模型的coding能力,用同一段提示词,让20+款主流AI生成静态斗地主游戏HTML页面。其实让AI生成管理系统后台前端,很难看出模型差距——如今主流AI对各类前端框架的熟练度都相当在线。但web端游戏开发截然不同,不仅布局逻辑复杂,还涉及大量图片素材的排版、适配,这些都是AI的传统短板,能最大程度暴露模型的真实实力。
比起那些模糊的跑分数据,或是其他公众号“选择性展示”的宣传式测评(只挑效果最优的页面),本次测试全程用统一提示词,结果直观可感,模型能力孰强孰弱,交给大家自行判断。

测试结果


gpt-5.2   gpt-5.2-codex



gemini-3-flash




minimax-m2.1-preview



grok-4



qwen3-coder-480b



qwen3-coder-plus



gemini-3-pro



kimi-k2


glm-4.7




qwen3-flash



小米MiMo-V2-Flash




opus-4.5




QwQ-32B




qwen3-Next-80B



qwen3-30B



qwen3-235B




qwen3-4B




qwen3-8B




qwen3-14B



qwen3-32B



deepseek-V3.2



GLM-4.5-AIR-106B




deepseek-v3




文心4.5 turbo




文心5.0




GPT-OSS-120B




doubao客户端




doubao-seed-1.8



doubao-seed-1.6-flash



总结


1. Opus 4.5 断档领先,独一档的存在

本次测试的AI生成页面,按效果可明确分为五档,其中Opus 4.5直接拉开代差:
断档领先Opus 4.5 (不光写了静态页面,居然还可以玩,还写了AI出牌策略)第二档空缺第三档,改一下也许也可以用
gemini-3-flash、

minimax-m2.1-preview、

gemini-3-pro
第四档,有个大致的形状大部分模型第五档,不忍直视100B以下开源模型和一些flash模型
2. 小参数模型实用性极低

100B参数以下的开源模型,在复杂web开发场景中效果普遍较差,无法有效提升开发生产力。

3. 本次测评的局限性

只用一条提示词“一发入魂”,确实有点片面。 这主要考的是模型肚子里有没有现成的前端模板,代表不了复杂的逻辑代码能力。而且AI发挥也有随机性,这次生成的丑,没准多刷几次就漂亮了。大家看个乐呵,别太较真。
页: [1]
查看完整版本: AI斗地主哪家强?