【AI斗地主哪家强?】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2026-1-21 09:35

AI斗地主哪家强?

作者：微信文章

前言

先跟大家道个歉——标题党了。AI在线斗地主PK项目，正在开发中，之后将放到《AI斗地主到底哪家强？》一文中。本次先各家模型的coding能力，用同一段提示词，让20+款主流AI生成静态斗地主游戏HTML页面。其实让AI生成管理系统后台前端，很难看出模型差距——如今主流AI对各类前端框架的熟练度都相当在线。但web端游戏开发截然不同，不仅布局逻辑复杂，还涉及大量图片素材的排版、适配，这些都是AI的传统短板，能最大程度暴露模型的真实实力。
比起那些模糊的跑分数据，或是其他公众号“选择性展示”的宣传式测评（只挑效果最优的页面），本次测试全程用统一提示词，结果直观可感，模型能力孰强孰弱，交给大家自行判断。

测试结果

gpt-5.2 gpt-5.2-codex

gemini-3-flash

minimax-m2.1-preview

grok-4

qwen3-coder-480b

qwen3-coder-plus

gemini-3-pro

kimi-k2

glm-4.7

qwen3-flash

小米MiMo-V2-Flash

opus-4.5

QwQ-32B

qwen3-Next-80B

qwen3-30B

qwen3-235B

qwen3-4B

qwen3-8B

qwen3-14B

qwen3-32B

deepseek-V3.2

GLM-4.5-AIR-106B

deepseek-v3

文心4.5 turbo

文心5.0

GPT-OSS-120B

doubao客户端

doubao-seed-1.8

doubao-seed-1.6-flash

总结

1. Opus 4.5 断档领先，独一档的存在

本次测试的AI生成页面，按效果可明确分为五档，其中Opus 4.5直接拉开代差：
断档领先Opus 4.5 （不光写了静态页面，居然还可以玩，还写了AI出牌策略）第二档空缺第三档，改一下也许也可以用
gemini-3-flash、

minimax-m2.1-preview、

gemini-3-pro
第四档，有个大致的形状大部分模型第五档，不忍直视100B以下开源模型和一些flash模型
2. 小参数模型实用性极低

100B参数以下的开源模型，在复杂web开发场景中效果普遍较差，无法有效提升开发生产力。

3. 本次测评的局限性

只用一条提示词“一发入魂”，确实有点片面。这主要考的是模型肚子里有没有现成的前端模板，代表不了复杂的逻辑代码能力。而且AI发挥也有随机性，这次生成的丑，没准多刷几次就漂亮了。大家看个乐呵，别太较真。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI斗地主哪家强?