找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 153|回复: 0

AI斗地主哪家强?

[复制链接]
发表于 2026-1-21 09:35 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg
前言

先跟大家道个歉——标题党了。AI在线斗地主PK项目,正在开发中,之后将放到《AI斗地主到底哪家强?》一文中。本次先各家模型的coding能力,用同一段提示词,让20+款主流AI生成静态斗地主游戏HTML页面。其实让AI生成管理系统后台前端,很难看出模型差距——如今主流AI对各类前端框架的熟练度都相当在线。但web端游戏开发截然不同,不仅布局逻辑复杂,还涉及大量图片素材的排版、适配,这些都是AI的传统短板,能最大程度暴露模型的真实实力。
比起那些模糊的跑分数据,或是其他公众号“选择性展示”的宣传式测评(只挑效果最优的页面),本次测试全程用统一提示词,结果直观可感,模型能力孰强孰弱,交给大家自行判断。

测试结果


gpt-5.2     gpt-5.2-codex

w2.jpg

gemini-3-flash

w3.jpg


minimax-m2.1-preview
w4.jpg


grok-4
w5.jpg


qwen3-coder-480b
w6.jpg


qwen3-coder-plus
w7.jpg


gemini-3-pro

w8.jpg

kimi-k2
w9.jpg

glm-4.7

w10.jpg


qwen3-flash

w11.jpg

小米MiMo-V2-Flash

w12.jpg


opus-4.5

w13.jpg


QwQ-32B

w14.jpg


qwen3-Next-80B

w15.jpg

qwen3-30B
w16.jpg


qwen3-235B

w17.jpg


qwen3-4B

w18.jpg


qwen3-8B

w19.jpg


qwen3-14B
w20.jpg


qwen3-32B

w21.jpg

deepseek-V3.2

w22.jpg

GLM-4.5-AIR-106B

w23.jpg


deepseek-v3

w24.jpg


文心4.5 turbo

w25.jpg


文心5.0

w26.jpg


GPT-OSS-120B

w27.jpg


doubao客户端

w28.jpg


doubao-seed-1.8
w29.jpg


doubao-seed-1.6-flash
w30.jpg


总结

w31.jpg
1. Opus 4.5 断档领先,独一档的存在

本次测试的AI生成页面,按效果可明确分为五档,其中Opus 4.5直接拉开代差:
断档领先Opus 4.5 (不光写了静态页面,居然还可以玩,还写了AI出牌策略)
第二档空缺
第三档,改一下也许也可以用
gemini-3-flash、

minimax-m2.1-preview、

gemini-3-pro
第四档,有个大致的形状大部分模型
第五档,不忍直视100B以下开源模型和一些flash模型

2. 小参数模型实用性极低

100B参数以下的开源模型,在复杂web开发场景中效果普遍较差,无法有效提升开发生产力。

3. 本次测评的局限性

只用一条提示词“一发入魂”,确实有点片面。 这主要考的是模型肚子里有没有现成的前端模板,代表不了复杂的逻辑代码能力。而且AI发挥也有随机性,这次生成的丑,没准多刷几次就漂亮了。大家看个乐呵,别太较真。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-1-28 23:46 , Processed in 0.117239 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表