找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 128|回复: 0

AI Storymap:各家新模型表现小测~

[复制链接]
发表于 2025-10-1 23:28 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
放个国庆好卷啊,各家速速在发自己的新模型。我刚好也想着为 AI Storymap 工具 找个性价比较高的国产模型来用,就刚好借着Claude-4.5,搓了个测评小工具,对模型调用的稳定性和速度进行对比分析,并尝试用“LLM-Judge”的方式对生成结果进行质量评估——手搓过程还挺顺利,测评结果这就新鲜出炉啦 😊↓↓↓
📋 一、测试方法

1. 测试场景:

    AI Storymap 中通过需求输入及相关上下文,来生成 Storymap(Yaml 格式数据),输入在 2000 - 5000 字符之间;输出在 5000 - 15000 字符之间。
2. 测试模型:

    Gemini 2.0 Flash: Google AI StudioDeepSeek V3.2 Exp:  DeepSeek官网Kimi K2 Turbo: Kimi官网平台Qwen 235B Instruct:硅基流动 Qwen 80B Instruct:硅基流动GLM 4.6: 智谱官网
3. 测试方法

    使用AI Storymap 工具中的同意示例需求描述(例如"开发一个租车系统")及生成逻辑,让各模型并行生成 Story Map YAML,对比响应速度、稳定性、输出质量。
4. 评估维度:

    基础指标:响应时长、Token 使用量、输出统计(YAML 长度、用户故事数、支撑性需求数)质量评估:使用 Gemini 2.5 Pro 作为评估模型,从需求覆盖度(30%)、结构完整性(20%)、描述质量(10%)、无效内容比例(40%)等维度进行智能评分。
    以下为测试工具界面:


w1.jpg

w2.jpg

图1:所有模型同时测试的场景

🔬 二、测试发现

1、稳定性:表现参差不齐 ⚠️

🎨
这次测试中,各模型的稳定性表现差异较大:

- ✅ DeepSeek 3.2、Gemini 2.0 Flash 和 Kimi K2 Turbo:测试过程中表现稳定,未出现失败情况

- ⚠️ Qwen 80B 和 GLM 4.6:大约 10% 的情况下会出错或超时,但整体可用

- ❌ Qwen 235B:在本次测试中只有 1 次成功生成结果(还没定位到原因,生成一直失败,大多报错超时)

小结:从稳定性视角,Gemini 2.0 Flash、Kimi K2 Turbo 在本次测试中表现更可靠

w3.jpg

图2:6个模型的测试结果概览
2、速度:快慢分明 ⚡

响应速度方面,模型们明显分成了两个梯队:

🚀 第一梯队(响应较快):
👍
- Gemini 2.0 Flash:名副其实的"闪电"速度,大部分情况下都是第一个出结果(注:中间也用 2.5 Flash 测试过,速度会慢1倍以上)

- Kimi Turbo:Turbo 名不虚传,偶尔会是其中最快的

- Qwen 80B:速度表现也很不错

🐌 第二梯队(响应较慢):

- DeepSeek 3.2:响应时间明显更长

- GLM 4.6:速度也相对较慢

实际体验:

第一梯队的模型通常在 10-20 秒内就能返回结果,而第二梯队可能需要 40-60 秒甚至更久。 这个跟具体前端交互设计有关,如果是异步,那这个差异可能也没影响;如果是想让用户多轮迭代修改,可能就得考虑第一梯队的三个。

参考测试结果附图:

w4.jpg

w5.jpg

w6.jpg

w7.jpg

w8.jpg

w9.jpg

图3:不同模型的响应时长对比

3、质量对比:各有特色 🎯

这部分尝试使用 Gemini 2.5 Pro 作为"裁判",从多个维度对生成的 Story Map 进行评分。
🌟评估维度说明:

🌟
- Story独立性(权重:10%):是否符合 INVEST 原则/粒度是否合适

- Story完整性(权重:20%):是否完整地覆盖了原始需求范围中的功能点

- 支撑性需求完整性(权重:20%):是否完整地从系统视角识别了各种后台/隐性/非功能性需求

- 无效内容比例(权重:40%):是否包含与需求无关的冗余内容(这个维度权重最高,因为无效内容会严重影响实用性)

- 表达及格式(权重:10%):是否符合规范要求的表达格式
📊 质量分析结果

先看如下分析结果图片:

w10.jpg

w11.jpg

w12.jpg

w13.jpg

w14.jpg

w15.jpg

图3:不同模型的生成结果质量对比
📊 质量对比分析发现

考虑到如下几个因素:
    即使同一个案例的输入数据,每个模型的每次输出结果都不一致;Gemini 2.5 Pro 作为Judge, 本身这个方式及目前的实现,不算很严谨,还是会出现幻觉;评估的维度模型不算足够严谨;

分析结果数据:
    即使模型输出 token上限不一样或设置的比较大,但各个模型输出的字符数相差范围很小,大都在 1000 字符以内;这说明质量之间差异没有很大;即使同一个案例数据的输入,多次运行各个模型输出质量的排名会有不同,但分差都没超过 1 分;每次相对评估,质量分差异在 1 分以内的,可以大致认为质量是同一个等级;

所以,大致可以得出的结论是:
📚
    DeepSeek V3.2和 GLM 4.6 质量相对略胜一筹(可能思考久一点还是有一定优势)Gemini 2.0 Flash和Kimi K2 Turbo质量相对比较稳定;Qwen 80B 略有差距,但不是很大;如果想要国产替代,使用Kimi K2 Turbo、Qwen 80B基本上可以比肩Gemini 2.0 Flash,可以尝试用这两个来作为生成 Storymap 的默认模型——毕竟更便宜,性价比更优😜

💡 最后

⚠️ 本次测试样本量有限,测试场景也比较单一,结果仅供参考。实际落地选型时还需要考虑更多因素,比如成本、API 稳定性、技术支持等。

💡 以轻量方式为AI 场景实现模型使用的性价比自动化评估、LLM Judge都还是挺有意义的:一是会为下一步实践和调整方向做个有用的参考和建议;二是可以复用,随着模型动态迭代,可以随时看到最新的自动化评测结果。

在这个过程中,也发现了 AI Storymap 工具本身的一些优化空间,留待下次分享。

如果你也在用 AI 做产品需求分析,欢迎留言分享你的使用体验和发现! 👇


相关文章

AI Storymap:Kimi Turbo模型体验啦

落地企业级AI应用,产品经理要会的20件事

AI2.0时代, 产品经理的学习路径

#AI故事地图  #AI需求分析 #自动化评估  #模型效果对比 #国产模型表现
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-3 18:47 , Processed in 2.717084 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表