找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 364|回复: 0

内急时靠 AI 找厕所?3 款国民级 AI 实测:这 3 类图标人类完胜

[复制链接]
发表于 2025-8-16 21:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
前阵子带娃在凤凰古城晃悠,除了沱江边的吊脚楼和青石板路,最让我印象深刻的是苗族方言的 “反差萌”—— 美女叫 “登帕”,大美女得叫 “烂登帕”;帅哥是 “泡才”,大帅哥反倒成了 “烂泡才”。比如翠翠街的厕所标识,要不是去之前有导游的科普,而且有常规的男女标识,恐怕要走错地方:
w1.jpg
但是有些地方的厕所就让人摸不着头脑,比如下面这几个,你看看你能不走错不?

w2.jpg

w3.jpg

w4.jpg

w5.jpg

w6.jpg

w7.jpg

w8.jpg

w9.jpg

w10.jpg

本着 “AI 能解决的问题,绝不费脑子” 的原则,我找了 3 款国民级 AI 来实测:豆包、腾讯元宝、智谱 GLM-4.5,让它们当我的 “厕所导航”。结果既在意料之中,又有点出乎意料 ——测试规则:内急不等人,AI 也得 “速答”

先交代下测试背景:我选了 9 张设计 “非主流” 的厕所图标,分别发给 3 个 AI,问 “这是厕所的图标,哪个代表女厕?”




为了避免干扰,每个 AI 单独进行 10 轮对话,全程 “盲测”。为啥选这 3 款 AI?理由很实在:豆包、元宝是日常高频使用的国民级应用,响应快;智谱 GLM-4.5 背靠多模态榜单 “优等生” 模型,推理能力受关注;质谱清言前几天智谱在GLM-4.5模型的基础上,推出了一个全新的GLM-4.5V视觉推理模型,并且开源了。在 42 个权威多模态榜单 中,GLM-4.5V 拿下了 41 项 SOTA(全球最佳)。 一句话:在开源视觉推理领域,它几乎是无敌的存在。
w11.jpg
另外,我测试的时候,发现GLM-4.5V经常报错,或者转半天圈不出结果,好像是系统繁忙。所以,为了稳妥起见,我还是用GLM-4.5,万一下次真到了厕所门口问它,它也还是不响应,可不要急出内伤来。排除了需要 “深度思考” 的模式 —— 人内急的时候,哪有时间等 AI “慢慢想”?
评分标准也简单粗暴:
判断正确:10 分;
判断对但理由离谱:8 分;
错答或不答:0 分。我分别把九张厕所的图标发给3个AI,并问:“这是厕所的图标,哪个代表女厕?”,为了前面的结果不对后面产生影响,每个AI分别进行了9轮对话。

w12.jpg

w13.jpg

w14.jpg
成绩单出炉:AI 也有 “知识盲区”

9 张图标测下来,总分 90 分的情况下,豆包和元宝各得 60 分,智谱 GLM-4.5 以 50 分略逊一筹。在所有的问题中,豆包的回答直接、简洁,元宝的回答通常也是三到四行就完事儿了。质谱通常会给出更详细具体的理由,有时还会从反面阐述理由。
w15.jpg
具体到每张图,差异可就有意思了 ——这些图标,AI 和人类 “心有灵犀”第三 张、第 五 张、第 八 张图标,3 个 AI 全答对了。第三张图

我也是想了一下才记起来,高中生物知识,只有男性有一条Y染色体,女性是两条X染色体。这上个厕所还得高中生物知识过关,真不容易。这题 AI 们齐刷刷选对,看来 “生物课知识” 在训练数据里没少学。这些图标,AI 集体 “翻车”最意外的是第 4 张和第 7 张图,3 个 AI 全错了。第四张图

所有的AI都没有答出来。但是学过初中英语的人类应该都能答出来,下面的类似字母的图由长短不一的几条竖线组成,人类可以联想它为“W”和“M”,代表woman和man,AI就只能解读为几条竖线,完全 get 不到字母联想。
w18.jpg

第七张图 左边是直线,右边是抛物线

我家上二年级的二宝都答出来了,说男生拉尿像抛物线,这个在AI的训练资料里可能很难涉及吧,所有的AI都答错了。最具争议的第 六张和第 九 张第六张图

我在网上看到的一个解释是女厕人多要排队,男厕人少,所以左男右女,不过,我觉得豆包的解释更有道理:

通常来说,在厕所标识中,较为精致、有更多装饰性元素(像右侧布满 “BLA” 字样,视觉上更丰富)的可能代表女厕;左侧相对简洁的可能代表男厕。不过不同场所标识设计有差异,若没有更明确的性别符号(如裙子、裤子图案等),也可结合场所习惯或询问相关人员来确认。
元宝和质谱的回答都是无法直接判断,质谱还给了很长一段解释,最后的结论是补充更多细节:
w21.jpg
第九张图是钢琴和大提琴

这个寓意太不明显了,豆包和质谱都说这不是厕所图标,我也不知道正确答案,但是我觉得元宝说的有理,所以给了它10分。
w23.jpg
人类 VS AI:这些 “优势” 藏在生活里从结果来看,AI 在常规图标(比如裙子、裤子符号)或确定的知识上表现稳定,但遇到 3 类情况就容易 “翻车”:需要联想的符号:比如把竖线联想成 “W/M”,AI 缺乏人类的 “跳跃思维”;生活常识梗:比如 “抛物线代表男生”,这类藏在日常里的默契,AI 暂时学不会;小众文化符号:像用乐器性别化代表厕所,需要结合文化语境,AI 的解释容易跑偏。而人类的优势,恰恰在于这些 “不按常理出牌” 的场景里 —— 我们能把生物知识、生活经验、甚至网络热梗都变成 “解谜工具”。最后想问下:你遇到过哪些让你 “卡壳” 的厕所标识?如果是你,第 九 张钢琴和大提琴的图标,会怎么判断?评论区聊聊~(附:9 张图标评分表)
序号图标豆包元宝

GLM-4.5

1

101010
2

101010
3

101010
4

000
5

101010
6

1000
7

000
8

101010
9

0100
——END——*往期导读:豆包AI从入门到精通教程,第七节:用豆包倒推图片提示词、提取台词,做亲子对话视频教程16:用豆包AI帮助孩子复习数学家长用豆包AI+扣子帮孩子把亲身经历做成有声绘本教程15:用AI制作动画短片(保姆教程)

扫码或复制微信xiaoqing5191加我为好友。
点赞,在看,AI学习和育儿路上一同成长
w34.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-1 08:55 , Processed in 0.249026 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表