找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 558|回复: 0

未来手机AI Agent会如何发展?智谱AI引起的思考

[复制链接]
发表于 2025-8-24 09:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
听了晚点和智谱AI聊手机AI Agent的播客,结合作者之前在手机厂的工作经验,记录下对需求场景、技术方案和商业模式的思考和疑问,以待后续观察。

>>晚点聊130: 手机Agent大幕拉开!从刚上线的AutoGLM 2.0聊起,大模型如何改造手机|Agent#4,播客链接地址:https://www.xiaoyuzhoufm.com/episode/68a6546b7357a4b631fe8cd3。

我让Gemini总结了核心内容和智谱的技术方案,见正文末尾配图,感兴趣的可以先看了,有输入,再看我的正文,一起思考。

手机语音助手主要有3大需求场景:手机使用(使用系统应用和三方应用)、信息效率(查询/编辑/创造)和情感陪伴,其中手机使用是最为高频和核心的。

多数用户在想要设置某个系统功能的时候,会给语音助手发指令来设置,解决不知道设置的路径、不知道如何设置的问题。

抽象一下,语音助手让用户获得使用手机的能力,就像Cursor让不会编程的我,能做出网站一样,对不熟悉手机操作的用户和残障人士非常有用,这样的用户群体规模很大。

除了能力外,手机上的AI Agent有价值的地方还在于提升效率,如执行重复操作和长链条跨APP操作,如每天早上点咖啡,需要多个APP才能完成的订车机酒等旅行决策。(APP=手机应用,下同)

可以说,手机使用是语音助手最难以被其他应用替代的核心需求场景,也是对手机系统最有贡献价值的场景,而信息效率和情感陪伴场景,目前已有较多AI产品都做得比较好了,从PC端的付费来看也验证了有市场,因此我会重点关注和讨论手机使用的需求场景(不打算讨论语音的交互方式的需求价值,是因为在无法用手操作的场景下,语音交互是目前最高效的方式,毋庸置疑)。

目前手机语音助手实现操作系统应用和三方应用的技术方式是用Deeplink在APP间通信和跳转。

简单打开APP及指定页面只需提供Deeplink,语音助手团队需要定期维护、更新打开应用的query和对应的Deeplink的规则表,因为系统、三方APP页面都会迭代,会变化。

深度操作某个APP则依赖语音助手团队和系统/三方应用团队花时间沟通配合、开发API等,因此无法大规模地铺开,无法满足大量用户个性化的深度操作APP的需求(个性化真实存在),只能覆盖一些高频和比较有价值的场景,比如适合做手机智慧服务卖点的打车、点外卖和旅行提效,这些也是手机厂商OS系统/新机发布会、开发者大会经常会提到的场景。

智谱AI Agent采用的是GUI模拟点击和API接口结合的实现方式,GUI模拟点击可以让AI Agent深度操作任意APP,而不依赖Deeplink,API的话仍旧需要做Agent的团队和系统/三方App团队有比较多的配合,也许未来会有类似MCP的优雅解决方案?

我问Gemini,智谱手机AI Agent的方案能否在手机本地实现,答复是:“在当前技术水平下,无法完全在手机本地实现一个能力与智谱云端Agent相媲美的通用AI Agent。它极其依赖云端的计算资源。一个更精确的答案是,这是一个**混合执行(Hybrid Execution)**的问题。未来的手机Agent会将任务拆分,一部分在本地完成,但其最核心的“大脑”部分,在可预见的未来里,仍将驻留在云端。”

因此,智谱AI Agent的方案和现用的Deeplink方案相比,虽然适用范围更广,但是会消耗大量的计算资源,是额外的成本,即使可以在工程上进行优化,以手机厂商用户规模的体量来看,计算资源成本依旧会很高(根据播客,智谱执行一次任务消耗token的成本为0.2美金)。

除此二种方式之外,还有没有更优雅、更低成本一些的方案?

我和Gemini讨论了一下——利用辅助功能服务(为残障人士提供的手机使用服务)和UI自动化测试框架(谷歌提供的框架)读取APP的UI控件树,进行结构化操作,是更适合手机厂商的方式——省资源,可行性也高,且是智谱一类三方手机AI Agent无法实现的,可以说是有护城河的方案(具体讨论见正文末尾贴的对话)。

除了技术方案和成本之外,还要考虑收益和商业模式。

手机厂商当前的商业模式是卖硬件获得硬件利润和用户,在此基础上发展互联网服务——最核心的营收方向是应用分发广告,语音助手也是应用分发的一个重要流量场景。

当前应用分发的商业化建立在Deeplink技术的基础之上,启动应用和广告归因传参都依赖Deeplink,依赖手机系统本地环境,如果手机语音助手采用智谱AI Agent的模拟点击的方式来做AI Agent,或者Gemini建议的UI控件树的方案来做,那么其原有的广告商业化系统也需要调整——怎么归因Agent的模拟点击?我也和Gemini讨论了这个问题,见正文末尾贴的对话,仅做信息参考。

在手机使用场景下,有广告变现价值的是使用三方应用,而使用手机系统应用没有商业化收益,只有提升用户体验的价值,帮助用户形成对手机厂商的良好印象,间接地促进复购。当然,做不好的时候,就会被骂智障、不好用,失去一个长期用户。

根据我的观察,我猜测手机厂商即使做了AI Agent,短期内也不会向所有用户开放,而是先用在高端机,为品牌力和提升溢价服务,长期迭代出成本低的技术方案、算力成本下降和广告系统迭代后才会陆续开放给中端机和低端机的用户。

在小红书上搜了下各安卓手机厂商的语音助手名字,看真实用户的反馈,即使有大模型的加持,在操作手机、使用应用上还远称不上智能,而这个场景又是用户直观感知手机“智能”的触点,仍有很多提升空间。

直觉判断,手机厂商做AI Agent是必然的——厂商也有体验上的收益、潜在的广告收益,有流量入口、落地场景和系统集成能力,也有用户心智,手机用户希望手机语音助手能更好地操作应用,实现真正的智能。

然而,我对三方App来做通用AI Agent来满足用户高效使用应用的需求有一箩筐的疑问:

1)这个需求场景真实存在吗?哪些具体的场景存在,哪些人群需要,真的会下载吗?

2)如果存在,需求频次如何,有多少人愿意为提效价值付费,潜在市场规模如何?

3)如果用户付费不现实,三方App的AI Agent能靠免费、好的体验成为重要的流量入口,再用广告进行商业化变现吗,利润如何?

4)如果可以进行广告变现,AI Agent是否会蚕食掉App的自然流量——比如一个用户经常用美团点外卖,AI Agent执行用户点外卖指令的时候却用了饿了么,APP们的流量成本会增长吗?

5)竞争格局会如何,哪些AI Agent能杀出重围,做出漂亮又扎实的增长和营收呢?会是既有AI实力,又有资金、又有用户和场景,还有完善的服务生态和商业化基建的阿里、腾讯和字节吗?

十分好奇和期待手机AI Agent的发展,期待我的疑问得到解答。

在这之前,唯一可以确认的是,智谱这波宣发,如果目的是做B端的PR,应该是成功了的:)

下文为我和Gemini的讨论,作为记录和供参考,非实际情况。

PS:出海还在关注、练习,接下来还会继续更新出海相关的内容(深度分析系列&大流量小需求系列),等我攒攒稿子再发出来^-^

——


















声明:封面图由ChatGPT生成。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-4 12:27 , Processed in 0.081691 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表