苹果找“搭子”,地主家也搞不定AI了?

新闻 · 发表于 2024-4-10 20:37

作者：酷玩实验室

酷玩实验室作品
首发于微信号酷玩实验室微信ID：coollabs

最近，苹果遇到的事儿挺多的，不过都不是什么好事。
首先是在3月底，美国司法部挥舞着反垄断的大棒，给苹果来了一记重击，指控它搞封闭生态系统，限制竞争对手。
这事儿一出，苹果股价那是“嗖”的一声，市值缩水了934亿美元，折合人民币约6724亿，简直比A股的过山车还刺激！

紧接着，外界又有传闻称，苹果竟然还悄咪咪地跟谷歌和百度勾搭上了，打算在今年发布的iPhone16、Mac系统和ios18中，使用谷歌的双子座作为英文AI，使用百度的文心一言作为中文AI，把两家的AI技术整合到Siri里。
当然这只是一条传闻啦。
不过，这两桩看似不相关的事，其实背后都绕不开同一个主题——那就是AI。

在2024年，哪个科技巨头敢说自己离得了AI？苹果也不例外，但让库克有些发愁的是，面对汹涌而来的AI大势，苹果自身在AI方面的进展，却不怎么明朗，甚至到现在连自家大模型都没真正弄出来。
于是才有了苹果破天荒地打算让别家的AI，进入自家的封闭系统的传闻。
尽管这事儿目前还真假未定，但苹果在AI方面滞后的情况，却让库克不得不深思，倘若这次的生成式AI，真的会带来一场手机领域的颠覆性变革，那苹果的处境就危险了。

到了那时，即使没有司法部的制裁，苹果自家的封闭生态，也迟早会在其他AI的围攻下逐渐崩解。——因为用户不会接受一个没有好AI的手机。
那么，手机与AI的结合，到底有没有人们想象中的那么重要呢？
噱头or变革？

讲真，关于手机AI这件事，其实很多大厂都已经开始了布局。
例如三星发布GalaxyS24系列产品引入“GalaxyAI”；小米的澎湃OS融入AI大模型能力，OPPO发布“首款端侧应用70亿参数AI大模型手机”——OPPO Find X7Ultra；荣耀在Magic6系列新机上置入自研70亿参数AI大模型——“魔法大模型”。
然而，这一系列火热表象的背后，却是手机AI雷声大雨点小的情况，现阶段，似乎很少有用户将手机AI当成换机的动力。
究其原因，还是目前手机AI能干的事儿，实在太少了——而且干得往往还不如云端AI好。
现在的各种手机AI，新增的功能无非就是图像生成，照片消除，以及文档摘要，语音通话总结，语音翻译等等。

但这些功能，实际上不用内置的大模型，第三方App联网的云端AI也能完成……
而那些内置于手机的AI，由于端侧硬件的限制，往往参数很小，发挥不了与云端AI等效的性能。
就比如语音翻译功能，手机端侧的AI可能可以快那么两秒钟，但翻译出来的话狗屁不通，那还不如等一下联网翻译呢。
所以，一个直击灵魂的问题来了：手机AI存在的意义，究竟是什么？

关于这个问题，最近苹果披露的一篇技术论文，似乎提供了某种可能的答案。
在这篇名为《ReALM:Reference Resolution As LanguageModeling》的论文中，苹果不但发布了自家的最新模型ReALM，而且还提出了一种新颖的思路：让AI将屏幕上的东西都转化成文字，然后让语言模型去理解。

具体来说，ReALM在运作过程中，会先通过视觉技术识别屏幕上的各种元素，例如按钮、图标、文本框等。之后，再对这些实体进行编码，记录每个元素的确切位置和它们的关系。
最后，AI会将这些实体和位置信息，转换成详细的文本描述，并输入语言模型，让其学会解析用户的指令。
例如，你现在在手机上用微信聊天，AI就能把聊天框里所有的记录、文件，和它们在屏幕上的位置都记下来，转化成一段话，比如“聊天框中部有个连接，是一篇关于自动驾驶的文章”。

换句话说，有了这个技术，你无论在屏幕上干什么，甚至在想什么，都逃不过AI的法眼。
并且，因为AI有了和你“同时观看”屏幕的能力，所以在交互的时候，即使有些指令说得模糊，或者不太清晰，AI也能理解你在指的是什么。
比如你跟AI说，“刚才视频的那个东西是什么？”，AI就能知道“那个”是指的是苹果还是香蕉，这就是所谓的“实体参考解析”。

根据论文，研究者将来还打算探索更精细的空间编码技术，比如用一种更高级的方法来“画”屏幕，就像用网格一样标出每个东西在哪儿。
在此基础上，研究者还想让模型拥有记忆，“记住”和用户在一段时间内的交互历史，并结合这些“记忆”来解析当前的查询。
那诸如此类的功能，将来应用在手机上，究竟能发挥怎样的功效呢？
一种可能的答案，就是用来针对某些信息密集型APP在使用过程中的复杂查询。
手机AI的三个阶段

什么是信息密集型APP？简单来说，就是那种用起来会生成、处理或者显示一大堆信息的应用程序。
例如某些社交媒体APP，像微博、微信那样的，每天得有几百万人在上面发状态，有数不清的文章、动态要看，回不完的消息在显示。

再就是某些电商APP，比如淘宝、京东，上面有成千上万的商品信息，每个商品都有自己的图片、价格、评价、销量等等。
针对这些APP，简单的摘要、总结，或是图片识别等功能，显然是不够用了，因为在使用这些APP进行信息筛选的过程中，人们常常会遇到那些不是一两句话就能说清楚的问题，或者是那种需要绕几个弯才能搞明白的请求。

举例来说，假设你在视频APP上看了一部科幻电影，觉得特效特别棒，于是就问：“这部电影的特效用的是什么技术？”
又或者，有时你想起在微信上看过的一篇公众号文章，觉得其中有一句话很有意思，但想不起文章名了，只能大概地说：“我想找一篇关于问界汽车的文章，里面好像提到了自动驾驶”。
这样的需求，就叫做“复杂查询”。
如果说，现阶段各类手机AI所具有的总结、摘要，以及AI照片消除等功能，是AI在手机上较为初级的第一阶段，那么这种针对密集信息进行复杂查询的AI，则代表了将来AI在手机上进阶的第二阶段。
而这第二个阶段，也在某种程度上解释了，为什么AI大模型非得内置在手机系统里，因为只有一个内置在系统中的AI，才能进行跨应用，跨平台的功能调用，从而让AI的触手伸向每一个APP。
但如果只是做到了这点，其实还不足以完全颠覆各大互联网巨头打造的APP孤岛，因为各个APP，实际上也可以通过在应用内置AI的方式，在一定程度上实现这样的复杂查询（实际上，某些APP，例如B站，已经开始尝试那么做了）。
真正对当前手机生态造成颠覆性影响的，或许是手机AI的第三个阶段，也就是AI在手机上通过AI智能体（Agent）技术实现各种自动化操作，并初步建立起一种轻量级人机融合的阶段。
举两个简单的例子，比如我们卖飞机票订酒店，很多时候携程、飞猪等等平台里面的价格都是不一样的，能不能让手机上的AI智能体跨平台总结三个合适的选项让我做最终决定？
或者说，我一觉醒来，微信里面诸位大佬发了好几百条朋友圈，我没时间一一去看，能不能让我的手机自己去帮我看，如果朋友分享的是好事，就鼓励互动一番？
做到这些的前提就是手机要足够了解我。
也这就需要通过前面提到的类似ReALM的技术，让手机AI可以在伴随用户的过程中，通过观察屏幕上的各种操作，分析和总结出一个人使用手机时既定的行为模式，之后再结合机器学习算法，建立起每个用户的个人大脑/思维模型。

之后，再将这样的模型，与Agent技术结合，从而在手机上实现一种更为自动化、个性化的操作。
这也是当前的大模型，走向手机、PC，以及所有个人化终端最大的意义之一。
人机融合

与马斯克的脑机接口有点类似，手机AI与个人思维、习惯的结合，本质上也是让手机作为人体一种延伸出来的“器官”或“义体”，去实现人类现有的思维和肉体难以实现的操作。
例如同时写好几份报告、文章，还能同时刷视频，逛淘宝啥的。
那具体怎么才能实现这点？前面提到的Agent技术就成了关键。
今年2月，由北京交通大学和阿里的研究人员共同发布的一项研究成果，就揭示了将来在手机上实现这种全自动操作的可能。

简单来说，在这个研究里，这个叫做Mobile-Agent的智能体助手，用了一种特别的“视力检查”技术，能认出屏幕上的字啊、图标啊这些东西，有点类似于前面苹果的ReALM技术。
但比苹果的技术更进一步的是，这个智能体在识别屏幕的基础上，还具备了自主规划的能力。
在测试中，用户想让它在Youtube上找金州勇士队当家球星，小球时代的开创者，两届MVP得主斯蒂芬·库里的视频，并在下面发表个评论，它还真的就在全程无人为控制的情况下完成了这些操作，而且没有任何错误。

同样地，即使是面对某些操作多App 的要求，它也能得心应手。
例如用户让它查询今天的比赛结果，然后根据结果写一个新闻。Mobile-Agent接到任务后，先在浏览器App里找到了比赛的比分，接着，它退出了浏览器，打开了记事本App。最后，它把比分写了下来，还按照新闻的样子给整理了一下。

而Mobile-Agent之所以能实现这种多APP、多任务的操作，靠的正是自我规划与自我反思的能力。
在Mobile-Agent做事的过程中，在做完第一步后，它就会看一下当前手机屏幕的截图，看显示的是不是所需的APP界面，如果是的话，它就知道上一步做对了，然后继续规划并执行下一步操作。
如果不是，它就会“反思”一下，重新修正操作，根据不断变化的截图，调整下一步的操作，直至最终完成任务。

这种自动化的流程，倘若与前面苹果的ReALM技术相结合，那么AI在观看并学习了用户操作习惯、行为后，就能基于个人习惯，更熟练地进行各种多APP、多任务的复杂操作。
例如对于某个经常需要写稿的编辑来说，AI在观看了他对手机的使用习惯后，便可以知道，他经常上的是哪些网站，看的是哪些公众号、视频。
进一步地，AI会根据这样的轨迹和习惯，建立起一个大致的思维/习惯模型，在他需要写稿时，从不同的APP搜集文章、视频，与他进行交流。最后再将交流的成果凝练，输入进其常用的文档工具。
当这样轻量级人机融合进一步演化，并延伸到其他领域时，人类智能的提升和优化，以及对生产力的影响，也将进入一个新的阶段。
例如在复杂工业环境中，手机上的多模态感知，能让AI实时规划和指导作业流程；
在医疗领域，集成生物传感器、医疗影像分析等AI能力，手机等终端能够全面感知和分析人体健康状况；
甚至在军事领域，这种人机融合的能力，在战场上还能加深各种智能化装备与士兵的契合度，出现一种类似“贾维斯”的存在。
意义与影响

如果要论手机AI带来的最直接的影响，那恐怕就是将现在愈发萎靡的手机市场给盘活了。
去年，在华为Mate60系列的引领下，全球智能手机市场似乎有了复苏的迹象。但国际数据公司IDC却揭示了这种复苏背后的“危机”。
IDC数据显示，2023年全球智能机出货量同比下降3.2%至11.7亿部，为十年来最低，当年中国智能机出货量约2.71亿台，同比下降5%，也创下近10年以来最低出货量。而苹果虽在去年以20%的市场份额稳居第一，但新机激活量同比出现—10.6%的下滑。

由于同质化和性能过剩问题，很多人觉得没有必要频繁更换新机。因此，消费者平均四年零三个月才会考虑换新机。
事实上如果没了销量，也就没必要研发先进制程的芯片了，到时候没人买，也没有海外市场可以占领，研发也没啥意义了。
而如果手机AI真的给人带来了颠覆性的体验，到时势必会刺激新一轮的换机潮，而相应的芯片需求也将水涨船高，因此手机AI便和端侧芯片形成了一种相互促进的关系。
而第二点较为重要的影响，就是通过手机AI，相应的厂商能够扩大AI数据积累。
具体来说，通过联邦计算的方式，AI会先利用手机本地的用户交互数据，对模型在设备端进行训练，这时只有模型的参数在更新，原始数据不会离开手机（这也解决了隐私问题）。
而分别在大量手机上训练出许多模型后，服务器会收集并聚合它们的参数，得到一个全局模型。全局模型再下发给各设备，重复上述训练聚合流程，形成迭代优化。
在此情况下，谁率先占领了手机AI的市场，谁就能让数以亿计的手机用户成为自己海量的“数据源”，从而为训练更强大的AI模型提供宝贵的资源。

虽然云端大模型（闭源），也能实现这样的“数据飞轮”，但效果却不会像本地化了的手机AI这样直接，原因就在于本地化部署使得数据采集更加直接，中间环节更少。
最后一点颇为重要的影响是，通过这一个个海量分布的手机AI，端侧小模型将有可能对云端大模型形成一种“农村包围城市”的态势。
具体来说，手机上有大量不同的应用场景,如拍照、打车、购物、办公等等,每个场景都有特定的AI需求。这些细分场景，难以用通用的云端大模型高效覆盖，因为需要针对性地训练和优化。
而端侧的小模型，则可以专门为每个应用场景量身定制，随着越来越多的应用场景"嵌入"端侧专用AI模型，就逐渐形成了一个覆盖手机各领域的完整AI生态系统。
用户在使用手机时，基本上所有AI需求都可在端侧得到满足，无需调用云端服务。
这样一来，云端大模型在手机场景的发展空间就会被逐步蚕食和压缩。
在这样的态势下，端侧小模型，最终将很可能将占据那些无处不在、渗透性较高的生活场景（相当于“农村”）。
而云端大模型，则将占据那些更加集中、通用，且对算力要求更高的场景（相当于“城市”），例如对长文档，长视频的总结、分析等任务。
各方进展

从技术上来说，决定手机AI将来发展的，主要有三大关键技术，分别是：端侧芯片、小模型技术、Agent技术。
就目前来看，在端侧芯片方面，表现较为突出的主要有高通、联发科和苹果，虽然从制程技术、CPU架构这两个关键指标来看，三者看上去都不分伯仲（都是4nm），然而具体在端侧大模型的部署方面，胜出的还是联发科的天玑9300。
其不仅支持在手机端运行最大330亿参数的大模型，而且能够在1秒内生成图像，以及以每秒20Tokens的速度生成文本。
在此之前，大部分的手机厂商，都很难做到在手机端部署超过100亿参数的大模型。

而天玑9300其之所以能做到这点，最重要的，就是采用了硬件生成式AI引擎和全大核CPU架构这两个关键技术。
用大白话解释，前者是一种将AI引擎直接集成在芯片中的技术，而后者则是将所有的CPU核心都设计成高性能的大核心，这样CPU就都能够处理复杂的任务，而且处理速度很快。
但是，仅仅在硬件方面下功夫，还不足以在手机AI方面独占鳌头，毕竟端侧芯片的性能上限，再怎么也不可能和PC端的高性能GPU相提并论。这就决定了塞进手机里的大模型，参数终归不可能超越PC。
所以，想要在手机AI上取得突破，另一个需要发力的方向，就是小模型技术。
而这门技术的关键，就在于将模型变小，塞进手机（或其他终端）的同时，还能让模型保持不错的性能。
而在这方面，目前实力较为靠前的企业，当属微软和国内的面壁智能。
早在今年2月，微软就宣布收购了在小模型方面颇有建树的欧洲公司Mistral，而后者的过人之处，正是“四两拨千斤”，通过参数更小的模型，取得比大参数模型更好的效果。
其主要的代表作，就是参数只有70亿的Mixtral 8x7B。在许多基准测试中，Mistral8x7B的性能已经达到甚至超越了规模是其25倍的Llama270B。
而微软自己推出的Phi-2，虽然规模更小（仅27亿参数），但得益于“教科书质量”数据的训练，目前已在基准测试中超过了更大的模型，如70亿参数的Mistral和130亿参数的Llama2。
这性能，这大小，看起来已经“压缩”得很极致了，可国内的面壁智能，在今年2月直接来了个王炸，用20亿参数的MiniCPM，就实现了参数是自己数倍，甚至数十倍模型相媲美的性能，例如Llama2-13B（130亿）、Falcon-40B（400亿）等。

最厉害的是，MiniCPM不仅能在手机上流畅运行，推理成本还低到令人发指——170万tokens仅1块钱！
如此一来，在小模型方面，国内已经做到了与国际巨头并驾齐驱，甚至略微反超的水平。
而将模型变小，除了能更好地将它“塞进”手机之外，更重要的一点，就是小模型比大模型更容易被灵活调度和部署，而这也是在手机上实现Agent技术的关键。
因为所谓的Agent技术，实际上就是让多个AI分工协作，实现自动化流程的一种技术，而大模型虽性能更强，但却结构复杂，像个不易驯服的大象，而小模型虽小，但胜在结构简单，输出和行为更易于控制。

这就好像训练十几只分别精通不同任务的猴子，要比训练一个什么活都会干的大象要容易多了。
之前提到，AIAgent在手机上的应用，是实现各种自动化操作，带来颠覆性体验的关键。而在这方面，上面提到的面壁智能，可以说取得了独占鳌头的优势。
其凭借自身Agent技术打造的项目ChatDev，甚至得到了斯坦福大学教授、AI科学家吴恩达的盛赞。

吴恩达讲解ChatDev
ChatDev就是让一群AI智能体扮演不同角色，合伙开发一个软件项目。
人类开个头,说做啥软件。设计师AI就给出创意界面设计；程序员AI写代码；测试员AI检查Bug。他们会像真人团队似的，反反复复讨论优化,最后呈现一个能运行的软件。
要是这种技术用在手机AI上，是能实现各种复杂操作的关键。

因为越是复杂操作,需要分工的环节就越多。比如你去开个会,用手机拍了视频,想剪辑加字幕、校对、配图片标题什么的,再发到某APP上。这么多环节,每一步都得有专门的“岗位”和“角色”在干活。
现在的一些Agent应用,比如AutoGPT,虽然“自动”、“高效”了，但处理不了这么多不同“角色”之间如何合作的问题。
面壁智能的ChatDev之所以牛逼，不仅仅在于它让多个AI智能体分工合作，而是在于它如何让这些智能体高效、协调地工作。
结语

倘若手机AI的“ChatGPT”时刻真的来了，那么有两种后果，是很可能会出现的。
其一就是软件和服务的主导权将改变。
与当前由谷歌、苹果等主导软件和服务不同，未来AI手机，很可能由AI公司或专门的AI应用公司主导生态系统。相较于“半路出家”的手机厂商来说，起步更早，投入也更专一的AI企业，例如OpenAI、面壁智能等，无疑能提供更好的端侧大模型。
到了那时，手机市场，乃至其他移动硬件市场的主导权，很可能就会变天了。苹果这种起步较晚，且处于“两线作战”（既要顾AI，又要顾硬件）的企业，能不能守住自身的封闭生态，会是个很大的未知数。
其二，则是“算力枷锁”的打破。
前面提到，随着手机AI的成熟，端侧小模型将有可能对云端大模型形成一种“农村包围城市”的态势。而在更大的国际尺度上，这种态势会呈现出更复杂的形态。
因为相较于对算力要求颇大的云端AI而言，手机上的端侧AI，对芯片、硬件的需求，实在是小巫见大巫了。
基于这一前提，加上华为在芯片领域撕开的缺口，以及中国庞大的移动用户体量，倘若手机AI将来真的盘活了，那相当于中国部分地规避掉了美国在AI算力方面的封锁。
更进一步地，这样对算力依赖较低的特点，还会让端侧小模型在发展中国家和新兴市场进一步普及。
如果说，端侧大模型，让人们看到了AI有多强大，而手机AI这样的端侧模型，则将让人看到，AI究竟可以惠及多少普通人。

酷玩实验室整理编辑

首发于微信公众号：酷玩实验室（ID：coollabs）

如需转载，请后台留言

酷玩实验室视频号
热点视频推荐↓↓↓小模型上演“农村包围城市”！

账号		自动登录	找回密码
密码			注册

萍聚头条

[手机] 苹果找“搭子”,地主家也搞不定AI了?

本帖子中包含更多资源