找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 126|回复: 0

AI只会聊天?来看看AI是如何长出“手脚”的

[复制链接]
发表于 2025-12-15 04:31 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
从“大模型”到“智能体”,探讨LLM的边界与Agent概念
在前几篇文章中,我们探讨了AI的基础概念、如何编写Prompt,还探讨了AI作为“模拟器”的本质。知道了这些固然不错,但这些难道只是为了跟AI聊天吗?AI对于我们来说就只是个聪明点的聊天助手吗?

当然不是!但大部分人,对于AI的态度和使用方式,依然只是为了做两件事:

    搜东西(比如:豆包,我感冒了,该吃点什么药?)

    唠闲磕(比如:豆包,你是男的还是女的,你的头是尖尖的吗?)

这就好像买了台性能很强的电脑却天天只用来玩扫雷和蜘蛛纸牌。
w1.jpg
大语言模型(LLM)真正的威力,不只在于它能陪你聊得多开心,还在于当你不再满足于让AI“陪聊”,开始尝试让AI帮你“做事”时——Agent(智能体)就出现了。
01. AI的技能:Vibe Coding(氛围编程)“我又不是程序员,AI会写代码关我什么事?”
在2025年的科技圈,有一个非常火的词叫“Vibe Coding”。什么意思? 以前写代码,你需要懂复杂的语法、标点符号,错一个字程序就崩。 现在,你只需要懂“逻辑”“感觉”(Vibe)。

在AI眼中,代码和中文、英文没有区别,都是一种语言。因此对于不会代码的用户意味着其拥有了一个24小时待命的“技术外包团队”。你只需要打字/语音描述你的需求,AI会理解并自动将你的想法编写成代码运行,主打一个“营造正在编程的氛围”,实际上一行代码都不用看也不用懂 :)

w2.jpg

它打破了技术壁垒,让结果即刻呈现:

    交互原型瞬间落地:脑子里有个网页创意的雏形?不用找前端开发。你只需描述需求,AI 就能在后台编写代码并实时渲染。从“一个想法”到“可点击、可交互的产品 Demo”,只需几分钟。

    全自动深度调研:老板要一份行业分析?不再需要你去搜索引挚里大海捞针。AI 能像分析师一样,自动编写脚本访问数十个网站,读取研报、交叉验证数据真伪,最终交给你一份逻辑清晰的深度报告。

    复杂数据可视化:面对成千上万条枯燥的物流或销售数据,不用学复杂的 BI 软件。直接丢给 AI,它能调用专业图表库,瞬间为你构建出一个可缩放、可钻取的动态热力地图,让数据规律一目了然。


AI打破的不再仅仅是“想法”与“实现”的壁垒,而是赋予了普通人驾驭复杂系统的能力。
02. AI的四肢:Computer Use(计算机操控)




以前的 AI 像是被关在小黑屋里的博士:他博学多才,知道怎么订机票,但他没有手,只能给你写个攻略,最后还得你自己去 App 里一步步操作。

但现在的 AI(Agent 智能体),长出了“手”。

这被称为 Computer Use手机自动驾驶 能力。它不再只是陪你聊天,而是能像人一样:

    看着 你的屏幕(视觉识别)。

    控制 你的鼠标或手指。

    点击 那些复杂的按钮。


未来的工作流是这样的:你对 AI 说:“下周五去重庆出差,预算 5000,订好机票酒店,并加到日历里。”

    AI 的行动:

    自己打开 浏览器或携程 App,像真人一样去比价。

    自己打开 地图,确认酒店离客户近不近。

    最终 生成一个“待支付”的订单页面,你只需要点一下“付款”。


这不仅发生在电脑上,也发生在你的新手机里。比如最近大火的“豆包手机”,你只需要说一句“帮我点两杯瑞幸咖啡”,它就能自己打开 App、选口味、下单。我认为这是一个对于移动设备非常超前且具有革命性的变化,但由于目前各大app的针对,短期内还是难以实现。

但总之,AI不再只是“告诉你怎么做”,而是开始真正“替你做”。(当然,AI难免会出错,所以编程也好,写文章也好,最后还是需要人来把关。)
03. AI的感官:多模态(Multimodality)




现在的大部分大模型(如豆包,GPT-5, Gemini 3.0),已经不再是只能在对话框里打字的“键盘侠”了。

它不仅能读万卷书,现在还能“看”万里路。

文字、语音、图片、视频……在 AI 眼中,这些本质上都是一种“数据”。多模态打破了媒介之间的隔离,成为了处理所有信息的万能转换器

    生活中的“万能识图”:不知道今晚吃什么?直接打开摄像头对着冰箱扫一扫,问它:“基于这些食材,教我做一道不超过 20 分钟的快手菜。”它不仅能认出角落里那半个洋葱,还能询问你的口味生成食谱。

    工作中的“视觉推理”:不再需要把数据敲进电脑。对着会议室白板上潦草的手绘流程图拍张照,发给 AI,它能立刻看懂逻辑,并把它转化成一张清晰的电子图表,甚至直接生成对应的代码。

    专业领域的“洞察者”:扔给它一张复杂的公司财报走势图,问:“那个突然下跌的曲线是因为什么?”它能结合图片中的数据拐点和当时的新闻背景,给你分析出背后的原因。

    w3.jpg


这意味着: AI 终于走出了纯文字的抽象世界,开始真正拥有了感知物理世界的能力。



03. AI能力的边界在哪里?

看到这里,你可能觉得,那这不是一堆人都得失业,AI这早晚统治世界。也许吧,但至少现在不会。

目前的AI依然有明显的“能力边界”,盲目信任它可能会给你带来很大的麻烦be like:

w4.jpg
1. 并没有所谓的“真相”,只有“概率”

(幻觉 Hallucination)AI 的本质不是一个搜索数据库,而是一个“概率预测机”。它不理解也不知道什么是真理,它只是在预测下一个字出现概率最高的是什么。

    现象:当它不知道答案时,为了保证语言的流畅性,它会极其自信地一本正经胡说八道。

    警示:验证是你的责任。 在涉及法律条文、医疗建议、名人名言或精确数据时,永远不要盲信 AI 的直接输出,必须进行二次核实(或者要求它提供信源)。

2. “注意力”会漂移,缺乏全局观

(上下文限制 Context Limitation)虽然现在的 Agent 能操控电脑,但它更像是一个优秀的战术执行者,而非战略家

    现象:在处理长流程、步骤极其复杂的任务时(比如“写一个从零开始运营到变现的商业计划”),它很容易在中间环节“迷路”,忘记了最初的目标,或者陷入死循环。

    警示:不要把过于宏大模糊的任务直接丢给它。你需要像产品经理拆解需求一样,把大任务拆解成一个个具体的、短流程的子任务喂给它。

3. 读过万卷书,没走半步路

(缺乏物理世界常识 Grounding)它可能阅读了人类所有的文本,但它从未真正“活”在物理世界里。它是由数据堆砌的“缸中之脑”。

    现象:它可能背下了所有物理公式,但在生成视频或图片时,如果不加控制,依然会犯“人有六根手指”、“花生长在树上”这种常识性错误。

    警示:它懂逻辑,但不懂“常理”。在涉及物理常识判断时,人类的直觉依然是最后的防线。

w5.jpg

看得出图片里的诡异之处吗

结语:

或许我们会迎来一个人人都能成为“超级个体”(Super individual)的时代。

未来的工作方式,不是你在电脑前苦哈哈地干活,而是你作为指挥官,指挥手下的几个AI数字员工(一个负责写代码,一个负责做图,一个负责查资料,一个负责商业营销)协同作战。试着从现在开始,不要只把AI当成聊天对象。给它一个任务,而不是一个问题。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-16 02:16 , Processed in 0.112481 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表