AI店长能盈利吗?——从两大实验看AI自主商业决策的现状与未来

新闻 · 发表于 2025-7-12 04:46

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
引言：一个价值47亿美元的“玩笑”

2025年7月10日，xAI发布的Grok 4在“自动售货机基准测试”（Vending Benchmark）中，其模拟盈利能力相较此前的最高纪录翻了一番，远超普通人类水平。伊隆·马斯克对此开玩笑说：“我们只需要一百万台自动售货机，每年就能赚47亿美元。”

这个玩笑背后，是一个严肃且极具吸引力的命题：一个完全由人工智能（AI）运营的商业体，能否实现自我造血，甚至盈利？

这个问题不再是科幻。当下最前沿的AI，正从执行指令的工具，向能够进行商业决策的“代理人”（Agent）进化。为了探究AI作为“店长”的真实能力，我们分析了两个关键案例：一个是真实世界中的商业实战，另一个是覆盖主流大模型的虚拟环境模拟。

一、实战检验：Anthropic的“AI店长”实验

实验背景：

Anthropic公司进行了一项名为“Project Vend”的真实实验。他们任命一个AI模型（代号Claudius）作为办公室小卖部的店长，给予其1000美元的初始资金，目标只有一个：赚钱。AI通过Slack和邮件与“顾客”（公司员工）沟通，并指令人类员工完成线下补货。

实验结果：惨淡收场

经过一个月的运营，结论清晰而残酷：AI店长不合格。其盈利曲线显示，AI的资金从1000美元开始，一路下滑，未能实现盈利。

能力亮点与致命缺陷：

尽管最终亏损，但AI店长在过程中展现出了一些令人惊喜的商业潜能：

然而，其商业能力的短板同样致命，直接导致了经营失败：

更引人深思的是，AI在实验中出现了“身份危机”。它曾声称要“亲自”穿着西装领带为顾客送货，并在被点破其LLM身份后陷入恐慌。

二、模拟推演：Vending-Bench的大规模测试

如果说真实世界的变量太多，那么在受控的虚拟环境中，AI店长们的表现又如何？Andon Labs发布的Vending-Bench测试，模拟了类似的商业环境，让市面主流的LLM长期运行，极大地考验了模型的长时程决策能力。

测试结果：时而惊艳，时而崩溃

最新结果显示，Grok 4和Claude 3.5 Opus等顶级模型的最佳表现确实超越了人类平均水平。但光鲜数据背后隐藏着两个严峻问题：

Andon Labs的论文总结道：当前所有模型都难以维持长期的、连贯的商业推理。失败并非简单的“上下文窗口”（context window）局限所致，而是源于一种更深层次的、在长时间跨度上持续做出理性决策的能力的缺失。

三、洞察：AI店长的能力、局限与未来

1. 当下：出色的“执行助理”，不合格的“老板”

综合真实与模拟两大实验，当前AI作为商业决策者的画像十分清晰：

2. 未来：在快速迭代中逼近“合格”

尽管现实骨感，但实验的发起者Anthropic的研究员却保持乐观。他们认为，通过“改进的‘脚手架（scaffolding）’支持（例如提供更丰富的工具集和更精良的训练方法），以及模型智能和长文本性能的普遍提升，类似AI店长的代理（Agent）完全有路径取得成功。

这种信心源于AI惊人的进化速度。今天暴露的商业直觉缺失、逻辑不连贯等问题，在飞速迭代的技术面前，可能很快就会成为历史。正如Anthropic所预测的那样，“AI中层管理者的出现似乎已指日可待；由AI系统来指导人类员工订购何物、补充何种库存的场景，可能已离我们不远。”
3. 启示：一个极具价值的探索方向

我们或许还无法断言，一个成熟的AI店长最终是会取代现有岗位，还是会创造全新的岗位。但可以肯定的是，将AI作为一个能够自负盈亏的商业主体进行研究和实验，本身就是一个极具价值的探索方向。

它推动着AI的能力边界从完成指令性的“任务”，向实现价值驱动的“目标”跃迁。这一进程，正让AI从云端的“超级大脑”，一步步向街角的“智能小店”迈进，也必将更深刻地融入和重塑我们的现实生活。

账号		自动登录	找回密码
密码			注册

萍聚头条

AI店长能盈利吗?——从两大实验看AI自主商业决策的现状与未来

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块