找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 236|回复: 0

pokee.ai: 别再卷大模型了!这个95后用强化学习(RL),给AI Agent换了个“心脏”

[复制链接]
发表于 2025-9-3 21:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章

Hi,我是老王。

一个北漂的大龄程序员,每天困扰我的还是那几件事:

公司下一个“毕业”名单里有我吗?

这辈子还能买得起房吗?

今天中午吃啥...

当我还在为这些破事内耗时,一个叫 pokee.ai 的公司像颗子弹一样,突然进入我的视野:

w1.jpg

Pokee 打造的 AI Agent 能够通过一句自然语言的指令,跨多个平台和工具自动执行任务,例如生成内容、整理文件、发布社媒、制作 PPT 等。

w2.jpg

2024 年 10 月,在美国硅谷成立。7个人,没办公室,全球远程协作,然后一出手就拿了1200万美元种子轮融资。领投的还是Point72这种顶级VC。

坦白说,我酸了。这钱是大风刮来的吗?这帮人到底是谁?

1. “卷王”博士,在Meta每周干110小时

扒了下创始人,我更沉默了。这哥们叫朱哲清,一个95后。这履历,简直就是“别人家的孩子”Pro Max版:
    本科:杜克大学计算机,拿了“最高荣誉毕业生奖”。他研究强化学习(Reinforcement Learning, RL)的时候,AlphaGo还没出名,大部分人还不知道RL是啥。博士:斯坦福大学,继续搞RL。

你以为他是纯学术派?不,人家是“理论联系实际”的究极卷王。

一边在斯坦拓读博,一边在Meta当员工,每周工作110个小时。 (看到这里我默默看了一眼我的打卡记录,感觉自己连“被优化”都不配...)

在Meta的7年里,他不是在写PPT,而是把RL这把“屠龙刀”用在了真实世界的业务上:广告推荐、预算控制、短视频冷启动... 都是真金白银的战场。

所以,你明白了吧?这哥们不是追风口的创业者,他是在这个领域挖了十年井的老兵。这次创业,不过是把十年功力,全押在了AI Agent这个新战场。

2. LLM的“七寸”,被他抓住了

2025年 被市场誉为“Agent 元年”,市场预估非常乐观,2030年会达到500亿美元规模:

w3.jpg

虽是一片“蓝海”,但却竞争激烈,各种技术路线层出不穷,颇有工业革命期间,层出不穷的各种工程发现的感觉。

当前主流做法有:

    1 套壳LLM+function call,这实际上还是一个 chat bot。

    2 multi agent, 通过协作、沟通并完成复杂任务。

然而 pokee.ai 却 瞄准了现在主流Agent的一个核心痛点——“工具多动症”。

我们程序员都懂一点点,现在的Agent大多依赖LLM(大语言模型)来做决策,比如调用各种API(工具)。这事儿在工具少的时候还行,一旦工具数量超过100个,LLM就开始犯傻,出现各种“幻觉”。

w4.jpg

本质原因就是,基于 transformer 机制的LLM, 即使支持100万 Token 上下文,也不可能真的把 Attention 做得那么好。

这感觉就像什么呢?

就像你给了实习生一本1000页的API文档,然后让他去完成一个复杂的任务。 他每次调用前,都得把这本厚得像砖头一样的文档翻一遍。可想而知 大概率会翻到后面忘记前面,不仅效率低得令人发指,还巨费钱(token)。

朱哲清敏锐地发现,这活儿,用他最擅长的强化学习(RL)来干,不是专业对口吗?

3. 给Agent换个“心脏”:RL才是执行官

w5.jpg

强化学习(Reinforcement Learning, RL)就是让一个智能体(agent)在环境(envrionment)中不断试错,通过观察“状态(state) + 奖励(reward)”的反馈,来学习累积更多回报(reward)的最优行为方式。

RL天生就擅长在复杂环境中做连续决策,寻找最优解。它不像LLM那样需要“阅读全文”,而是通过学习和试错,记住哪个场景该用哪个工具效率最高。 这很像下围棋的 alpha go。

对于RL 模型来说,拆解一个 task,和让一辆车在一个赛道里学会自动驾驶一样。完成一个task,需要不同步骤,就像车辆在行驶过程选择方向一样。通过最后的奖励和惩罚机制,就可以让 RL 模型 学习到如何进行 task planning。

这操作骚在哪里?
    主流方案:LLM是大脑+手脚,既要思考,又要执行。Pokee方案:LLM只当“UI层”或者说“产品经理”,负责听懂用户的需求(理解人话)。而真正负责决策、调用工具、执行任务的“核心引擎”,是基于RL构建的。

   

w6.jpg

这就好比,那个看1000页文档的实习生(LLM),被换成了一个干了十年活儿的老师傅(RL)。老师傅不用翻书,肌肉记忆就能让他精准地拿出最合适的工具,一顿操作行云流水。
据了解,pokee.ai 当前尚未开展大规模市场推广,研发重点聚焦于新型规划模型的开发,有望在部署效率等方面实现突破性进展。
4. 实际效果?

官方宣传:

    实力:精准调用超过6000个工具,准确率97%!粘性:30%的日留存率。效率:一周内处理了5000多个工作流,5万多项任务,成功率高达90%。
    速度:根据X平台的展示,是openai同类型产品的10倍
老王也试了下:我让它去我的邮箱里找一份邮件,然后根据邮件内容制定calender,再回复个邮件。任务拆解和计划没有问题。但是操作层面,一开始就卡住了:提示找不到符合条件的邮件...
w7.jpg
而要找的邮件,就在眼皮子底下:
w8.jpg
又试了几个任务,也是磕磕巴巴,没做出来。总体感觉速度确实还可以,但感觉还是个玩具,离可用还有段时间。
写在最后

从朱哲清和 pokee.ai 的故事里,我这个奔四的程序员看到了几点:
    技术的护城河永远存在。当大家都在卷LLM应用层时,有人已经深入到“发动机”层面,用更底层的技术(RL,GNN)实现了降维打击。复合背景是王炸。顶尖的学术背景 + 顶级的业界实践,这种组合的威力正在被无限放大。    Agent 发展仍然处于早期,我们"老王"们,还有时间。

也许这真的是一条路,一条让机器为我们工作的路。但也可能是一条,让很多“老王”无路可走的路。

你怎么看?评论区聊聊。

引用:https://www.mittrchina.com/news/detail/15129https://podcast.latepost.com/111https://www.xinfinite.net/t/topic/13439https://www.geekwire.com/2025/point72-ventures-leads-12m-seed-round-for-a-new-ai-agent-startup-founded-by-ex-meta-manager/
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-9-24 17:37 , Processed in 0.123858 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表