找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 224|回复: 0

AI Weekly v048 AI 的纸牌屋

[复制链接]
发表于 2025-10-19 16:34 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
这周上班强度忒大,除了微信消息偶尔看,整体有种断网感。周五才开始接上网线,翻了一圈我想阅的折子,想吃的瓜想学的习。以下。

动态
OpenAI 准备搞颜色了

其实本周也有 sora2 的更新,生成时长增加:普通用户 15s, pro 用户干到 25s。but so what, 啥也没有搞颜色的关注度高。我在半断网状态各种 im里都有人在积极转发 sama 的这个截图,想不看到都难。

w1.jpg

一些个人观点:

    Sam面临 的增长压力真心大。 ChatGPT8 亿的周活并不是个让他有安全感的护城河,毕竟他面对的是Google 这样的老大哥。而,众所周知,成人内容一直是流量增长的重要驱动力,也往往是新技术最早商业化落地的领域

    可能是对自己的安全对齐工作有了更多的信心。ChatGPT 的大流量和话题度让他不至于敢底线太低,那就是他得让 AI 能准确把握 erotica(情色文学)和 porn(色情内容)的边界。擦边擦得恰到好处,不仅是技术挑战,更是一门艺术。btw,他们还在开发年龄预测系统来确保功能仅对成年人开放。

    这周 ChatGPT 对付费用户有个小更新,让用户可以更方便的管理自己在 ChatGPT 里的“memory”,包括删改以及调整记忆优先级等。在我看来 ,也是通往高质量陪伴的关键一步。结合 erotica 内容的开放,我感受到的是OpenAI 构建更私密、更个性化的用户关系层的努力。

对此,马斯克立即得瑟一把,说“看我的” 哈哈哈。

w2.jpg
Anthropic 有点忙,skills 有点东西

w3.jpg

  1️⃣一个最新的小模型- Haiku4.5, coding 性能类似 Sonnet4,在 computer use 的任务上甚至超过了 sonnet 4。但,成本是三分之一,速度超过 2 倍。你要是不ban 中国就更好了🙄

  2️⃣Agent skills ,字面意思的一个有趣feature,真的就是可以给 Agent 加载的技能包。他们起初估计是想是解决coding 场景里context 永远都不够用的痛苦,于是抽象了一个新东西,可以把业务逻辑做封装,包含操作指令,最佳实践甚至公司要求的品牌规范,也可以直接包含可执行的代码脚本用于高度确定的重复任务。实现上,就是 markdown 文件和相关资源,完全可插拔。

  3️⃣所谓 productivity platfoms 瞄准的就是企业服务市场。连接 office 365,支持企业搜索应用。后者对 algolia 这种企业搜索 SaaS 和 Glean 这周知识管理平台都会带来一定冲击。

  我被 skills硬控了有点久,在我看来这是一个非常理想的企业 AI 落地单元。所以想单独展开说说。

    封装颗粒度恰到好处。算是在 Agents 和 tools/mcp这周相对原子化的工具中间架了一层,没有 tools 那么碎,但又没有 Agent 那么重,一个 skill≈一个 SOP。

    技术门槛低。以前垂直场景大家都想的是开发一个 sub Agent,但现在可以重新思考有些是不是直接用 skills 开发就够了:markdown+可选脚本文件。一个 通用Agent+插拔skills就能应付绝大数情况。逻辑上来讲,是不是也减少了开发成本(特意卷是 another story)。

    企业是不是可以建立 内部公开互相支撑的skills 库?instead of 原有的 by 项目 by 组织关系的知识库文档。包括品牌设计规范,财务报表规范,业务指标规范,合同审核要点。面向 skills 设计的 markdown 也许能把公司隐性知识进一步显性化和流程化。

    再 yy 下,后面企业 AI Agent 的架构,最简化来说,那岂不就是 Agent Runtime 下面内置企业通用 skills,采购的行业 skills,加上各个组建设并公开的垂直专业skills?

    w4.jpg
Uber 也要做数据标注了,你敢信

  Uber will give its drivers in the US an option to make money by doing “digital tasks”.These short minute-long tasks can be done anytime including while idling for passengers: data-labelling (for AI training);uploading restaurant menus ;ecording audio samples of themselves;narrating scenarios in different languages。Uber 将在美国为其司机提供通过执行“数字任务”赚钱的选项。这些短暂的一分钟任务可以在任何时间完成,包括在等待乘客时:数据标注(用于 AI 训练) ;上传餐厅菜单; 录制他们自己的音频样本;用不同语言叙述场景。

w5.jpg

   Uber 在美国拥有超过 100 万名司机,一个天然的 labeler 供给源。对于标注公司, sourcing  training 本来就是个标准流程且有相当成本。 Uber 算是直接复用了已有资源,但可匹配的标注任务和具体的标注质量就不好说了。

  哦对,Uber 上个月还收购了比利时数据标注初创公司 Segments AI,具体金额布吉岛。

内容
ALL IN: AI's House of Cards? AI 的纸牌屋

又是明浩老师怼脸要求学习的一篇,算是对当前 AI 投资狂热的一个系统性风险分析,适合对投资和商业感兴趣的朋友细读。原文非常非常长,真的非常全面。我断断续续读了 3 天才读完。先放链接:https://interestingengineering.substack.com/p/all-in-ais-house-of-cards

精华算是在这张图,总得来讲,越红越危险,越绿越安全。当然,上周讨论过了,OpenAI 已经把自己嵌合在了一个生态系统内,到了一个大而不能倒的位置(听着像一个身上背满炸药包的赌徒 🤣)

w6.jpg

论述过程中逐一喷了这一年来的流行观点和文章,包括但不限于,

    GPU 利用率来评估市场繁荣健康度。GPU 利用率≠盈利利用率

    鼓吹的资本规模,掩盖了资本效率问题

    杰文斯悖论类比的不合理。本质上AI 和互联网不是一回事。

    GDP 泡沫本身就大,2025 上半年美国经济增长几乎 100% 来自 AI infra spending。

结尾逐一点评了所有公司的评级以及为什么,各种复杂的测算和公式。我就不摘抄了。不仅建议阅读,甚至建议收藏,常看常新。最后那句结尾的刻薄把我乐出了声:The emperor has no clothes, but the emperor’s tailors are getting rich selling the invisible fabric?皇帝没有衣服,但皇帝的裁缝们却因出售看不见的布料而发了财?
Andrej karpathy 新播客  “We’re summoning ghosts, not building animals”

我的信息茧房内本周最热内容,没有之一。2 个半小时的 YouTube 视频,我看到现在都还没看完。但还是战战兢兢先供上来。因为我有一种大家都修的一个学积分,我不修肯定是我有问题的那种感觉,虽迟但得学!先上YouTube链接(他讲话真的太快了,这是我唯一调慢了去看的内容):https://www.youtube.com/watch?v=lXUZvyajciY; 也有小宇宙的中文克隆版:https://www.xiaoyuzhoufm.com/episode/68f31696456ffec65e57099b

因为内容又长又深,我没有 summary 的打算。挑几个有触动的点说说吧。提到说为了解决 RL 的问题,研究人员尝试使用“LLM 评委”在过程的每一步提供feedback 。Karpathy 指出,LLM评委本身也是model,它们是“可以被游戏的”(gameable)。训练中的模型会找到评委的“对抗性样本”(adversarial examples)这点让我想起最近看到的有一篇研究《Large Language Models Often Know When They Are Being Evaluated》https://arxiv.org/pdf/2505.23836,大概意思就是 frontier model 都是 sense 出来自己正在 being evaluated,并在认为自己在 being evaluated 的时候做出更好的表现。有个词就管这叫deceptive alignment,跟 gameable 异曲同工吧。 这个就很坑爹,如果模型能识别出安全检查并故意通过它,但之后却表现不同,这就开启了一个新的 AI 风险类别。

在谈到如何学习时,他强调了动手实践的必要性。他认为知识分为“表面知识”和“深度理解” 。当你从零开始构建时,你“被迫直面你所不理解的东西” 。他的理念是:“不要写博客,不要做幻灯片……去构建代码,让它工作起来,这是唯一的途径” 。这段话,我觉得他简直是在骂最近半废的我。。。
Lenny's podcast: how to measure AI developer productivity in 2025

新鲜出炉的一个视频。我承认我是被标题打动的。视频不长,可以放心食用。先上链接:。

打开就先喷了还拿代码行数当指标这个事儿"Most productivity metrics are a lie."。然后又吐槽 AI 也不是万能的,咱不能只是“更快地发布垃圾”。"We can ship trash faster every single day. We need strategy and really smart decisions to know what to ship." 笑死

"One of the biggest issues we're going to probably have with AI is learning how much to trust code that it generates." 嗯, accountable 很重要。Nicole认为她创建的 SPACE 框架(满意度、性能、活动、沟通、效率与心流)在 AI 时代依然适用,需要增加一个新的维度:“信任” 。

段子

就问你头疼不?~

w7.jpg
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-10-29 12:57 , Processed in 0.144500 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表