AI本周新见闻(2025/12/21)

我爱免费 · 发表于 2025-12-21 20:22

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
大家好，我是你们的老朋友，数智水豚。

本周的AI世界，一边是OpenAI、Google、阿里巴巴、小米疯狂发布新模型，用"更快"、"更强"、"更便宜"的叙事继续抢占注意力；另一边是Forrester和BCG的调查显示，85%的企业高管认为AI并未提高利润率，Klarna和Verizon等公司甚至开始重新招聘人工客服。

与此同时，AI正从聊天框走向新闻编辑室、电影制作现场、科学实验室，既介入我们的内容生产和知识发现，也悄悄重塑媒体、娱乐和科研的工作流程。在这样的多重拉扯下，我们一起来看看，本周哪些信号是真正在重塑格局的"底层变量"，哪些只是泡沫边缘的背景噪音。

1. 半岛电视台推出AI模型"The Core"

半岛电视台与谷歌合作推出整合型AI模型"The Core"。该模型旨在帮助记者处理大量数据、开发沉浸式内容并自动化生产流程,使AI从被动工具转变为新闻工作的主动伙伴。

把编辑权部分交给算法，这究竟是在提升效率，还是在用技术包装立场？更关键的是，当新闻机构越来越依赖AI处理信息时，算法的偏见会不会被放大成整个行业的系统性偏见？从结果上来说，AI不是中立的,它会继承训练数据的价值观。

2. Luma AI发布Ray3 Modify视频编辑模型

Luma AI推出Ray3 Modify模型，用户可提供视频的起始和结束帧以及角色参考，生成或编辑片段。模型能够在改变角色外观的同时保持演员的动作、节奏和情绪表达，使影片制作方无需重新拍摄即可更改场景。演员的"不可替代性"正在被技术瓦解。今天你可以用AI换个角色，明天你就可以用AI换掉整个演员。对于制片方来说，这是降本增效的利器；对于演员来说，这是生存危机的开始。

3. Google发布Gemini 3 Flash
谷歌推出专为速度和低成本而设计的 Gemini 3 Flash 模型。新模型保留了 Gemini 3 的推理和多模态能力，能以更低费用提供专业级推理，在编码基准测试上超越 Gemini 2.5 和 3 Pro。Flash 将成为 Gemini 应用和 API 的默认模型.
在Gemini 3大获成功的前提下，用"更快"、"更便宜"的Flash模型，抢占高频应用场景。但是最近大家都发现一件事情：测试结果好，不等于用户体验好。更便宜的Flash是否真的更好，我们拭目以待。

4. OpenAI发布GPT-Image-1.5

OpenAI发布GPT-Image-1.5,具有比前代产品快4倍的图像生成速度，同时保持编辑精确度。该模型在图像中的文本渲染、多步骤编辑的指令遵循以及在保留商标、面部和结构元素方面的一致性方面表现出色。那边谷歌推出Gemini 3，这边OpenAI也发布GPT-Image-1.5挑战Nano Banaba。作为用户，我们还是非常乐于见到各大厂卷起来。

5. 阿里巴巴发布Wan2.6视频生成模型

阿里巴巴发布Wan2.6系列，推出中国首个图像参考生成视频模型（R2V）。用户可上传带有外观和声音的角色参考视频，然后使用文本提示生成新场景，其中出现保留相似度和音频的相同角色。阿里在多模态领域的一次重要突破，再拥有了WAN和Qwen之后，阿里在各个大模型条线上的储备也更加丰富了。

6. OpenAI推出"可监控性"框架与"监控税"概念OpenAI推出了一项开创性的研究框架，用于评估AI内部思维链（CoT）的"可监控性"。该研究将"GPT-5 Thinking"列为迄今为止可监控性最强的系统，并提出了"监控税"概念——即为了实现透明度而牺牲原始计算能力的推理计算权衡。本周最重要的技术信号之一。"监控税"的概念，揭示了AI发展的一个根本矛盾：你想要更强的能力，还是更高的透明度？两者不可兼得。对于企业来说，这个框架提醒我们：不要盲目追求"黑盒"模型，可解释性可能比性能更重要。

7. Amazon Rufus AI购物助手创造100亿美元增量销售额

亚马逊的Rufus AI购物助手在2024-2025年间已被2.5亿客户使用，贡献了100亿美元的增量年化销售额。数据显示，与Rufus互动的用户转化率提高了60%。100亿美元，这是最实在的数据。AI的价值，最终要用商业指标来衡量，它不在于参数规模，而在于能不能帮企业创造价值。当然我们也要明确：这100亿美元，有多少是真正的"增量"，有多少只是从其他渠道转移过来的？

8. Google推出AI视频验证功能

谷歌宣布，用户现在可以直接在Gemini应用中验证谷歌AI生成的视频。该工具利用SynthID支持的元数据，旨在解决对AI生成假电影预告片和误导信息的日益担忧。本周，由于发布欺骗性内容，多个大型YouTube频道被封禁。一个十分有必要的功能。相信很快其他大厂也会推出自己的验证工具。AI生成内容的验证，不应该是某一家公司的责任，而应该是整个行业的标准。

9. DeepSeek-V3.2-Speciale API完成公测

以推理为核心的模型DeepSeek-V3.2-Speciale的临时API于12月15日结束任务。该模型在主要国际数学和信息学奥赛（IMO、IOI 2025）中展现了金牌级的表现，在逻辑基准测试中足以媲美Gemini-3.0-Pro。用更少的算力，做出接近媲美Gemini-3.0-Pro的模型。对于企业来说，DeepSeek的启示是：小模型+精细调优+开源策略，可能才是更经济、更可持续的选择。

10. 人机协作中的"成功鸿沟"与主动提问协议

12月15日发布的一篇研究论文指出，在人机协作中存在一个"成功鸿沟"：AI系统往往过度自信，不主动提问，导致任务失败。研究提出了一个"主动提问协议"，让AI在不确定时主动向人类寻求帮助。这是本周最有洞察力的研究之一。"成功鸿沟"的概念，揭示了AI发展的一个根本问题：AI不知道自己不知道什么。当AI过度自信时，它会做出错误的决策；当AI不主动提问时，它会错过关键信息。这个研究提醒我们：AI不应该是"全知全能"的，而应该是"知道自己的边界"的。一个会主动提问的AI，比一个从不犯错的AI，更有价值。

11. Microsoft 365 Copilot推出Work IQ记忆功能

微软推出Work IQ记忆功能，允许M365 Copilot从之前的对话中召回特定细节。这一更新根据个人用户偏好提供更具上下文和定制化的响应，将AI变成了一个理解长期项目和个人细微差别的持久工作伙伴。当各家模型已经相差无几，哪个AI最懂你的工作习惯，它就能获得更强的用户粘性。这会是一个有用的新特性。唯一的担心是微软没有明确说明这些记忆数据存储在哪里、如何使用、是否会被用于训练其他模型。对于企业来说，这个功能的出现，可能也是新的数据治理问题。

12. Stanford HAI发布2025 AI指数报告

12月14日，斯坦福大学发布2025 AI指数报告，揭示了全球AI格局的关键转变。主要发现显示，如今较小的模型的性能与2022年的最大模型相近，但参数减少142倍；计算成本在18个月内下降280倍。企业采用率激增至78%这份报告最重要的发现是"小模型追上大模型"。这倒不意味着过去三年是一场巨大的资源浪费。反而说明方法论在过去三年里也取得了巨大进步，驱动AI行业的，不仅仅是算力竞赛。

13. CNBC报道:2025年AI相关裁员超5万人CNBC报道，包括亚马逊、微软等在内的主要科技公司将AI作为劳动力削减策略的中心，2025年明确归因于AI的工作流失总计超过50,000个。MIT研究表明，当前AI理论上可以以有竞争力的成本替代美国劳动力市场需求的11.7%。近期水豚已经看到不少这方面的深度报道。我们还是认为，好的AI应该着眼于增强人的能力，而非替代。

14. Forrester和BCG调查：仅15%高管认为AI提高利润率

路透社12月16日报道，尽管生成式AI热潮高涨，但多数企业尚未从中获得实质回报。Forrester和BCG的调查显示，只有15%或更少的高管认为AI提高了利润率，因此约四分之一的企业计划推迟AI投资。受访企业表示，大模型在简单任务上仍表现不佳，导致Klarna和Verizon等公司重新增加人工客服。当所有人都在谈论AI如何"颠覆"一切时，Forrester和BCG的数据给我们泼了一盆冷水：85%的高管没有看到利润率提升。意味着AI的ROI远没有宣传的那么美好。更讽刺的是，Klarna和Verizon这些曾经高调宣布"AI客服替代人工"的公司，现在又在重新招聘人工客服。对于企业来说，这是一个警钟：在大规模投入AI之前，先做小范围试点，用真实的ROI数据说话，而不是被供应商的Demo和案例研究所迷惑。

15. 66%受访者认为AI对工作产生积极影响

公关行业媒体O'Dwyer's 12月19日报道，Ruder Finn对225名内外部沟通和人力资源专业人士的调查显示，66%的受访者认为AI对工作产生积极影响。不过，只有38%认为AI有助于员工参与度，仅22%认为有助于员工留任。调查强调培训和情商是企业成功采用AI的关键。AI让工作变得更高效，但并没有让工作变得更有吸引力。AI正在成为一种"效率催化工具"，而不是"员工赋能工具"。当AI帮你完成任务的同时，也在提高公司对你的期待值：你需要做更多、更快、更好。对于HR和管理者来说，如果只把AI当作提效工具，而不关注员工的成长、参与度和情感需求，那么AI最终会成为员工流失的催化剂。

16. OpenAI推出FrontierScience基准测试

OpenAI推出了FrontierScience,这是一个全新的基准测试，用于评估AI在物理、化学和生物领域的专家级科学推理能力。GPT-5.2在奥赛级任务中获得了77%的高分，显著优于前代模型。OpenAI为什么要做FrontierScience？这个基准测试，是否实际上是在向科研界宣战：AI已经可以做你们的工作了。

17. Snowflake全球大规模停机事故12月19日，Snowflake在全球10个区域经历了长达13小时的服务停机。这一灾难性事件使数千家企业的实时分析陷入瘫痪，引发了关于中心化AI基础设施风险的广泛讨论。Snowflake的停机，暴露了AI基础设施的脆弱性：当所有企业都把数据和分析能力托管在同一个平台上时，一旦这个平台出问题，整个生态系统都会崩溃。

18. AlphaResearch:自主研究智能体发现新算法

12月中旬的一篇研究论文介绍了AlphaResearch,这是一款旨在在开放式问题中发现新算法的自主智能体。值得注意的是，AlphaResearch在"圆堆积"问题上发现了一种新算法，超越了人类研究人员此前达到的最佳性能。AlphaResearch的出现，标志着AI从"知识检索者"向"知识发现者"的转变。但我们需要冷静地问：AI发现的算法，真的是"新"的吗？还是只是在已有知识的组合空间里，找到了一个人类还没找到的点？

19. OpenAI寻求7500亿美元估值融资

路透社12月17日报道，OpenAI正就新一轮融资进行初步洽谈，公司估值可能升至7500亿美元，融资额可能高达1000亿美元。这一估值飙升体现了投资者对AI的高期待，并预示着OpenAI未来可能上市。据报道，OpenAI 2025年的收入预计约40亿美元，7500亿美元估值意味着市销率高达187倍。这场估值狂欢背后，是投资者对"AGI叙事"的追捧。当估值远远脱离基本面时，最终买单的往往是最后一批进场的投资者。

本周新闻背后,其实是同一条主线：AI正在从"工具"变成"伙伴"，从"辅助"变成"主导"。半岛电视台的"The Core"让AI参与新闻生产，Luma的Ray3让AI替代演员表演，OpenAI的FrontierScience让AI挑战科学家的专业能力。
对每一个在职场，在创业的人来说，也许更重要的问题不是"AI还能涨多久"，而是：在泡沫和军备竞赛之外，我们能不能用好眼前这些工具，真实地多解决一个问题，多省一块成本，多释放一小时脑力。

账号		自动登录	找回密码
密码			注册

AI本周新见闻(2025/12/21)

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块