AI前沿周刊 | 第35期(2025年12月第3周)

新闻 · 发表于 2025-12-21 07:45

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

在这个AI技术日新月异的时代，每一周都有令人惊喜的突破。本期周刊，我们将带你走进AI智能体的前沿世界，感受技术革新的澎湃力量。

/ 01 /模型层

1.GPT-5.2-Codex 正式亮相

GPT-5.2-Codex正式发布，基于GPT-5.2架构深度优化，融合终端操作专长，攻克复杂软件工程与网络安全任务。引入原生上下文压缩技术，高效处理大规模重构与迁移，在SWE-Bench Pro达56.4%、Terminal-Bench2.0达64.0%，Windows支持增强，可解析图表与UI截图。网络安全表现突出，已助力研究员发现React框架漏洞，具备CTF实战能力，虽未达“高风险”评级但专业级防御潜力显著。部署采取分层策略：付费用户通过Codex CLI/IDE/云端优先体验；敏感场景启动“可信访问”邀请制，确保安全合规。赋能开发者从代码导航到自动化防御全周期，推动智能编码迈向工程化与安全化新阶段。

2. 小米发布新一代 MoE 大模型 MiMo-V2-Flash

小米发布MoE大模型MiMo-V2-Flash，作为实现AGI的第二步。采用Hybrid SWA架构，128窗口为最优设计，兼顾长上下文推理与基础设施兼容性。引入多标记预测（MTP），三层结构使编程任务接受长度>3、速度提升2.5倍，解决小批量RL GPU空转问题。后训练阶段应用Thinking Machine提出的On-Policy Distillation，仅用1/50计算量即达教师模型性能，形成自我强化闭环。团队数月内完成从理念到生产系统落地，展现高效工程化能力，为小米人车家生态提供新一代智能底座。

3.字节跳动发布 Seedance 1.5 Pro

字节跳动发布Seedance1.5pro，新一代音视频联合生成模型，支持文生音视频、图生音视频，强化视听同步，精准拟合口型、语调与表演节奏，支持多语种及方言表达。新增镜头调度能力，可执行长镜头跟随、希区柯克变焦等高难度运镜，提升动态张力；通过语义理解优化叙事协调性，适用于影视、短剧、广告、戏曲等场景。发布会展示赛博朋克短片，情感细腻、场景流畅。已在即梦AI与豆包平台上线，降低专业创作门槛，推动音视频进入“智能协同”新阶段，助力创作者释放更多表现力。

4. 腾讯发布混元世界模型 1.5

腾讯发布混元世界模型1.5（HY WorldPlay），国内首个开放实时互动体验平台，输入文字或图片即可生成可自由探索的AI虚拟世界，支持键盘/鼠标/手柄操控，帧率24fps、720P高清。首创Context Forcing蒸馏+流式推理，实现长程3D一致性——离开后返回场景结构不变，确保连贯性。支持多视角切换、文本触发事件，适配游戏与现实风格。首次开源完整训练体系，涵盖数据、训练、部署，采用Next-Frames-Prediction自回归任务，突破实时性与几何一致矛盾。开启“可交互AI世界”新范式，为游戏、影视、VR提供全新创作引擎，推动AIGC从内容生成迈向空间构建时代。

5. Mistral AI 发布新版文档识别技术 Mistral OCR 3 模型

Mistral AI发布OCR3，文档识别准确率较前代提升74%，专攻表格、扫描件、手写体等复杂场景，支持Markdown输出与HTML表格重构，结构化提取能力突出。体积小、成本低，每千页仅2美元，批量API享50%折扣至1美元/千页。内置真实业务基准测试，强化手写、表单、历史文档处理。适配企业级高吞吐流程，可自动解析发票、合规表单、技术报告，助力数字化转型。IDC指出，高保真OCR是AI Agent与生成式AI落地关键基础，能释放数据价值，构建竞争壁垒。

/ 02 /应用层

1. Meta 推出新款 AI 眼镜

Meta推出AI眼镜，采用开放式扬声器设计，可智能放大对话者声音，提升嘈杂环境（如咖啡馆、街头）下的交流清晰度。同时宣布Messenger桌面应用将于2025年12月15日停服，因功能落后于Zoom等竞品，且Mac版长期依赖非原生技术（Catalyst/Electron），体验不佳。用户将被引导至Facebook主App或Messenger.com继续使用，无FB账户者亦可独立登录。Meta同步建议设置PIN保存聊天记录，确保过渡顺畅。此举反映其整合资源、聚焦核心体验的战略调整，也凸显社交工具在激烈竞争中的迭代压力。

2. 蚂蚁阿福火出圈！AI医疗应用引发热议

蚂蚁集团AI健康应用AQ更名为“蚂蚁阿福”，全新App聚焦健康陪伴、问答与服务三大功能，定位“AI健康朋友”。月活超1500万，日均处理500万健康提问，55%用户来自三线及以下城市。支持绑定苹果、华为等主流智能设备，问诊支持对话+拍照，体验更直观。已联合200+医院及16家机构开展智能就医与科研合作，覆盖多省市医保体系。品牌代言人何炅助阵，强化亲和力与大众认知。从工具到伙伴，阿福正以普惠AI重塑国民健康管理方式。

3.Adobe 将 Ps、Ab 和 Express 集成到ChatGPT中

Adobe将Photoshop、Acrobat、Express三大应用深度集成至ChatGPT界面，用户可直接通过文本指令免费编辑图片与文档。Photoshop支持换背景、加特效；Express提供模板快速设计邀请函等；Acrobat可在线编辑PDF简历。操作只需在ChatGPT设置中连接对应应用，输入简洁指令，系统自动执行并提供滑块微调结果。无需专业技能，降低创作门槛，避免频繁切换软件。此次整合让AI助手真正成为“全能办公入口”，推动人机协作向自然语言驱动的智能生产力演进。

4. Figma AI图像编辑功能炸裂！设计师福音

Figma重磅上线原生AI图像编辑工具，集成“消除对象、隔离主体、扩展画布、去除背景、提示词改图”五大功能，无需跳转外部软件。套索选中即可智能删除并填充背景；精准提取人物/文字/物体，支持自由编辑不破坏背景；扩图保持风格一致无畸变；抠图更干净；自然语言可直接调整细节。特别适合UI/UX、营销素材与原型迭代，分层处理能力媲美Photoshop，尤其文字扣取精准。已上线Design与Draw，限专业版用户，未来将覆盖更多模块。AI深度内嵌，让Figma从协作平台跃升为全能创作引擎，设计效率革命正式到来。

5. 字节跳动推出 TRAE CN 企业版，助力高效编程

字节跳动发布TRAE CN企业版，已在内部92%工程师中普及，个人版用户超600万，抖音生活服务团队AI代码贡献率达43%。企业版支持10万文件、1.5亿行代码容量，适配知识库到Agent全场景，提供实时效能追踪与项目监控。安全方面采用全链路加密传输+云端零存储方案，确保合规与数据安全。专为企业级开发打造，兼顾性能、部署灵活性与安全管理，助力大厂高效落地AI编程生产力。

/ 03 /前沿认知

微软研究院：2026年AI前沿观察

微软研究院展望2026年AI趋势，包括AI成为加速科学发现的实验室助手、系统智能的自主化演进、空间智能从感知到行动的飞跃、以及AI以“智能体式媒体”重塑沟通。研究强调AI将从工具转变为可信赖的伙伴，并预测多模态基础模型和智能体系统在患者护理中的应用，标志着AI正重构计算与智能的根基
NYU研究团队新发现：让AI变聪明的秘诀

纽约大学研究团队提出“技能工厂”（SkillFactory）方法，旨在让AI通过“自省”和“再试一次”等认知技能，从自身经验中学习，突破对更强大“教师”模型的依赖。该方法通过收集经验、反思评估和重新组织学习材料的三步循环，培养AI的验证和重试能力，实验证明能显著提升AI在复杂推理和陌生问题上的泛化能力。
北大团队最新研究：AI零基础自主推导出牛顿第二定律

北京大学物理学院团队研发的“AI-牛顿”系统，在未预设任何物理知识的情况下，通过合情推理策略，从实验数据中自主构建“力”、“质量”、“加速度”等概念，并最终推导出牛顿第二定律F=ma。该成果登上《自然》杂志，标志着AI从辅助工具迈向“可独立认知的科研主体”，突破了神经网络的“黑箱”困境，展示了AI在面向未知领域原生探索的能力。
罗汉堂前沿对话：如何发展拥抱AI技术的“技术”

罗汉堂前沿对话指出，AI的影响可能比过去的技术革命更深远，因为它首次使人类有能力突破自身的身体与认知极限，撬动物理世界的力量。真正的挑战在于如何以更高效、更包容的方式拥抱AI，降低社会转型成本。对话强调，发展能够帮助社会拥抱AI的“技术”至关重要，以确保AI能惠及多数人，并在深刻改变劳动、工作与组织的背景下实现平稳过渡。
Google DeepMind CEO：AGI还差1–2个突破

Google DeepMind CEO Demis Hassabis预测，AGI有望在5到10年内实现，但需要1到2个“AlphaGo级别”的技术突破。他指出，当前AI模型的不足在于缺乏持续学习能力、无法执行长期规划、智能体系统不稳定以及缺乏跨对话的稳定记忆。他认为，未来的关键突破将是建立具有物理一致性的“世界模型”和能自主完成复杂任务的“智能体系统”，而非单纯扩大LLM规模。
多项成果登上国际榜单——中国大模型正跻身全球第一梯队

新华网报道，中国大模型在技术创新、落地应用和生态搭建方面取得突破，正跻身全球第一梯队。截至今年7月，我国已发布1509个大模型，数量居全球首位。国际榜单LMArena显示，国产大模型如百度文心、智谱GLM-4.6表现突出。技术创新体现在原生全模态大模型和底层算力芯片的快速发展，并已广泛应用于电力、金融等领域，成为引领生产力跃迁的智能底座。
突破想象！AI机器人成为实验室“主力军”

中国科学技术大学精准智能化学全国重点实验室推出“智能科学家”，集成了大模型和AI机器人，可自主设计实验方案并24小时不间断进行实验。该系统能通过机器阅读和实验，加速新物质创制，例如仅用6周找到火星制氧催化剂的最佳配方，大幅缩短了科研周期，推动了AI引领的科研范式变革。
谭旻：下一步大模型的重大突破一定是在视觉方面

专家认为，虽然语言大模型在人形机器人等领域带来了快速推进，但其主要基于2D数据，缺乏真实应用场景的数据。因此，下一个更重大的大模型突破将是结合视觉（Computer Vision），实现机器与世界的互动和连接。视觉AI的突破将推动大模型从“工具”向“智能体”的转变，并在工业智能化等领域实现更深层次的应用。
算力芯片重大突破！上海交大提出全光大规模智能生成芯片

上海交通大学陈一彤课题组首次实现支持大规模语义视觉生成模型的全光计算芯片LightGen。该芯片在单片上集成百万级光学神经元，实现全光维度转换和无真值训练，相比顶尖数字芯片可实现算力和能效7至8个数量级的理论提升，为下一代算力芯片助力前沿AI开辟了新路径。
李国齐、徐波等提出神经形态脉冲大语言模型

该团队借鉴神经科学原理，提出神经形态脉冲大语言模型（NSLLM），旨在提升大型语言模型（LLMs）的能效和可解释性。NSLLM通过脉冲神经网络（SNN）模拟大脑信息处理方式，为下一代低功耗、高效率的AI发展开辟了新方向。
/ 04 /视频总结

/ 05 /推荐阅读

Agent的未来范式探索

12个关键能力，拆解“AI业务中枢”如何重构客服与在线销售

Claude Agent Skill 实践

Claude Opus 4.5 × Agent Skills：从第一性原理深入剖析

Code Mode：使用MCP的更好方式

账号		自动登录	找回密码
密码			注册