本周AI大事件一览

多客科技 · 发表于 2025-5-23 08:04

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

一. OpenAI推出AI编程Codex，可多任务并行测试至代码通过

1. OpenAI发布新版AI编程工具Codex，由codex-1模型驱动，能生成更清晰代码且自动迭代测试至通过；

2. Codex运行于云端沙盒环境，可同时处理多项编程任务，支持与GitHub连接并预加载代码仓库；

3. 该工具目前向ChatGPT Pro等付费用户开放，后续将实施速率限制，用户可购买额外积分获取更多使用权限。

二.打字即出图！混元图像2.0让AI生图进入“零延迟”时代

1. 腾讯混元Image2.0实现毫秒级图像生成，用户输入提示词时即可看到实时变化，突破了传统5-10秒生成时间的限制；

2. 新模型支持文生图和图生图两大功能，图生图模式下可选择"参考主体"或"参考轮廓"，并可调节参考强度；

3. 双画布联动功能支持实时预览和多图层融合，在复杂场景下可通过多次快速的调试达到理想效果。

三. Manus生图功能登场，从设计到搭建网站一站式搞定

1. Manus推出图像生成功能，除单纯生图外，还能理解用户意图、规划解决方案，并知道如何调用各种工具完成任务；

2. 该工具通过智能体工作流实现从品牌设计到网站部署的一站式服务，新用户可获赠1000积分免费体验；

3. 实测显示图像生成效果不错，但网站部署等复杂任务运行速度较慢，需等待数分钟至十几分钟不等。

四. LLM记忆外挂，Supermemory新API，一行代码实现

1. Supermemory发布Infinite Chat API，作为应用程序和LLM间的透明代理，通过智能维护对话上下文来突破大模型2万Token的限制；

2. 该API采用RAG技术处理溢出的上下文内容，声称可节省90%的Token消耗，且只需一行代码即可集成到现有应用；

3. 定价方案包括每月20美元固定费用，每个对话线程前2万Token免费，超出部分按每百万Token 1美元计费。

五. OpenAI收购案后首秀：Windsurf推出SWE-1模型

1. Windsurf发布自研AI软件工程模型系列SWE-1，强调针对整个软件工程流程优化，而非仅限于编码功能；

2. 该公司被OpenAI以30亿美元收购后首次发布产品，表明从单纯开发应用向自研AI模型转型的战略方向；

3. SWE-1在编程基准测试中与GPT-4.1等模型表现相当，但落后于Claude 3.7 Sonnet，公司承诺服务成本将低于Claude 3.5 Sonnet。

六. 华为+DeepSeek，推理性能创新高！技术报告也公布出来了

1. 华为昇腾新推出CloudMatrix 384超节点和Atlas 800I A2服务器，在DeepSeek模型推理性能上超越英伟达Hopper架构；

2. 采用"以数学补物理"策略，通过FlashComm通信方案、AMLA算法等技术创新，解决超大规模MoE模型部署难题；

3. CloudMatrix 384超节点在50ms时延下单卡吞吐达1920 Tokens/s，Atlas 800I A2在100ms时延下达808 Tokens/s，相关技术将陆续开源。

七. GenSpark发布Agentic AI下载，文件管理「智能体时代」

1. MainFunc旗下GenSpark发布全球首个AI下载代理工具Agentic Download Agent，通过自然语言指令实现文件下载和处理自动化；

2. 采用Mixture-of-Agents架构，整合8个不同规模语言模型和80余种工具链，将传统耗时任务压缩至分钟级完成；

3. 配套推出AI Drive智能云盘，支持多种数字资产格式，可对已下载文件进行二次分析处理，并开放API接口供企业系统集成。

八. 微软一夜50弹，纳德拉要建智能体伊甸园！Agent成高频词

1. Coding Agent将GitHub Copilot升级为自主编程助手，实现bug修复、代码维护的全流程自动化；

2. NLWeb开源项目实现网站自然语言交互，Agent Factory平台支持Grok等模型构建智能体应用；

3. Copilot Tuning支持企业用自有数据微调智能体，精准适配企业独特语言风格。Microsoft Discovery助力科研创新，具备生成想法、结果模拟和自主学习能力。

九. 谷歌超级编码智能体Jules上线了，免费使用直连GitHub

1. 谷歌发布AI编程助手Jules，基于Gemini 2.5 Pro模型，提供每日5次免费使用额度，可直接连接GitHub仓库；

2. Jules能自主完成代码编写、Bug修复、测试运行等任务，会先生成详细计划供开发者审查，并可在云虚拟机中验证代码；

3. 产品即将推出Codecast功能可生成代码库音频摘要，Gartner预测到2028年75%新应用开发将使用AI辅助编程。

十. 实测ListenHub，收藏夹积灰党狂喜，AI一键喂饭到嘴边

1. 火星电波公司推出AI一键生成播客工具ListenHub，支持链接、文档转播客，可将积压内容快速转化为2-3分钟的对话式音频；

2. 相比谷歌NotebookLM，ListenHub生成速度更快、中文语音更自然，适合快速知识获取，但内容深度略逊，不支持长文和微信文章转换；

3. 产品已开启公测，支持网页、App和浏览器插件，主打轻量级操作和碎片时间学习，但存在内容长度不可调、创作类型受限等问题

十一.智源BGE向量模型三连击，代码、多模态检索全面登顶SOTA

1. 智源研究院发布三款向量模型：BGE-Code-v1（代码向量）、BGE-VL-v1.5（多模态向量）和BGE-VL-Screenshot（视觉化文档向量），全部开源并在多个基准测试中登顶；

2. BGE-Code-v1基于Qwen2.5-Coder构建，支持14种编程语言，在CoIR和CodeRAG-Bench基准超越商业和开源模型；在代码库检索方面表现突出；

3. BGE-VL-v1.5和BGE-VL-Screenshot分别针对通用多模态检索和视觉化文档检索场景优化，其中Screenshot模型在新发布的MVRB基准上达到60.61分的SOTA成绩。

十二.真碾压Sora！谷歌Veo 3直接「开口说话」物理遵循性更好

1. Veo 3实现音画同步生成功能，能根据提示词同时生成视频画面、对白、唇动和音效，实现完整的视听体验；

2. 基于V2A（Video-to-Audio）技术，模型能将视频像素转化为语义信号，配合文本提示生成匹配音频；

3. 模型支持长提示词理解和多步骤事件流生成，但目前仅限8秒视频，面向美国Ultra订阅用户开放，定价249.99美元/月。

十三. 12秒1万token！谷歌文本「扩散模型」Gemini Diffusion

1. Gemini Diffusion采用扩散技术生成文本，速度达2000token/秒，12秒可生成1万tokens；

2. 区别于传统自回归模型从左到右生成，通过逐步优化噪声学习生成输出，可快速迭代和错误纠正；

3. 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美，支持非因果推理，能一次生成整个标记块。

十四. 跻身竞技场全球前八，腾讯混元加速迭代，模型矩阵全面升级

1. 腾讯混元TurboS排名全球前八，引入长短思维链融合技术后，理科推理提升10%，代码能力提升24%，竞赛数学提升39%；

2. 基于TurboS新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice，前者理解速度提升50%，后者语音通话延迟降至1.6秒；

3. 多模态领域全面升级：图像2.0实现毫秒级生图，3D v2.5提升几何精度，并承诺持续推进全系模型开源。

十五. 英伟达的新研究项目DreamGen，让机器人「做梦」修炼

1. 英伟达推出DreamGen项目，让机器人在神经网络生成的「梦境世界」中自主学习，通过生成大量带标签的神经轨迹实现技能掌握和泛化；

2. 项目在多种机器人上验证效果显著：类人机器人GR1成功率提升至46.4%，机械臂Franka提升至37%，SO-100提升至45.5%，实现了对陌生动作和环境的泛化；

3. DreamGen通过微调视频世界模型、生成平行世界视频、提取伪动作标签、训练机器人基础模型四大流程，将合成数据规模扩展至原始数据333倍。

账号		自动登录	找回密码
密码			注册

萍聚头条

本周AI大事件一览

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块