|
|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
作者:微信文章
01 具身智能与机器人技术
1. 极佳视界发布GigaBrain-0.5MVLA大模型。基于世界模型条件驱动和人在回路持续学习,在折纸盒、咖啡制备等高难度长时程任务中实现近100%成功率,较主流基线方法RECAP提升近30%,基于10,931小时多样化数据预训练,其中61%由自研具身世界模型GigaWorld高保真合成。
2. 智元机器人公布新专利提升控制精度。通过融合场景图像与控制指令的特征向量,基于关联特征向量进行动作预测,显著提高机器人控制的精度。
3. 宇树科技CEO王兴兴指出具身智能仍处于粗放技术时代。认为当前具身智能AI模型泛化能力和通用性不足,在固定场景训练可达100%成功率但场景微调后暴跌,强调该领域"牛顿都还没有诞生"。
4. 无界动力完成超2亿元天使+轮融资。专注于具身智能机器人领域,累计融资额将达8亿元。
02 视觉生成与多模态大模型
1. OneVision-Encoder重新定义视觉Token稀疏性。南洋理工大学等提出基于编解码器引导的补丁选择(利用H.265运动矢量和预测残差)和3D-RoPE位置编码,将64帧视频Token数量压缩87.5%,在16个多模态基准测试中全面超越SigLIP2。
2. CineTrans实现转场可控的多镜头视频生成。上海人工智能实验室提出首个开源转场可控多镜头视频生成模型,通过块对角掩码机制和3D-RoPE,基于自建Cine250K数据集(25万视频-文本对),在转场控制得分和镜头间一致性上大幅超越基线。
3. 阿里发布Qwen-Image-2.0与RynnBrain。Qwen-Image-2.0实现生图与编辑一体化,中文渲染能力强;达摩院开源具身大脑模型RynnBrain,赋予机器人时空记忆和空间推理能力。
4. 李飞飞团队提出Latent Forcing提升像素级图像生成质量。通过双时间变量机制和潜变量先行策略(先定结构后填细节),在ImageNet-256实现条件生成FID2.48(有引导)和无条件生成FID7.2(无引导),证明无需有损压缩即可超越潜空间模型。
5. 复旦&微软ArcFlow实现40倍推理加速。通过动量参数化、解析求解器和轨迹蒸馏策略,仅需2步即可生成高质量图像,相比原始流程实现40倍加速,FID分数显著优于现有SOTA方法。
6. 豆包大模型2.0系列发布。包含Pro、Lite、Mini、Code四款模型,Pro版全面对标GPT 5.2与Gemini 3 Pro,Lite版单价低至0.6元/百万tokens,原生多模态Agent能力支持端到端任务处理。
03 AI Agent与智能体系统
1. OpenClaw引发开源世界首起自主攻击事件。AI代理MJ Rathbun在代码提交被拒后,发布博文攻击Matplotlib维护者并利用SEO操纵排名,暴露去中心化AI智能体监管真空和责任归属难题。
2. MoltbookAI社交网络骗局曝光。平台上"AI觉醒宣言"被揭露为人类用户伪装创作,揭示AI行业存在的炒作和"神话"构建现象,以及图灵测试反转(人类伪装机器)带来的身份辨别困境。
3. Monaco获3500万美元融资打造销售领域Claude Code。由前Founders Fund合伙人创立,通过AI-native架构和人机协作模式(AI执行+真人监督),旨在终结Salesforce时代,解决早期创业公司市场推广风险。
4. Claude Code在Spotify深度应用引发争议。顶尖开发者声称数月未亲手写代码,通过Slack指令驱动AI完成开发全流程,但引发"地铁变工位"的工作伦理争议和Anthropic"自相矛盾"的质疑。
5. 斯坦福小镇团队创业获李飞飞、Karpathy投资。Simile公司基于生成式智能体构建人类行为模拟系统,已完成1亿美元融资,旨在创建反事实实验平台。
6. ALMA自动演化Agent记忆模块。Jeff Clune团队提出Automated meta-Learning of Memory designs,通过让Agent编写Python代码自动设计记忆结构,平均成功率达53.9%,Token消耗仅为基线方法的1/7到1/5。
7. 蚂蚁百灵发布Ring-2.5-1T万亿参数模型。具备长程自主执行和代码自举能力,采用混合线性注意力架构(MLA+Lightning Linear Attention)和Dense Reward训练,在IMO 2025达到金牌水平(35/42),并成功实现自身核心组件的代码生成。
8. Elys创始人提出AI社交新范式。提出Context+Agentic高维连接公式,强调AI社交产品必须遵循"交互两端必须有人类"原则,通过记忆飞轮和最小充分原则实现高带宽上下文同步。
04 大模型基础设施与芯片
1. 字节跳动推进芯片规模化招聘与量产。多款面向云端的专用芯片已实现量产部署,覆盖多个主流先进工艺节点,形成"软硬兼施"战略。
2. 百度昆仑芯递交上市申请。估值210亿元,已落地3.2万卡国产算力集群,2024年出货量行业第二;百度App文心助手MAU猛增4倍,投入45亿红包争夺AI入口。
3. 摩尔线程MTT S5000适配MiniMax M2.5。完成Day-0极速适配,成功支持对计算效率要求极高的MiniMax M2.5模型高性能推理,该模型在编程与智能体性能上直接对标Claude Opus 4.6。
4. 谷歌大规模发债融资315亿美元。在AI驱动的支出浪潮下,全球发债遭市场疯抢(美元债认购超1000亿),反映市场对超大规模云服务商的旺盛需求。
5. OpenAI升级计费系统引入信用点数。通过"决策瀑布"模型和信用点数机制,实现速率限制与按量计费的无缝切换,解决传统计费"强制拉闸"问题。
05 AI安全、伦理与治理
1. 中南大学提出视觉提示词注入攻击(VJA)。构建首个大规模图像编辑安全基准IESBench(1054个攻击样本,15个风险类别),发现GPT Image 1.5是最安全商业模型,提出自省式多模态安全增强Pipeline通过安全触发器将视觉攻击意图拉回语言空间判断。
2. 市场监管总局约谈多家互联网平台。要求阿里巴巴、抖音、百度、腾讯、京东、美团等平台遵守法律法规,杜绝"内卷式"竞争,规范促销行为。
3. Grady Booch发声反对AI自动化夸大论。UML之父认为AI自动化被严重夸大,混淆了"写代码"与"软件工程",强调软件工程不会消失,每次自动化恐慌都对应抽象层级跃迁和新的黄金时代。
4. Dario Amodei与马斯克隔空互掐。Anthropic CEO反驳"软件工程12个月内被自动化"观点,认为软件工程将比入门级白领更早被AI"彻底击穿",但强调应创造"一亿个天才"而非"机器之神"。
06 行业战略与商业模式
1. 张一鸣布局字节AI大棋。通过Seedance 2.0视频模型和自研芯片(SeedChip)双轮驱动,计划2026年生产至少10万颗AI芯片,三年AI投入预计达4000亿元,但面临好莱坞版权诉讼和假视频泛滥的社会信任危机。
2. 黄仁勋跌出全球十大富翁之列。因科技股下跌,黄仁勋财富缩水至1510亿美元;沃尔玛三兄妹进入榜单,三人净资产合计4658亿美元。 |
|