英伟达发布通用游戏AI模型

我爱免费 · 发表于 2025-12-29 06:29

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
AI科技圈最近一周又发生了啥新鲜事？
字节跳动发布Seed Prover 1.5，Agentic架构刷新形式化数学推理SOTA

字节跳动Seed团队推出形式化数学推理模型Seed Prover 1.5，采用全新Agentic Prover架构，结合大规模Agentic强化学习，在多个高难度数学评测中刷新纪录：在IMO 2025前5题中16.5小时内生成全部可验证Lean证明，换算得分35/42达金牌线；在Putnam 2025的12题中9小时内完成11题的形式化证明；在完整Putnam历史集、Fate-H（硕士级）和Fate-X（博士级）评估集上分别解决88%、80%和33%的问题。该模型通过Mathlib检索、Python执行和增量引理验证等工具调用机制，实现高效分步推理，并配合Sketch Model将自然语言证明转化为可验证引理结构，形成多智能体协作工作流。技术报告与代码已公开，后续将开放API供研究者使用

Seed Prover 1.5 在多个评估集上与此前其他 SOTA 方法的比较（柱列上数字代表解决评估集中问题的数量）
https://arxiv.org/abs/2512.17260
阿里最强“PS模型”开源：Qwen-Image-Edit-2511

阿里Qwen团队开源图像编辑模型Qwen-Image-Edit-2511，在人物一致性、多人物融合及风格迁移方面显著优化，能稳定保留面部特征、发型、配饰等细节，适用于情侣照、群像图等场景。该版本首次内置高频LoRA子模型，无需额外加载即可实现柔光/侧光控制、新视角生成和木质/布料材质替换，并支持几何辅助线绘制。实测显示其在人像合成、文字渲染（含中英文混排）和材质替换任务中效果自然，但在镜头旋转、空间构图和几何推理等任务上仍存在误差。模型已在Hugging Face和魔搭社区开放

Qwen官方案例
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
上海与商汤发布规划资源 AI 基础大模型

上海市规划资源局联合商汤科技发布全国规划资源领域首个基础大模型“云宇星空大模型（专业版）”，基于6000亿参数和“坤舆经略·语料库”训练而成，构建“1+6”模型体系，涵盖1个行业基座大模型和6个垂类模型。该模型具备“问不倒、能调图、会统计、能识图、会报告”五大能力：已沉淀超10万组基础问答和1000+专家问答对，覆盖十大专业领域；支持自然语言调取地块信息与多源图层；可智能查询土地出让等业务数据并实现图数联动；能识别规划图纸要素辅助合规审查；并可自动生成符合规范的业务报告。目前模型已在规划资源、政府治理、社会共创三大领域落地十大应用场景，并计划于次年6月建成覆盖60+专业的知识图谱

https://mp.weixin.qq.com/s/V9gtSqRv6bFACtCYXLyxsQ
智谱发布GLM-4.7开源大模型，代码能力登顶Code Arena

智谱AI正式开源GLM-4.7大模型，在编程、推理与智能体三大维度全面升级。该模型在Code Arena全球百万用户盲测中位列开源第一、国产第一，超越GPT-5.2；在SWE-bench-Verified取得73.8%、LiveCodeBench V6达84.9%、SWE-bench Multilingual提升12.9%至66.7%、Terminal Bench 2.0提升16.5%至41%，均创开源SOTA。工具调用方面，在BrowseComp获67.5分，τ²-Bench达87.4分，超过Claude Sonnet 4.5；数学推理在HLE基准得分42.8%，较GLM-4.6提升41%，超越GPT-5.1。模型支持交错式、保留式与轮级思考机制，提升复杂任务稳定性，并显著优化前端生成审美，PPT 16:9适配率从52%跃升至91%。GLM-4.7已上线BigModel.cn API、z.ai全栈开发平台及智谱清言应用，并同步开源

huggingface.co/zai-org/GLM-4.7
MiniMax发布M2.1大模型，多语言编程SOTA

MiniMax推出M2.1大模型，在多语言编程、移动端与Web开发、办公自动化等真实复杂任务中实现显著提升。该模型系统性增强对Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript、JavaScript等语言的支持，Web与App开发能力覆盖设计理解、3D渲染及交互逻辑，并在自建的全栈应用评测基准VIBE上取得88.6分的综合成绩，接近Claude Opus 4.5，显著优于Claude Sonnet 4.5。M2.1还引入Interleaved Thinking机制提升复合指令执行能力，在SWE-bench Verified、OctoCodingBench、SWE-Review等测试中全面超越前代M2及多个主流模型。API已上线，提供M2.1与更快的M2.1-lightning两个版本，并支持自动Cache以优化成本与延迟

https://mp.weixin.qq.com/s/QOv0GLq5-T--gKGIF912RQ
阿里发布新一代端到端语音交互模型Fun-Audio-Chat

FunAudioLLM发布并开源新一代端到端语音交互模型Fun-Audio-Chat 8B，采用S2S架构直接实现语音输入到语音输出，无需ASR+LLM+TTS多模块拼接。模型基于双分辨率设计，Shared LLM层以5Hz帧率处理语义，SRH以25Hz生成高质量语音，GPU计算开销降低近50%。训练数据涵盖百万小时多任务音频，支持语音理解、问答、情感识别与工具调用。在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等权威评测中，同尺寸模型排名第一，综合性能超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等。模型支持情绪感知对话与自然语音函数调用，权重、推理代码及Function Call示例已全部开源

Architecture
https://github.com/FunAudioLLM/Fun-Audio-Chat
钉钉发布AI工作操作系统“Agent OS”及20余款AI新品

钉钉正式发布代号“木兰”的AI钉钉1.1版本，核心为全球首个面向AI的工作智能操作系统“Agent OS”，旨在将AI从问答工具升级为可执行任务的智能体运行平台。系统包含统一交互界面“钉钉 ONE”，以AI信息流替代传统消息列表，并集成“AI搜问”作为全局指挥入口；推出全球首款专为企业Agent设计的本地AI硬件“DingTalk Real”，保障数据安全与7×24小时运行；同步升级AI听记、AI表格、DingTalk A1录音卡等四大单品，并发布差旅、招聘、研发、质量、店长等多行业可交付Agent。平台已建成全球最大的企业级MCP广场和AI助理市场，支持数千个MCP能力与数十个开箱即用AI助理，提供算粒分成与效果付费等生态合作模式

https://mp.weixin.qq.com/s/GQNLyMWB7P-wykhq6kM-QA
英伟达发布通用游戏AI模型NitroGen

英伟达推出开源基础模型NitroGen，专为通用游戏智能体设计，可直接以游戏视频帧为输入、输出真实手柄操作信号，支持RPG、平台跳跃、吃鸡、竞速等1000余款2D/3D游戏。该模型基于4万小时公开游戏视频构建的互联网规模数据集训练，覆盖846款游戏超1小时、91款超100小时、15款超1000小时的数据，并通过自动提取“输入叠加层”生成动作标签。NitroGen采用GR00T N1.5架构，在未微调情况下实现跨游戏零样本游玩，后训练可使新游戏任务成功率相对提升最高52%。项目已开源模型权重、数据集、评测环境及代码

https://github.com/MineDojo/NitroGen

END
技能拓展

推介阅读

账号		自动登录	找回密码
密码			注册