找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 96|回复: 0

AI本周热讯精选:《时代》AI架构师

[复制链接]
发表于 2025-12-15 17:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg

时代年度人物揭晓:AI架构师

《时代》杂志(TIME)将2025年的年度人物称号授予“AI的架构师们”,正式确认生成式AI已成为定义这个时代的核心力量。这一选择不仅赞扬了技术本身的惊人创新和潜力,更是对少数推动者(包括NVIDIA的黄仁勋、OpenAI的奥特曼等)所肩负的巨大影响力和伦理责任的认可。

2025年是AI潜力全面爆发的一年,其发展速度和采用率前所未有,影响力渗透到医疗、生产力和科学研究的方方面面。黄仁勋表示,这是“我们时代最具影响力的技术”。然而,快速发展也伴随着巨大的权衡:能源消耗、工作岗位流失、信息真伪挑战(如Deepfakes)以及权力的高度集中。这一评选旨在聚焦于这些塑造AI未来走向的关键人物,他们正带领人类进入一个由“思考机器”主导的新纪元,其后果将是显著进步与更大不平等的交织。

https://time.com/7339621/person-of-the-year-2025-ai-architects-choice/

开源Kandinsky !图像视频全能,效率暴涨2.7倍!

一个代号为Kandinsky 5.0的基础模型家族横空出世,旨在提供高分辨率图像和最长10秒视频生成的顶尖能力。该框架包含三款核心模型:Image Lite(60亿参数)负责图像生成和编辑;Video Lite(20亿参数)轻巧且快速,是开源文生视频领域的佼佼者;而Video Pro(190亿参数)则致力于实现超高质量HD视频。Kandinsky 5.0的关键突破在于其效率优化:它采用了名为NABLA(邻域自适应块级注意力)的新机制。这一创新稀疏注意力算法能将高分辨率视频的训练和推理速度提高2.7倍,同时保持90%的稀疏率。此外,该模型利用了包括强化学习(RL)在内的多阶段训练流程来提升生成质量和连贯性。更重要的是,Kandinsky 5.0是一个开源项目,使用Apache 2.0许可证发布,向全球研究者和商业应用敞开大门。

https://arxiv.org/abs/2511.14993

告别“玄学”提问!微软Promptions让AI对话更可控

微软研究院发布了Promptions(Prompt + Options),这是一个解决AI提示词低效、重复试错问题的动态UI框架。现有的大语言模型(LLM)用户常因提示词不精确,导致AI输出不符合预期。Promptions作为用户和LLM之间的轻量级中间件运行,能根据用户的原始输入和对话历史,自动生成一系列动态的精炼选项(如“解释的详细程度”、“关注点”、“响应格式”)。用户无需撰写冗长复杂的提示词,只需通过交互式控件(如滑块、复选框)来即时调整AI的生成方向,大幅提高了提示词的精度和可控性。研究发现,动态控件不仅减轻了提示工程的负担,还能提示用户思考更多定制化的需求,从而帮助他们更专注于内容的理解而非交互管理。Promptions已在MIT许可证下开源,旨在帮助开发者构建更智能、更具响应性的AI应用。

https://www.microsoft.com/en-us/research/blog/promptions-helps-make-ai-prompting-more-precise-with-dynamic-ui-controls/?lang=zh-cn

图像检索新范式:多向量RAG如何读懂“图”?

DeepLearning.AI推出关于“多向量图像检索”的短课程,揭示了多模态RAG(检索增强生成)系统的关键技术突破。传统的图像检索系统通常只用单个向量来表示整个图像,但在处理复杂文档(如图文混排)时精度不足。多向量检索则将图像分解为多个“补丁级嵌入”(Patch-level Embeddings),为图像的每个局部细节创建单独的向量。这种细粒度的表示允许模型更精确地匹配文本查询和图像局部,大幅提升了搜索质量。

课程将教授如何应用ColPali模型进行图像检索,以及使用量化和池化等优化技术来降低内存消耗。最终目标是结合MUVERA嵌入实现高速搜索,并构建一个完整的多模态RAG管线,让AI系统能真正“读懂”包含图像的复杂文件,为AI应用开发者提供了进阶工具。

https://learn.deeplearning.ai/courses/multi-vector-image-retrieval/information

Google新框架:聊天记录不泄密,也能读懂AI用户!

谷歌研究院推出名为Urania的差异化隐私(DP)框架,解决了在分析AI聊天机器人大规模使用情况时保护用户隐私的关键难题。以往的方法依赖启发式地删除个人信息(PII),但缺乏严格的隐私保证。Urania框架提供端到端的DP数学保证,确保单个用户的对话内容不会过度影响最终结果。其核心流程包括:

    DP聚类:使用差异化隐私算法对对话嵌入进行分组。

    DP关键词提取:通过加噪直方图机制,确保只选择多人共有的通用关键词,屏蔽敏感的个人术语。

    LLM摘要:大模型仅依据私有化后的关键词生成高层级摘要,全程不接触原始对话。

测试结果显示,Urania框架相比非私有化基线能提供更强的隐私保护,并且其生成的摘要因聚焦于通用话题,反而经常被评估者认为更简洁、更聚焦。这证明了在严格保护隐私的同时,仍能获取有价值的用户洞察。

https://research.google/blog/a-differentially-private-framework-for-gaining-insights-into-ai-chatbot-use/

LangChain重磅发布!Deep Agents迈向工程化,首推标准化评估基准。

核心AI Agent开发框架LangChain正全力推动“Deep Agents”(深度智能体)的工程化和标准化。Deep Agents指的是具备复杂多步规划、自主推理和自我修正能力的下一代AI智能体。LangChain通过其LangGraph模块,实现了对Agent复杂行为流的精确构建和控制。更关键的是,LangChain发布了新的评估方法和Terminal Bench 2.0基准测试,旨在首次量化Deep Agents在真实命令行环境下解决问题的能力。LangChain同步开放了相关课程和CLI工具,这极大地加速了开发者将AI Agent从简单的提示脚本升级为可工程化、可测试、可信赖的复杂系统的进程。

https://blog.langchain.com/evaluating-deep-agents-our-learnings

https://blog.langchain.com/evaluating-deepagents-cli-on-terminal-bench-2-0

https://luma.com/voz2b5h3

https://academy.langchain.com/courses/deep-agents-with-langgraph

NeurIPS上新 | AI创新应用:驱动科学发现与垂直领域突破

微软亚洲研究院在 NeurIPS 2025 大会上的研究成果,聚焦于将 AI 打造成“科学引擎”,以驱动科学发现并在垂直领域实现突破。研究重点在于解决通用基础模型难以处理高度结构化、高复杂度专业数据(如医疗时间序列、基因组信息、物理仿真)的挑战。

研究院通过开发领域专用的基础模型和高效的数值分析算法,系统性地解决了多个专业领域的关键难题:

    精准医疗与健康: 推出 MIRA,一个面向真实世界健康数据的统一医学时间序列基础模型。

    基因组学: 研发 Omni-DNA,一个支持序列理解、长上下文和文本注释的基因组模型。

    工程设计: 提出 CADMorph 框架,通过“规划-生成-验证”循环,实现了几何驱动的参数化 CAD 编辑,简化了复杂工程模型的迭代设计。

    物理仿真与预测: 探索从不规则的稀疏观测中,生成物理动态全场演化的方法。

这些突破性工作加速了人类对生命科学和自然规律的认知,为 AI 赋能千行百业提供了强大的工具和方法论。

https://www.microsoft.com/en-us/research/articles/new-arrival-in-research-35/?locale=zh-cn
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-16 18:19 , Processed in 0.089040 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表