AI音效师诞生!阿里推出思维链音频模型ThinkSound

我爱免费 · 发表于 2025-7-6 00:05

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
近日，阿里巴巴通义实验室宣布开源旗下首个音频生成模型ThinkSound，该模型首次将CoT（Chain-of-Thought，思维链）技术引入音频生成领域，让AI学会像专业音效师一样逐步分析画面事件与声音的关联，生成与画面同步的高保真空间音频。这一突破标志着AI音频生成技术从“被动模仿”迈向“主动理解”。

ThinkSound由多模态大语言模型和统一音频生成模型两部分组成，通过“理解整体画面→聚焦具体物体→响应用户指令”三阶段流程，精准捕捉视觉细节并生成对应音效。

例如，当画面中出现雨滴落在树叶的场景时，模型不仅能识别物体（雨滴、树叶），还能结合环境特征模拟出符合物理规律的雨声与碰撞音效，实现“听音辨景”的沉浸式体验。

阿里通义实验室同期开源的还包括OmniAudio（空间音频生成模型）和InspireMusic（音乐生成技术）。

其中，OmniAudio基于Sphere360大规模数据集，可从360°视频中生成FOA（全向空间音频），为虚拟现实和沉浸式娱乐提供更真实的声场环境；而InspireMusic支持通过文字描述或音频提示生成多种风格的高质量音乐作品，进一步拓展了AI在音乐创作领域的应用边界。
📘 本文内容来源于网络，仅供参考。如有出入，请以阿里官方信息为准。欢迎留言交流。全文完，看更多刘强东与京东资讯！敬请关注【老刘那些事】。
往期回顾

01

“苏超”入驻京东旗舰店，豪送1000台百寸电视

02

全国高温破纪录，京东空调安装量猛涨340%

03

京东物流「智狼系统」全国落地，智能仓储迈入规模化新阶段
点击这里进入阿里课程中心

账号		自动登录	找回密码
密码			注册

萍聚头条

AI音效师诞生!阿里推出思维链音频模型ThinkSound

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块