找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 501|回复: 0

AI音效师诞生!阿里推出思维链音频模型ThinkSound

[复制链接]
发表于 2025-7-6 00:05 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
近日,阿里巴巴通义实验室宣布开源旗下首个音频生成模型ThinkSound,该模型首次将CoT(Chain-of-Thought,思维链)技术引入音频生成领域,让AI学会像专业音效师一样逐步分析画面事件与声音的关联,生成与画面同步的高保真空间音频。这一突破标志着AI音频生成技术从“被动模仿”迈向“主动理解”。

w1.jpg

ThinkSound由多模态大语言模型和统一音频生成模型两部分组成,通过“理解整体画面→聚焦具体物体→响应用户指令”三阶段流程,精准捕捉视觉细节并生成对应音效。

例如,当画面中出现雨滴落在树叶的场景时,模型不仅能识别物体(雨滴、树叶),还能结合环境特征模拟出符合物理规律的雨声与碰撞音效,实现“听音辨景”的沉浸式体验。

阿里通义实验室同期开源的还包括OmniAudio(空间音频生成模型)和InspireMusic(音乐生成技术)。

其中,OmniAudio基于Sphere360大规模数据集,可从360°视频中生成FOA(全向空间音频),为虚拟现实和沉浸式娱乐提供更真实的声场环境;而InspireMusic支持通过文字描述或音频提示生成多种风格的高质量音乐作品,进一步拓展了AI在音乐创作领域的应用边界。
📘 本文内容来源于网络,仅供参考。如有出入,请以阿里官方信息为准。欢迎留言交流。全文完,看更多刘强东与京东资讯!敬请关注【老刘那些事】。
往期回顾

01

“苏超”入驻京东旗舰店,豪送1000台百寸电视

02

全国高温破纪录,京东空调安装量猛涨340%

03

京东物流「智狼系统」全国落地,智能仓储迈入规模化新阶段
点击这里进入阿里课程中心
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-10-27 08:10 , Processed in 0.104854 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表