通义AI“音效师”：阿里开源首个音频模型ThinkSound

来自: 和讯财经收藏邀请

凤凰网科技讯 7月4日，阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链（CoT）技术应用于音频生成领域，旨在解决现有视频转音频（V2A）技术对画面动态细节和事件逻辑理解不足的问题。

根据通义语音团队介绍，传统V2A技术常难以精确捕捉视觉与声音的时空关联，导致生成音频与画面关键事件错位。ThinkSound通过引入结构化推理机制，模仿人类音效师的分析过程：首先理解视频整体画面与场景语义，再聚焦具体声源对象，最后响应用户编辑指令，逐步生成高保真且同步的音频。

图源：通义大模型微信公众号

为训练模型，团队构建了首个支持链式推理的多模态音频数据集AudioCoT，包含超2531小时高质量样本，覆盖丰富场景，并设计了面向交互编辑的对象级和指令级数据。ThinkSound由一个多模态大语言模型（负责“思考”推理链）和一个统一音频生成模型（负责“输出”声音）组成。

ThinkSound 音频生成模型的工作流

据悉，ThinkSound在多项权威测试中表现优于现有主流方法。该模型现已开源，开发者可在GitHub、Hugging Face、魔搭社区获取代码和模型。未来将拓展其在游戏、VR/AR等沉浸式场景的应用。

以下附上开源地址：

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

（责任编辑：张晓波）

【免责声明】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

鲜花

握手

雷人

路过

鸡蛋

比亚迪海豹06DM-i旅行版上市：搭载第五代DM技术，售10.98万元起 ...发布时间：2025-07-04

抖音副总裁李亮：禁止16岁以下直播并非新规已实施多年发布时间：2025-07-04

3年虚增6.55亿元利润！贵州百灵及相关负责

1 3年虚增6.55亿元利润！贵州百灵及相关负责

　　“苗药第一股”贵州百灵风波不断。　　12月19日晚间，贵州百灵企业集团制药股份有

阅读：4|1 小时前

2 券业2025监管处罚大数据扫描 326张罚单涉73

　　2025年收官在即，全年针对证券业的监管罚单已披露七七八八，监管框架全景图清晰成

阅读：27|1 小时前

3 “超碳一号”来了！全球首台商用超临界二氧

　　12月20日，全球首台商用超临界二氧化碳发电机组在贵州六盘水首钢水钢集团成功商运

阅读：10|1 小时前

4 AI手机路线大分野：当豆包试图“接管屏幕”

每经记者｜高涵每经编辑｜王嘉琦 AI手机的技术路线已形成鲜明分野。12月19日，字节

阅读：33|1 小时前

5 美团“空中骑手”刷新74万单战绩，京东、闪

每经记者｜赵雯琪每经编辑｜魏文艺在迪拜、香港商业化运营后，美团无人机再迎新进

阅读：39|1 小时前

6 近5000万元货款逾期，工业超声设备第一股骄

每经记者｜张宝莲每经编辑｜文多昔日合作伙伴，如今要对簿公堂。12月19日，科创板

阅读：65|1 小时前

7 2023年年报问询函，2025年底才回复，公司：

每经记者｜黄鑫磊每经编辑｜许绍航文多 2025年12月19日，*ST围海（SZ002586，股价

阅读：339|3 小时前

8 突发！美军对叙利亚境内极端组织目标发动大

　　美军，突然动手！　　据最新消息，当地时间12月19日，美国军方对叙利亚境内极端组

阅读：303|3 小时前

9 “情绪经济”崛起上市公司加码布局新消费

　　近期，证券时报记者走访多地发现，以宠物主题乐园、宠物出行为代表的新消费场景热

阅读：291|3 小时前

10 “数十万份”爱泼斯坦案文件将公布隐去上

　　据央视新闻12月20日消息，当地时间12月19日，美国司法部开始公布爱泼斯坦案相关的

阅读：291|3 小时前

← 返回科技

通义AI“音效师”：阿里开源首个音频模型ThinkSound

上一篇：

下一篇：

酒仙集团郝鸿峰：“价格倒挂”成白酒行业关

摩尔线程跨界PC？公司发布MTT AIBOOK，内置

3年虚增6.55亿元利润！贵州百灵及相关负责

券业2025监管处罚大数据扫描 326张罚单涉73

“超碳一号”来了！全球首台商用超临界二氧

3年虚增6.55亿元利润！贵州百灵及相关负责

券业2025监管处罚大数据扫描 326张罚单涉73

“超碳一号”来了！全球首台商用超临界二氧

AI手机路线大分野：当豆包试图“接管屏幕”

美团“空中骑手”刷新74万单战绩，京东、闪

近5000万元货款逾期，工业超声设备第一股骄

在线客服（服务时间 9:00～18:00）