阿里开源全能视频大模型,单一模型全面支持视频生成和编辑 ...

来自: 每日经济新闻 收藏 邀请

每经杭州5月14日电(记者叶晓丹)5月14日晚,《每日经济新闻》记者获悉,阿里巴巴正式开源通义万相Wan2.1-VACE,这是业界功能最全的视频生成与编辑模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。本次共开源1.3B和14B两个版本,其中1.3B版本可在消费级显卡运行。

据阿里云方面介绍,Wan2.1-VACE基于通义万相文生视频模型研发,同时创新性提出了全新的视频条件单元(VCU),它在输入形态上统一了文生视频、参考图生视频、视频生视频,基于局部区域的视频生视频4大类视频生成和编辑任务;同时,Wan2.1-VACE还进一步解决了多模态输入的token(词元)序列化难题,将VCU输入的帧序列进行概念解耦,分开重构成可变序列和不可变序列后进行编码。

据了解,自今年2月以来,通义万相已先后开源文生视频模型、图生视频模型和首尾帧生视频模型,目前在开源社区的下载量已超330万。

封面图片来源:视觉中国-VCG211478193393


鲜花

握手

雷人

路过

鸡蛋
相关推荐
实时动态
焦点话题
热门排行

在线客服(服务时间 9:00~18:00)

在线QQ客服
公司地址:广州市黄埔区康富路32号101房
客服电话:13326565461
电子邮箱:30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )