您的当前位置:首页>科技咨询>资讯详情

阿里开源新版通义万相,单一模型全面支持视频生

发表于:2025-05-15 13:00:07 浏览:13次 发布者: 网易互联网

新京报贝壳财经讯(记者罗亦丹)5月14日晚,阿里巴巴正式开源通义万相Wan2.1-VACE,这是业界功能最全的视频生成与编辑模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。本次共开源1.3B和14B两个版本,其中1.3B版本可在消费级显卡运行,开发者可在GitHub、Huggingface及魔搭社区下载体验。该模型还将逐步在通义万相官网和阿里云百炼上线。


据介绍,Wan2.1-VACE基于通义万相文生视频模型研发,同时创新性提出了全新的视频条件单元VCU,它在输入形态上统一了文生视频、参考图生视频、视频生视频,基于局部区域的视频生视频4大类视频生成和编辑任务;同时,Wan2.1-VACE还进一步解决了多模态输入的token序列化难题,将VCU输入的帧序列进行概念解耦,分开重构成可变序列和不可变序列后进行编码。

Wan2.1-VACE支持全部主流输入形式,涵盖文本、图像、视频、Mask和控制信号,可以实现角色一致性、布局、运动姿态和幅度等要素的控制。例如,Wan2.1-VACE可以基于物体参考图或者视频帧生成一段视频,也可以通过抹除、局部扩展等操作,对原有视频进行重新生成,该模型还可以通过深度图、光流、布局、灰度、线稿等控制信号对视频进行编辑。

Wan2.1-VACE还支持任意基础能力的自由组合,用户无需针对特定功能训练一个新的专家模型,即可完成更复杂的任务,极大地扩展了AI视频生成的想象空间。例如,将图片参考和主体重塑功能组合,可以实现视频的物体替换;将图片参考、首帧参考、背景扩展和时长延展功能,可以将一张竖版图片变成横版视频,并且在其中加入参考图片中的元素。

编辑 陈莉 校对 杨利

猜你喜欢

商单焦虑的博主,涌入小红书做买手
商单焦虑的博主,涌入小红书做买手
发表于:2025-01-19 浏览:31 发布者: 网易互联网
特斯拉申请加州无人驾驶出租车服务相关许可证
特斯拉申请加州无人驾驶出租车服务相关许可证
发表于:2025-02-28 浏览:18 发布者: 网易互联网
阿里云通义开源长文本模型及推理框架 百万Token
阿里云通义开源长文本模型及推理框架 百万Token
发表于:2025-01-27 浏览:26 发布者: 网易互联网
智能眼镜成AI应用场景随身终端入口 亿元级资本
智能眼镜成AI应用场景随身终端入口 亿元级资本
发表于:2025-07-11 浏览:7 发布者: 网易科技
12月24日外媒科学网站摘要:基因工程让土豆毒素
12月24日外媒科学网站摘要:基因工程让土豆毒素
发表于:2024-12-24 浏览:31 发布者: 网易科技
年轻人“反向驯化”应对大数据“杀熟”
年轻人“反向驯化”应对大数据“杀熟”
发表于:2024-12-27 浏览:41 发布者: 网易互联网
投资人逃离大模型
投资人逃离大模型
发表于:2024-10-29 浏览:49 发布者: 市场资讯
电商端午消费“健康热”升温 低GI粽子成新宠
电商端午消费“健康热”升温 低GI粽子成新宠
发表于:2025-06-02 浏览:10 发布者: 网易互联网
喜马拉雅的退路,腾讯音乐的解药
喜马拉雅的退路,腾讯音乐的解药
发表于:2025-06-11 浏览:10 发布者: 网易互联网
1688将取消“仅退款”政策
1688将取消“仅退款”政策
发表于:2025-03-17 浏览:17 发布者: 网易互联网