您的当前位置:首页>科技咨询>资讯详情

大模型开源卷至视频生成领域:阿里开源万相2.1

发表于:2025-02-26 11:00:06 浏览:15次 发布者: 网易互联网

界面新闻记者 | 宋佳楠

2月25日晚间,阿里巴巴全面开源旗下视频生成模型万相2.1。该模型是阿里云通义系列AI模型的重要组成部分,于2025年1月发布。在权威评测集VBench中,其以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。

万相2.1采用了自研的高效变分自编码器(VAE)和动态图变换器(DiT)架构,增强了时空上下文建模能力。这种设计使得模型能够更准确地捕捉和模拟现实世界的动态变化,同时通过参数共享机制降低了训练成本。

模型通过将视频划分为多个块(Chunk)并缓存中间特征,避免了传统端到端编解码的复杂性,支持无限长1080P视频的高效生成和处理。

它也是首个支持中文文字生成及中英文文字特效生成的视频生成模型。在指令遵循上,能严格依照镜头移动等指令输出视频,对长文本指令也能准确理解和执行。

此外,该模型能够精准模拟现实世界的物理规律,例如雨滴落在伞上溅起水花、人物运动时的自然过渡等。在处理复杂运动(如花样滑冰、游泳等)时,万相2.1能够保持肢体的协调性和运动轨迹的真实性。

阿里基于Apache 2.0协议将万相2.1的14B和1.3B两个参数规格的全部推理代码和权重全面开源,全球开发者可在 Github、HuggingFace和魔搭社区下载体验。

据界面新闻记者了解,14B模型在指令遵循、复杂运动生成等方面表现突出,1.3B版本能在消费级显卡运行,仅需8.2GB显存就可生成高质量视频,适用于二次模型开发和学术研究,极大降低了使用门槛。

事实上,开源视频生成模型业内已有先例,此前阶跃星辰就开源了全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V。而阿里的开源,进一步推动了这一趋势。

对AI行业来说,开源可为开发者提供强大的工具,加速视频生成领域的技术创新和应用拓展。目前,国内AI明星公司DeepSeek正在持续开源,百度也已宣布于6月30日起全面开源文心大模型4.5。国外的OpenAI CEO山姆·奥特曼此前承认, “闭源策略站在了错误的一边”,而马斯克的Grok-3则采取了 “有限开源” 模式。

预计未来会有更多企业和团队加入开源行列,推动大模型技术快速传播和普及。

猜你喜欢

外卖骑手刘强东,不要面子要“里子”
外卖骑手刘强东,不要面子要“里子”
发表于:2025-04-22 浏览:8 发布者: 网易互联网
京东科技宣布落实20薪计划
京东科技宣布落实20薪计划
发表于:2024-12-30 浏览:22 发布者: 网易互联网
小红书发布“AIPS人群资产模型”
小红书发布“AIPS人群资产模型”
发表于:2024-12-18 浏览:30 发布者: 网易互联网
阿里云亮相2025巴展 ,吹响全球化进攻号角
阿里云亮相2025巴展 ,吹响全球化进攻号角
发表于:2025-03-06 浏览:16 发布者: 网易互联网
谷歌、苹果地图真改了!
谷歌、苹果地图真改了!
发表于:2025-02-12 浏览:19 发布者: 网易互联网
苹果发布M4版iMac 标配16GB统一内存 售价10999元起
苹果发布M4版iMac 标配16GB统一内存 售价10999元起
发表于:2024-10-29 浏览:48 发布者: CNMO
“小杨臻选”APP上线,三只羊内部人士:复播正
“小杨臻选”APP上线,三只羊内部人士:复播正
发表于:2025-04-08 浏览:13 发布者: 网易互联网
哈啰出行在东莞成立网络科技公司
哈啰出行在东莞成立网络科技公司
发表于:2025-03-26 浏览:13 发布者: 网易互联网
“京东外卖地推日入上千”,高薪兼职帖子背后藏
“京东外卖地推日入上千”,高薪兼职帖子背后藏
发表于:2025-02-24 浏览:15 发布者: 网易互联网
饿了么推出“饿补超百亿”,“五五购物节”在上
饿了么推出“饿补超百亿”,“五五购物节”在上
发表于:2025-04-30 浏览:11 发布者: 网易互联网