界面新闻记者 | 宋佳楠
2月25日晚间,阿里巴巴全面开源旗下视频生成模型万相2.1。该模型是阿里云通义系列AI模型的重要组成部分 ,于2025年1月发布 。在权威评测集VBench中,其以总分86.22%的成绩大幅超越Sora 、Luma、Pika等国内外模型,稳居榜首位置。
万相2.1采用了自研的高效变分自编码器(VAE)和动态图变换器(DiT)架构 ,增强了时空上下文建模能力。这种设计使得模型能够更准确地捕捉和模拟现实世界的动态变化,同时通过参数共享机制降低了训练成本 。
模型通过将视频划分为多个块(Chunk)并缓存中间特征,避免了传统端到端编解码的复杂性,支持无限长1080P视频的高效生成和处理。
它也是首个支持中文文字生成及中英文文字特效生成的视频生成模型。在指令遵循上 ,能严格依照镜头移动等指令输出视频,对长文本指令也能准确理解和执行。
此外,该模型能够精准模拟现实世界的物理规律 ,例如雨滴落在伞上溅起水花、人物运动时的自然过渡等 。在处理复杂运动(如花样滑冰 、游泳等)时,万相2.1能够保持肢体的协调性和运动轨迹的真实性。
阿里基于Apache 2.0协议将万相2.1的14B和1.3B两个参数规格的全部推理代码和权重全面开源,全球开发者可在 Github、HuggingFace和魔搭社区下载体验。
据界面新闻记者了解,14B模型在指令遵循、复杂运动生成等方面表现突出 ,1.3B版本能在消费级显卡运行,仅需8.2GB显存就可生成高质量视频,适用于二次模型开发和学术研究 ,极大降低了使用门槛 。
事实上,开源视频生成模型业内已有先例,此前阶跃星辰就开源了全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V。而阿里的开源,进一步推动了这一趋势。
对AI行业来说 ,开源可为开发者提供强大的工具,加速视频生成领域的技术创新和应用拓展 。目前,国内AI明星公司DeepSeek正在持续开源 ,百度也已宣布于6月30日起全面开源文心大模型4.5。国外的OpenAI CEO山姆·奥特曼此前承认, “闭源策略站在了错误的一边 ”,而马斯克的Grok-3则采取了 “有限开源” 模式。
预计未来会有更多企业和团队加入开源行列 ,推动大模型技术快速传播和普及 。
科技早报 | DeepSeek据悉力求提前发布R2模型;阿里云视频生成大模型万相2.1开源|界面新闻 · 科技
盘前机会前瞻|阿里宣布视频大模型万相2.1开源!这几家公司在文生视频和AI短视频领域已服务众多客户有望受益(附概念股)|界面新闻 · 证券
网页挤崩溃,OpenAI视频生成大模型Sora终于正式登场|界面新闻 · 科技
科技早报|OpenAI正式推出AI视频生成模型Sora;英伟达涉嫌违反反垄断法,市场监管总局立案调查|界面新闻 · 科技
科技早报 | 阿里发布开源全新模型;Manus被质疑“饥饿营销+套壳炒作”|界面新闻 · 科技
盘中必读|OpenAI正式推出视频生成模型,Sora概念表现活跃,天娱数科等多股涨停|界面新闻 · 证券
OpenAI可能即将开源某个大模型,CEO发文征询意见|界面新闻 · 科技
还没有评论,来说两句吧...