中经记者 李昆昆 李正豪 北京报道
在OpenAI发布的Sora爆火后,视频大模型开始出圈,国内就涌现出了腾讯混元、快手可灵等一系列视频大模型,各有不同的优势特色。不过视频生成大模型行业高开低走,一年过去了,依旧处于不温不火的状态。业内人士认为,一个重要原因在于,用户想看的短视频大都是由真人博主出演,而AI生成不了这种视频。
对此,经济学家余丰慧告诉《中国经营报》记者:“关于可灵、即梦、混元这三个视频生成大模型,它们各自拥有独特的技术优势和应用场景。可灵在图像识别和转换方面表现出色,适合需要高质量图像处理的任务;即梦则以其强大的自然语言处理能力著称,能够根据文本描述生成相应的视频内容,特别适用于创意产业;而混元结合了前两者的优点,并增加了更多的自定义选项,使其在灵活性和应用范围上更具优势。因此,不能简单地说哪一个更好,而是应根据具体的使用需求来选择最适合的模型。”
可灵一周年 发展得怎样了?
2024年6月6日,“可灵”AI视频生成大模型正式上线,经过一年多的发展,可灵AI在技术迭代、商业化落地及全球市场渗透方面表现突出。并在影视、短剧、广告、游戏、高校教育等行业有了深度实践探索。
一年过去了,可灵大模型的发展也成为视频生成大模型发展的一个观察窗口和缩影。
据介绍,2025年4月,可灵AI全球用户规模突破2200万人。月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。
据POE 2025年5月报告,可灵系列模型(包括2.0大师版、1.6版及1.5版)在全球AI视频工具市场的访问量份额已达30.7%,高居行业第一;在ArtificialAnalysis榜单中,可灵系列在文生视频、图生视频双赛道稳居全球前二,甚至能与谷歌Veo共同定义行业技术上限。
快手方面告诉记者,2025年4月,可灵AI宣布基座模型再次升级,面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。可灵2.0大师版,在语义响应、动态质量、画面美学等方面显著提升生成效果。可灵2.0大师版也全面升级视频及图像可控生成与编辑能力,上线全新的多模态视频编辑功能,能灵活理解用户意图,支持对视频内容实现增、删、改。
据2024年快手Q4及全年财报,自可灵AI开始商业化变现至2025年2月,可灵AI的累计营业收入已经超过人民币1亿元。今年3月,可灵AI的年化收入运行率(Annualized Revenue Run Rate)突破1亿美元,其4月和5月的月度付费金额均超过1亿元。
从收入构成来看,目前P(Prosumer)端付费订阅会员贡献可灵AI将近70%的营业收入(P端付费订阅会员指自媒体视频创作者和广告营销从业者等专业用户,他们兼具C端用户的传播属性和B端用户的付费能力,是目前视频生成大模型的核心受众群体)。
竞争激烈
从国际方面来看,首先当然是OpenAI的Sora,Sora能生成长达60秒的高质量视频,在画面细节、动作流畅度和镜头语言把控上较为均衡。目前Sora与ChatGPT Plus深度绑定,用户可在对话中一键体验,但因为模型规模庞大,对GPU算力要求高,生成延迟相对较长。Sora最大的优势在于其对物理世界规则的准确理解,Sora采用了一种被称为“视频作为图像补丁”的创新方法,将视频表示为时空块,不需要传统的帧到帧预测,大大提升了生成质量和效率。
作为社交媒体巨头,Meta对短视频内容生态有着天然的重视。Movie Gen的独特优势在于其对社交媒体视频样式的深度理解。在生成垂直短视频、创意内容等社交媒体常见形式时,Movie Gen表现出色。此外,Meta还特别优化了Movie Gen在移动设备上的性能,使其能够在Instagram、Facebook等平台无缝集成。与此同时,Movie Gen的独特之处在于其对画面构图的精准把控,生成的视频往往具有电影级的审美水准,但在动作连贯性方面还有明显提升空间。
RunwayML的Gen-4 Alpha则基于多模态大规模预训练,凭借强大的Vision Transformer架构,实现了10—20秒短视频的高保真合成,运动连贯与细节均表现抢眼。相比技术巨头的产品,Runway更懂创意人。Gen-4不仅提供直观的用户界面,还有丰富的风格预设和后期编辑功能。虽然在纯技术指标上可能不及Sora,但其开放的商业模式和对创意行业的深度优化,得到了大量用户认可。
阿里通义万相2.1通过自研的高效VAE和DiT架构,显著增强了时空上下文建模能力。这意味着,该模型能够更精准地理解和预测视频中的动态,支持无限长1080P视频的高效编解码。值得一提的是,通义万相2.1还首次实现了中文文字视频生成功能,登上了VBench榜单第一。
腾讯混元大模型凭借对多模态预训练的深度优化,能基于图像或文本提示生成5秒内的2K短视频。在与国内外多个顶尖模型的评测对比显示,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先,在人物、人造场所等场景下表现尤为出色。
百度“文心一言”4.0中的“一镜流影”插件主打批量化短视频生产,能够将文本自动转化为5—10秒720p视频,并支持文本、视觉与语音的多模态融合,为新闻和教育场景提供了高效解决方案。但在深入故事化和长视频生成方面,还需与专业创作管线结合使用。“一镜流影”走了一条与众不同的路线,即将视频生成能力整合进大模型生态。这种方式虽然在专业性上有所妥协,但大大提高了普通用户的可及性。
去年9月,对标OpenAI的Sora,字节跳动发布了两款对标文生视频工具PixelDance和Seaweed,即梦AI已经接入了豆包,其中支撑即梦的就包括能力更优秀的PixelDance,官方介绍称,能够生成高质量的长达2分钟的1080p分辨率视频,擅长描绘复杂的运动和物体之间的互动。
QuestMobile最新数据显示,即梦上线当天即在抖音平台引发了高涨的讨论热度,可灵AI通过热度的持续积累也在快手站内出现热度峰值。但一个明显的不同是,即梦的内容互动量在一个月高开低走,而可灵的内容互动量在一个月内低开高走。
余丰慧认为,视频大模型未来的发展将会朝着更加智能化、个性化的方向前进。随着技术的进步,我们可以期待这些模型不仅能够理解并生成更复杂的视频内容,还能更好地理解和响应用户的具体需求,提供更为定制化的服务。此外,随着5G等高速网络技术的普及,视频内容的传输速度和观看体验也将得到极大提升,进一步推动视频大模型的应用和发展。这一领域无疑将在未来的数字内容创作和消费中扮演重要角色。
(编辑:吴清 审核:李正豪 校对:颜京宁)