又一家国内独角兽加入视频生成模型的混战。
8月31日,一向低调的“AI六小龙” 之一——MiniMax第一次正式对外,在上海办了场“MiniMax Link伙伴日”活动。在会上,MiniMax创始人闫俊杰宣布推出视频生成模型和音乐模型。此外,他预告,新⼀版能从速度和效果都对标GPT-4o的大模型abab7,会在未来⼏周内发布。
这一视频生成模型的对外名称为video-1,在具体参数上MiniMax并未有太多介绍。闫俊杰提到,相比市面上的视频模型,video-1具有压缩率高、文本响应好和风格多样的特点,可生成原生高分辨率、高帧率视频。目前video-1只提供了文生视频,在未来产品会迭代图生视频、可编辑、可控性等功能。
目前所有用户都可以登录海螺AI官网体验video-1的视频生成功能,记者在现场体验了一下,输入一段简单的提示词,大概等待1-2分钟,可生成6秒的视频。从输出效果来看,画面基本覆盖了提示词说到的点,高清、色调审美合格,可以改进的地方是人物面部细节。
在大会讨论环节,闫俊杰提到一个点是,大模型是一个看起来很热,但是也有很多非共识的领域,“到底要做2B还是2C,到底做国内还是做海外,Scaling law到底能不能延续……”等等。
尽管有这么多非共识,但视频生成或许是今年各大模型厂商的共识。
自今年2月OpenAI发布视频大模型Sora后,行业叫得上名字的发布不少,4月生数科技发布视频大模型Vidu,6月快手发布AI视频生成大模型可灵,一周后Luma AI发布文生视频模型Dream Machine,Runway在7月初宣布,文生视频模型Gen-3 Alpha向所有用户开放使用,在世界人工智能大会期间阿里达摩院推出寻光,7月底,爱诗科技发布PixVerse V2,随后智谱正式发布清影视频,8月初,字节即梦AI上架应用商店……
一年前市面上还很少有面向公众的文生视频模型,短短几个月内我们目睹了几十款视频生成模型的问世,一位行业人士感慨,过去一年对于AI视频生成来说是一个历史性的时刻。
在采访中,第一财经记者问及MiniMax布局视频生成的必要性,闫俊杰表示,本质原因是,人类社会的信息更多体现在多模态内容上,“我们每天看的大部分内容,都不是文字,都是一些动态的内容。你打开小红书都是图文,打开抖音都是视频,甚至打开拼多多买东西,大部分时候也是图片。”⽣活中,⽂字交互只是很⼩的⼀部分,更多的是语⾳和视频交互。
因此,为了能够有非常高的用户覆盖度,以及更高的使用深度,作为大模型厂商,唯一的办法是能够输出多模态的内容,而不是只是输出单纯的基于文字的内容,闫俊杰解释,这是一个核心的判断。
“只是在之前我们先做出来文字,又做出来声音,很早做出来了图片,现在技术变得更强,(可以)把视频也做出来。这个路线是一以贯之的,一定要能做多模态。” 闫俊杰说。
但视频生成赛道很难,仅看OpenAI在年初发布Sora后,至今没有正式对外,也可以窥见行业的一些挑战。
一方面,目前的视频生成结果远远达不到用户的预期,模型并不懂物理规则,同时生成过程很难控制。视频、图像、三维的生成类算法会遇到很多结构性和细节性问题,如通常会多长出一样东西或者少一样东西,或者手穿模到人身体里,精细化的视频、尤其是具有物理规则的视频目前很难生成。
在采访中,闫俊杰也表示“这件事还挺难的”,否则如此多号称做这个事的公司早做出来了。视频的工作复杂度比做文本更难,因为视频的上下文文本天然很长。例如,一个视频是千万的输入和输出,天然就是一个很难的处理。其次,视频量很大,看一个5秒的视频就有几M,但是5秒看的文字大概100个字,可能都不到1K的数据量,这是几千倍的存储差距。
“这里面的挑战在于,之前基于文本建的这套底层基础设施怎么来处理数据,怎么来清洗数据,以及怎么来标注,对视频上都不太适用。”闫俊杰认为,基础设施需要升级,其次就是耐心,做文字有很多开源,如果基于开源来做,自己研发会更快,如果做视频,开源内容没那么多,很多内容做出来也会发现需要重做,需要付出的耐心更大。
此前有行业从业者对记者表示,目前的视频生成有点像图像生成的2022年前夕,2022年8月Stable Diffusion开源后,AIGC图像生成开始爆发,但视频生成领域目前还没有一个特别厉害的“开源Sora”发布,大家还需要探路。
启明创投在7月发布了 “2024生成式AI十大展望”,其中一条是,3年内视频生成将全面爆发,他们认为,结合3D能力,可控的视频生成将对影视、动画、短片的生产模式带来变革。未来图像和视频隐空间表示的压缩率提升五倍以上,从而使生成速度提升五倍以上。