
游戏厅捕鱼机漏洞打法(游
来源:量子位
内容生成AI进入视频时代!
Meta发布「用嘴做视频」仅一周,谷歌CEO劈柴哥接连派出两名选手上场竞争。
第一位Imagen Video与Meta的Make-A-Video相比突出一个高清,能生成1280*768分辨率、每秒24帧的视频片段。
另一位选手Phenaki,则能根据200个词左右的提示语生成2分钟以上的长镜头,讲述一个完整的故事。
网友看过后表示,这一切进展实在太快了。
也有网友认为,这种技术一旦成熟,会冲击短视频行业。
那么,两个AI具体有什么能力和特点,我们分别来看。
Imagen Video:理解艺术风格与3D结构
Imagen Video同样基于最近大火的扩散模型,直接继承自5月份的图像生成SOTA模型Imagen。
除了分辨率高以外,还展示出三种特别能力。
首先它能理解并生成不同艺术风格的作品,如“水彩画”或者“像素画”,或者直接“梵高风格”。
它还能理解物体的3D结构,在旋转展示中不会变形。
最后它还继承了Imagen准确描绘文字的能力,在此基础上仅靠简单描述产生各种创意动画,
这效果,直接当成一个视频的片头不过分吧?
除了应用效果出色以外,研究人员表示其中用到的一些优化技巧不光对视频生成有效,可以泛化至一般扩散模型。
具体来说,Imagen Video是一系列模型的集合。
语言模型部分是谷歌自家的T5-XXL,训练好后冻结住文本编码器部分。
与负责从文本特征映射到图像特征的CLIP相比,有一个关键不同:
语言模型只负责编码文本特征,把文本到图像转换的工作丢给了后面的视频扩散模型。
基础模型,在生成图像的基础上以自回归方式不断预测下一帧,首先生成一个48*24、每秒3帧的视频。
接下来,一系列空间超分辨率(Spatial Super-Resolution)与时间超分辨率(Temporal Super-Resolution)模型接连对视频做扩展处理。
所有7种扩散模型都使用了v-prediction parameterization方法,与传统方法相比在视频场景中可以避免颜色偏移。
这种方法扩展到一般扩散模型,还使样本质量指标的收敛速度更快。
此外还有渐进式蒸馏(Progressive Distillation),将每次迭代所需的采样步骤减半,大大节省显存消耗。
这些优化技巧加起来,终于使生成高清视频成为可能。
Phenaki:人人都能是“导演”
Phenaki的论文投了ICLR 2023会议,在一周前Meta发布Make-a-video的时候还是匿名双盲评审状态。
如今信息公开,原来研究团队同样来自谷歌。
在公开的信息中,Phenaki展示了它交互生成视频的能力,可以任意切换视频的整体风格:高清视频/卡通,还能够切换任意场景。
还可以向Phenaki输入一个初始帧以及一个提示,便能生成一段视频。
这都还是开胃小菜,Phenaki真正的大招是:讲故事,它能够生成2分钟以上的长视频,通过输入长达200多个字符的系列提示来得到。
(那有了这个模型,岂不是人人都能当导演了?手动狗头)
从文本提示到视频,计算成本高、高质量文本视频数据数量有限以及视频长度可变一直以来都是此类模型发展的难题。
以往的大多数AI模型都是通过单一的提示来生成视频,但若要生成一个长时间并且连贯的视频这远远不够。
而Phenaki则能生成2分钟以上的视频,并且还具备故事情节,这主要归功于它能够根据一系列的提示来生成视频的能力。
具体来说,研究人员引入了一个新的因果模型来学习表示视频:将视频视作图像的一个时间序列。
这个模型基于transformer,可以将视频分解成离散的小表示,而分解视频则是按照时间的因果顺序来进行的。
免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。
和全球数字资产投资者交流讨论
扫码加入OKEx社群
industry-frontier