谷歌研究院发布视频生成大语言模型VideoPoet-Metaverse-映魅咨询-imconsultancy

谷歌研究院发布视频生成大语言模型VideoPoet

　　近日，据海外媒体报道，谷歌（Google）公司发布了名为VideoPoet的新的大语言模型，该模型由谷歌研究院（Google Research）的31名研究人员组成的团队专为各种视频生成任务而设计。

　　谷歌的研究人员在预审研究论文中提到，大多数的现有模型采用基于扩散的方法，这些方法通常被认为是当前视频生成中表现最好的方法。这些视频模型通常从一个预训练的图像模型开始，比如稳定扩散，它可以为单个帧产生高保真图像，然后对模型进行微调，以提高视频帧之间的时间一致性。

　　相比之下，谷歌的研究团队没有使用基于流行（且有争议的）Stable Diffusion开源图像/视频生成的扩散模型，而是使用大语言模型，这是一种基于transformer架构的不同类型的AI模型，通常用于文本和代码生成，例如ChatGPT、Claude 2或Llama 2。但谷歌研究团队没有训练它用来生成文本和代码，而是训练它来生成视频。

　　为此，谷歌研究团队对来自“公共互联网和其他来源”的2.7亿个视频和超过10亿文本和图像对VideoPoet LLM进行了大量“预训练”。具体来说，将这些数据转化为文本嵌入、视觉标记和音频标记，这是人工智能模型的“条件”。

　　不仅如此，谷歌研究团队还指出，他们的大语言模型视频生成方法实际上可以实现更长、更高质量的视频片段，消除了当前基于扩散的视频生成人工智能的一些限制和问题。在后者的实践中，视频中主体的运动往往在几帧后就会崩溃或出现故障。

　　谷歌研究团队中的Dan Kondratyuk和David Ross表示，目前视频生成的瓶颈之一是产生连贯的大动作的能力。在许多情况下，即使是目前领先的模型，也会产生小的运动，或者在产生较大的运动时，会出现明显的瑕疵。