谷歌推出能一次生成完整视频的扩散模型
2024-01-30谷歌研究院近日发布了一款名为Lumiere的文生视频扩散模型,基于自家研发的Space-Time U-Net基础架构,独立生成具有高效、完整且动作连贯性的视频效果。 该公司指出,当前众多文生视频模型普遍存在无法生成长时、高品质及动作连贯的问题。这些模型往往采用“分段生成视频”策略,即先生成少量关键帧,再借助时间超级分辨率(TSM)技术生成其间的视频文件。尽管此策略可减缓RAM负担,但难以生成理想的连续视频效果。 针对此问题,谷歌的Lumiere模型创新地引入了新型Space-Time U-Ne