先快速介绍一下Veo3.1,这是一个视频模型,之前在抖音上爆火的ASMR,就是用这玩意做的。 Veo3.1还有一个优点就是支持首尾帧,Sora2还没法首尾帧,这是我用首尾帧做的一个小动画,大家来看看~ ...
但谷歌这次对的起 0.1 的更新,在某些方面是能胜过 Sora2 的。所以可千万不要小看谷歌 Veo3.1 的能力。 这并不是什么新奇的能力,国产视频大模型很早就已经支持了,只不过Veo3.1 的首尾帧生成的视频是带有音效的,在画质上也表现很不错。
因此,研究人员改进Self-Forcing的5s视频自回归训练方式,使用全局注意力进行1分钟的流式训练,从而实现更高质量的长视频,此变种命名为LongSANA。并且通过蒸馏去噪步数,实现在H100上仅需35秒即可生成1分钟视频。生成效果如下: ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果