因此,研究人员改进Self-Forcing的5s视频自回归训练方式,使用全局注意力进行1分钟的流式训练,从而实现更高质量的长视频,此变种命名为LongSANA。并且通过蒸馏去噪步数,实现在H100上仅需35秒即可生成1分钟视频。生成效果如下: ...