像素扩散模型虽然避开了 VAE,但它要面对的是一个极其复杂的高维空间。在这个空间里,除了我们关心的物体形状、颜色,还充斥着大量的“无效信息”,比如相机的噪声、肉眼不可见的细节。让模型去逐个像素地死磕这些无效信号,不仅浪费算力,还会让训练变得异常困难。
1.舍弃 VAE,预训练语义编码器能让 Diffusion 走得更远吗? 为什么流行的 VAE 是 Diffusion 的瓶颈?舍弃 VAE 的 DiT 有哪些做法?用 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果一些您可能无法访问的结果已被隐去。
显示无法访问的结果