这里我们又拿腾讯混元视频的“独家艺能”来测试。早在文字生成视频的功能发布后,他们就主推了在画面主角保持不变的情况下自动切镜头的这项功能,当时号称这是业界大部分模型所不具备的能力。
从全球范围来看,在3D生成模型领域,英伟达开源的Cosmos模型通过训练2000万小时视频数据,实现了几何一致性和实时交互的物理仿真;谷歌的Genie 2则利用自回归潜变量扩散模型,构建可交互的3D环境,单图就能生成1分钟动态3D场景。 最受关注的李飞飞创办的World ...
所以,为了直观展示腾讯版Sora的「图生视频」能力,我们直接从这些难题入手。 难题1:是否符合现实物理规律 众所周知,从视频AI诞生至今 ...