在人工智能生成图像与视频技术迅猛发展的当下,如何让AI精准理解人类输入的文字指令,始终是科研人员攻克的核心难题。近日,由北京大学、西安交通大学、快手科技及中科院联合团队提出的GRAN-TED文本编码器,为破解这一瓶颈提供了创新方案。该研究通过构建新型评估体系与优化训练策略,显著提升了AI对复杂文本的解析能力,相关成果已发表于学术平台,论文编号arXiv:2512.15560v2。
在AI生成图像和视频的热潮中,如何让AI真正理解我们输入的文字描述,一直是研究者们面临的重大挑战。近期,北京大学与西安交通大学、快手科技及中科院的研究团队联合发布了一项颠覆性的成果,推出了名为GRAN-TED的全新文本编码器,旨在解决AI在理解文字描述时的多种“理解偏差”问题。
在AI生成图像和视频的热潮中,有一个关键问题一直困扰着研究者们:如何让AI真正理解我们输入的文字描述?这个看似简单的问题,实际上涉及到整个AI创作流程的核心环节。近日,来自北京大学、西安交通大学、快手科技以及中科院的研究团队发布了一项重要成果,他们开发出名为GRAN-TED的全新文本编码器,专门解决AI在理解文字描述时的各种"理解偏差"问题。这项研究发表于2 ...