这项由南京大学和伦敦大学学院联合开展的研究发表于2026年,论文编号为arXiv:2602.05892v2,为理解和评估大型语言模型在编程任务中的表现提供了全新视角。