卷积神经网络(CNNs)[1]、[2]、[3]、[4]、[5]、[6]在计算机视觉领域取得了显著进展,成为许多应用的主流技术。近年来,受到自然语言处理(NLP)成功的启发,基于自注意力的Transformer模型[7]被引入计算机视觉领域,并展示了出色的性能。尽管ViT[8]及其变体[9]、[10 ...