矩阵乘法是 LLM 的核心计算,快的关键是把大矩阵切成小 tile(比如 128x128),让 GPU 高效算。原来的问题:批次小的时候,tile切得不一样(比如批次 1 时不用大tile,批次 10 时用大tile),乘法顺序变了,结果差了。解决办法:不管批次大小,都用同一种 “tile ...