Matrix-Vector Multiplication by Mapreduce.ppt

如何在 LLM 推理中战胜不确定性

矩阵乘法是 LLM 的核心计算，快的关键是把大矩阵切成小 tile（比如 128x128），让 GPU 高效算。原来的问题：批次小的时候，tile切得不一样（比如批次 1 时不用大tile，批次 10 时用大tile），乘法顺序变了，结果差了。解决办法：不管批次大小，都用同一种 “tile ...

一些您可能无法访问的结果已被隐去。