大语言模型在移动设备上的高效处理面临内存限制,本文提出基于BSP GPU编程模型的CA-Scheduler调度方案,通过预判SSD存储位置和优化线程块工作顺序减少内存冲突,提升GPU-SSD协同吞吐量。 摘要: 随着大规模语言模型(LLM)数据集规模的不断扩大,低成本固态硬盘 ...