尽管出于RT的限制我们没有选择EP,但如果我们能解决通信问题,EP仍然是一个诱人的方案。在传统的LLM推理中,因为专家权重单张卡放不下,EP往往会将多个expert的权重分布在不同的卡上,并且通过EPLB来平衡各张卡之间的计算量。而我们的场景下模型尺 ...