当大模型动辄需要数万亿token训练时,Mistral AI却用一种巧妙的"级联蒸馏"方法,仅用1-3万亿token就训练出了性能媲美主流模型的小型语言模型家族。这就是Ministral 3系列——一个包含3B、8B、14B三种规模,每种规模又有基础版、指令版、推理版共9个模型的完整体系。