本文将对Self-Training的流程做一个详细的介绍并使用Python 和Sklearn 实现一个完整的Self-Training示例。 半监督学习结合了标记和未标记的数据,可以扩展模型训练时可用的数据池。我们无需手动标记数千个示例,就可以提高模型性能并节省大量时间和金钱。 如果你 ...
大语言模型(LLM)的自训练(self-training),是验证 Scaling Law 能否继续奏效的关键方法之一。 然而,由于「错误或无用的中间奖励信号」,现有自训练方法通常会产生低质量的微调训练集(如不正确的规划或中间推理),尽管这可能不会影响 LLM 在一些任务中的 ...