2023年7月,清华大学计算机系PACMAN实验室发布了稀疏大模型训练系统SmartMoE. 这个系统支持用户一键实现Mixture of Experts(MoE)模型分布式训练,并通过自动搜索复杂并行策略来达到领先能. 同时,PACMAN实验室在国际顶级系统会议USENIX ATC’23上发表了长文,这篇论文通讯作者是翟季冬教授,作者包括博士生翟明书和何家傲等. SmartMoE是PACMAN实验室在机器学习系统领域持续深入研究成果之一,它是继FastMoE、FasterMoE和"八卦炉"之后在大模型分布式训练系统上又一次探索。想要了解更多相关成果,可以访问翟季冬教授个人主页.
Mixture of Experts(MoE)是一种模型稀疏化技术,因其高效扩展大模型参数量特而备受研究者关注. 与稠密模型通过增大模型尺寸来扩展不同,MoE技术通过将一个小模型转变为多个稀疏激活小模型实现参数扩展。每个小模型专门处理输入某一部分,并将结果合并以获得最终。由于各个专家在训练时稀疏激活,MoE模型可以在不增加每迭代计算量前提下增加模型参数量,从而有望在相同训练时间内获得更强模型能力。
然而,要实现MoE大模型分布式训练存在一些. 专家并行是业界提出一种解决方案,但在面对稀疏和动态计算模式带来能问题时,仍然存在一定局限. 为了解决这些问题,PACMAN实验室进行了深入研究.
为了提高MoE模型易用和训练能,PACMAN实验室了SmartMoE系统. 该系统是基于PyTorchMoE分布式训练系统开源实现,于2021年初发布了FastMoE系统,训练管理系统成为业界研究热点。进一步,PACMAN实验室在FasterMoE系统中分析并优化了专家并行策略,解决了稀疏和动态计算模式带来能问题。其中,"影子专家"技术缓解了负载不均问题,而通信-计算协同调度算法有效隐藏了all-to-all通信高延迟. FasterMoE成果发表在PPoPP'22国际会议上.
而SmartMoE系统在此基上进一步探索,通过自动搜索复杂并行策略,达到了开源MoE训练系统领先能目标. 它为用户提供了一键式MoE模型分布式训练支持,简化了作流程,提高了使用效率. 通过SmartMoE系统,研究人员和者可以更方便地应用MoE技术进行大规模模型训练,提升模型能和效果.
PACMAN实验室在稀疏大模型训练系统上研究取得了一系列重要成果. 从FastMoE到FasterMoE,再到现在SmartMoE,训练管理系统他们不断推动着MoE技术在分布式训练领域发展. 通过这些系统研究和优化,MoE模型易用和训练能得到了显著提升.
未来,PACMAN实验室将继续深入研究机器学习系统领域,不断探索更多创新方向。我们期待着他们在大规模模型训练和分布式计算方面更多突破,为机器学习技术发展做出更多贡献. .