SmartMoE：清华大学PACMAN实验室发布

来源：作者：训练管理系统 2023-08-09 13:10:44

SmartMoE：清华大学PACMAN实验室发布(图1)

2023年7月，清华大学计算机系PACMAN实验室发布了稀疏大模型训练系统SmartMoE. 这个系统支持用户一键实现Mixture of Experts（MoE）模型分布式训练，并通过自动搜索复杂并行策略来达到领先能. 同时，PACMAN实验室在国际顶级系统会议USENIX ATC’23上发表了长文，这篇论文通讯作者是翟季冬教授，作者包括博士生翟明书和何家傲等. SmartMoE是PACMAN实验室在机器学习系统领域持续深入研究成果之一，它是继FastMoE、FasterMoE和"八卦炉"之后在大模型分布式训练系统上又一次探索。想要了解更多相关成果，可以访问翟季冬教授个人主页.

MoE技术背景和

SmartMoE：清华大学PACMAN实验室发布(图2)

Mixture of Experts（MoE）是一种模型稀疏化技术，因其高效扩展大模型参数量特而备受研究者关注. 与稠密模型通过增大模型尺寸来扩展不同，MoE技术通过将一个小模型转变为多个稀疏激活小模型实现参数扩展。每个小模型专门处理输入某一部分，训练管理系统并将结果合并以获得最终。由于各个专家在训练时稀疏激活，MoE模型可以在不增加每迭代计算量前提下增加模型参数量，从而有望在相同训练时间内获得更强模型能力。

然而，要实现MoE大模型分布式训练存在一些. 专家并行是业界提出一种解决方案，但在面对稀疏和动态计算模式带来能问题时，仍然存在一定局限. 为了解决这些问题，PACMAN实验室进行了深入研究.

SmartMoE：稀疏大模型训练系统

SmartMoE：清华大学PACMAN实验室发布(图3)

为了提高MoE模型易用和训练能，PACMAN实验室了SmartMoE系统. 该系统是基于PyTorchMoE分布式训练系统开源实现，于2021年初发布了FastMoE系统，成为业界研究热点。进一步，PACMAN实验室在FasterMoE系统中分析并优化了专家并行策略，解决了稀疏和动态计算模式带来能问题。其中，"影子专家"技术缓解了负载不均问题，而通信-计算协同调度算法有效隐藏了all-to-all通信高延迟. FasterMoE成果发表在PPoPP'22国际会议上.

训练管理系统

而SmartMoE系统在此基上进一步探索，通过自动搜索复杂并行策略，达到了开源MoE训练系统领先能目标. 它为用户提供了一键式MoE模型分布式训练支持，简化了作流程，提高了使用效率. 通过SmartMoE系统，研究人员和者可以更方便地应用MoE技术进行大规模模型训练，训练管理系统提升模型能和效果.

结语

PACMAN实验室在稀疏大模型训练系统上研究取得了一系列重要成果. 从FastMoE到FasterMoE，再到现在SmartMoE，他们不断推动着MoE技术在分布式训练领域发展. 通过这些系统研究和优化，MoE模型易用和训练能得到了显著提升.

未来，PACMAN实验室将继续深入研究机器学习系统领域，不断探索更多创新方向。我们期待着他们在大规模模型训练和分布式计算方面更多突破，为机器学习技术发展做出更多贡献. .

上一篇 : 木垒县开展“夏大练兵”活动，提升司法警下一篇 : 国家体育训练局营养膳食处为健儿提供特美