Skip to content

MoE模型

MoE 模型: 混合专家模型。

DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练

基本思想: 是将一个复杂的任务分解成多个子任务,每个子任务由一个专门的“专家”(Expert)模型来处理,然后通过一个“门控网络”(Gating Network)来决定如何将这些专家的输出结合起来。

通过动态路由机制将不同的输入分配给不同的专家网络,从而扩展模型的规模而不显著增加计算成本。

核心组成: 专家网络+门控网络

门控网络

门控网络的作用: 是生成一个权重向量,决定每个专家对于当前输入的贡献程度。通常也是一个可训练的神经网络,它根据输入数据动态调整权重。

确保门控网络能够有效地分配任务给专家,避免某些专家被过度使用或完全忽略。

常见的训练技巧包括专家负载均衡(Expert Load Balancing),通过正则化或其他机制来鼓励门控网络平等地利用各个专家。

训练挑战与解决方案

专家负载不均衡:门控网络可能偏向某些专家,导致其他专家未被充分利用。

解决方法:引入负载均衡损失(如 专家利用率正则化)。

训练稳定性:多专家协作可能导致梯度传播复杂化。

解决方法:使用课程学习(Curriculum Learning)逐步增加专家参与度

经典 MoE 变体

Switch Transformer(Google, 2021):仅激活单个专家(“硬路由”),显著降低计算量。支持万亿参数规模,在翻译任务中表现优异。

BASE Layers(Meta, 2022):将 MoE 与稀疏激活结合,提升模型效率。稀疏激活混合专家层

GShard(Google, 2020):分布式 MoE 框架,支持跨设备/服务器的专家并行计算。

优缺点及局限性

优点:模型容量大,能够处理更复杂的任务,同时通过动态路由减少计算资源的浪费;

缺点:训练难度较高,需要更多的数据来训练多个专家,门控机制的设计和调优也比较复杂,可能存在专家之间协作不足或过拟合的问题。

门控决策偏差:若门控网络训练不足,可能导致路由错误,影响整体性能。

通信开销:分布式训练中,专家间的数据交换可能增加延迟。

过拟合风险:专家过多时,小规模数据可能导致某些专家欠拟合

跨模态 MoE

在多模态任务中实现更精细的专家协作