MoE模型

MoE 模型: 混合专家模型。

DeepSeek-V3 为自研 MoE 模型，671B 参数，激活 37B，在 14.8T token 上进行了预训练

基本思想: 是将一个复杂的任务分解成多个子任务，每个子任务由一个专门的“专家”（Expert）模型来处理，然后通过一个“门控网络”（Gating Network）来决定如何将这些专家的输出结合起来。

通过动态路由机制将不同的输入分配给不同的专家网络，从而扩展模型的规模而不显著增加计算成本。

核心组成: 专家网络+门控网络

门控网络

门控网络的作用: 是生成一个权重向量，决定每个专家对于当前输入的贡献程度。通常也是一个可训练的神经网络，它根据输入数据动态调整权重。

确保门控网络能够有效地分配任务给专家，避免某些专家被过度使用或完全忽略。

常见的训练技巧包括专家负载均衡（Expert Load Balancing），通过正则化或其他机制来鼓励门控网络平等地利用各个专家。

专家负载不均衡：门控网络可能偏向某些专家，导致其他专家未被充分利用。

解决方法：引入负载均衡损失（如 专家利用率正则化）。

训练稳定性：多专家协作可能导致梯度传播复杂化。

解决方法：使用课程学习（Curriculum Learning）逐步增加专家参与度

Switch Transformer（Google, 2021）：仅激活单个专家（“硬路由”），显著降低计算量。支持万亿参数规模，在翻译任务中表现优异。

BASE Layers（Meta, 2022）：将 MoE 与稀疏激活结合，提升模型效率。稀疏激活混合专家层

GShard（Google, 2020）：分布式 MoE 框架，支持跨设备/服务器的专家并行计算。

优点：模型容量大，能够处理更复杂的任务，同时通过动态路由减少计算资源的浪费；

缺点：训练难度较高，需要更多的数据来训练多个专家，门控机制的设计和调优也比较复杂，可能存在专家之间协作不足或过拟合的问题。

门控决策偏差：若门控网络训练不足，可能导致路由错误，影响整体性能。

通信开销：分布式训练中，专家间的数据交换可能增加延迟。

过拟合风险：专家过多时，小规模数据可能导致某些专家欠拟合

在多模态任务中实现更精细的专家协作