主题
MoE架构
通过动态路由机制,在每次推理或训练
中仅激活部分专家网络,实现了参数量与计算效率的有机结合,从而在大规模模型中实现参数规模的扩展,而不会显著增加计算开销
。
动态路由
主要任务是根据输入数据的特性,选择合适的专家网络进行计算
(1)输入特征分析:根据输入数据的特征,通过路由网络(通常为一个小型神经网络)生成每个专家的激活概率
。
(2)专家选择:根据激活概率,选取一部分专家网络参与当前输入的计算。
(3)专家计算:被激活的专家网络对输入数据进行处理,生成特定的输出结果。
(4)结果聚合:将多个专家网络的输出结果按照权重进行聚合
,生成最终的输出。
DeepSeek-V3的创新点
(1)超大规模专家网络:DeepSeek-V3包含数千个专家网络,每个专家针对特定任务或特定输入特征进行了优化,从而实现了极高的表达能力。
(2)动态专家分配:通过高效的路由网络,DeepSeek-V3能够根据输入的特性动态选择合适的专家,从而在不同任务中展现出极高的适应性。
(3)高效的稀疏激活:在每次计算中,DeepSeek-V3仅激活少量(如2~4个)专家网络,大幅减少了实际计算量和显存消耗。
(4)分布式训练优化:DeepSeek-V3将不同的专家网络分布到多个计算节点,通过高效的通信策略实现了分布式环境下的快速训练,全过程训练成本如表2-1所示,包括预训练,扩展训练及后训练等步骤。