Skip to content

DeepSeek-开源周

image-20250324210105606

3FS:专为AI设计的并行文件系统,通过RDMA网络直连SSD实现超低延迟数据访问,支持强一致性分布式存储。

Smallpond:基于DuckDB的轻量级数据处理框架,依托3FS实现PB级数据「无服务器化」处理,支持Python极简操作。

**DeepEP:**专为专家并行(EP)策略设计的开源通信库,旨在优化MoE模型训练与推理中的GPU间数据调度,可用于解决传统分布式训练中因通信延迟导致的算力浪费问题。

DualPipe:通过双向流水线设计,实现前向计算与反向传播的完全重叠,减少传统流水线并行中的"气泡"闲置时间。

EPLB:可动态调整专家模型在GPU间的分配,通过冗余专家复制策略,将高负载专家智能分配到空闲GPU,实现跨节点流量降低20%

**FlashMLA:**针对Hopper架构GPU(如H800)优化的高效多层注意力(MLA)解码内核,专为处理变长序列推理任务而生,通过动态调度与内存优化技术,显著提升大模型推理效率。

**DeepGEMM:**一款专为FP8高效矩阵计算设计的开源库。