DeepSeek 疯狂开源周完全回顾

DeepSeek 不仅开源了模型，第一时间公开了训练方法.

上周五，DeepSeek 宣称，将在下周连续开源5个项目库。

DeepSeek on X: “🚀 Day 1 of #OpenSourceWeek: FlashMLA Honored to share FlashMLA - our efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences and now in production. ✅ BF16 support ✅ Paged KV cache (block size 64) ⚡ 3000 GB/s memory-bound & 580 TFLOPS” / X

果不其然，本周一，DeepSeek 开源了生产环境的加速工具：FlashMLA。

Day 1 of #OpenSourceWeek: FlashMLA

Day 1 : FlashMLA

deepseek-ai/FlashMLA

项目地址：https://github.com/deepseek-ai/FlashMLA

FlashMLA 是用C++编写的，针对底层CUDA的优化工具。DeepSeek用了该加速工具之后，阉割版H800的内存带宽接近了H100了。

Achieving up to 3000 GB/s in memory-bound configuration and 580 TFLOPS in computation-bound configuration on H800 SXM5, using CUDA 12.8.

在内存受限的配置下，基于CUDA 12.8，FlashMLA 在 H800 SXM5 上实现高达 3000 GB/s的带宽，而在计算受限的配置下，FlashMLA 的计算性能达到了 580 TFLOPS。

H100 vs H800

H100 和 H800 都是英伟达的GPU，但它们之间有一些关键的区别。 H100是英伟达的旗舰级产品，具有更高的核心数和更快的内存速度，适用于处理大规模计算任务。 H800则是英伟达的中端产品，性能较低，但价格更加亲民，适用于中低端计算任务。

MLA（Multi-Head Latent Attention）多头潜在注意力

DeepSeek 采用了多头潜在注意力（MLA）机制。假设你需要阅读一本百科全书，MLA机制就像是很多个有不同特长的“小助手”，默默的一起帮你阅读。它们分工配合，当读到关于动物的章节时，关注动物图片的小助手，就会更认真的去看相关的图片。关注文字的小助手，会重点看描述动物特征和习性的文字。最后，将多个小助手关注的信息，汇总起来。这样，你就能快速有效的了解这本百科全书。

Day 1 - DeepSeek开源周第一天：FlashMLA框架开源_哔哩哔哩_bilibili

‌Day 2 : DeepEP

deepseek-ai/DeepEP: DeepEP: an efficient expert-parallel communication library

项目地址：https://github.com/deepseek-ai/DeepEP

首个面向MoE（混合专家）模型的开源通信库，支持全对全通信模式与FP8低精度运算调度，通过优化节点间NVLink/RDMA网络传输效率，实现MoE模型训练推理的通信效率飞跃‌。

我们用城市交通做类比。假设城市中的一个个地点，就是一个个计算节点。道路上的汽车就是一个又一个数据。在一座繁华喧闹的城市中，如果没有精心的道路跟完善的交通规则，拥堵和延迟不可避免。DeepEP就像是一套先进的交通系统，旨在最大化效率，确保数据传输的高效性和稳定性。并且，不同于别的计算任务，大模型的训练和推理，尤其需要巨量的数据，在海量的计算节点中来回传输。90%的情况下，数据传输的效率，就是系统的性能瓶颈。DeepEP就是为了解决这个问题而生。

DeepSeek MoE

deepseek-ai/DeepSeek-MoE: DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Transformer的普及让人们误认为提升AI能力就是需要不断的堆设备，堆模型数。这对算力、数据、稳定性都提出了更高的要求，而且推理成本也会居高不下，跑万亿个参数的计算才能算出一个token的速度和成本比较不可观。所以，将若干个模型堆成一个MoE大模型似乎是个必然趋势。

MOE，全称Mixture of Experts，也就是混合专家模型，它的设计理念十分巧妙，就像是组建了一个超级 “专家团队” 。在MOE架构中，有多个不同的专家网络，每个专家都有自己的 “专长领域”，专门负责处理特定类型的任务或数据。比如在处理自然语言时，有的专家擅长理解语法结构，有的则对语义理解更在行。MLA就是在该框架下的技术创新。

DeepSeek重磅开源DeepEP，大模型训练&推理效率暴涨！粉碎算力垄断，重塑MoE模型训练新范式！_哔哩哔哩_bilibili

‌Day 3 : DeepGEMM

deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling

项目地址：https://github.com/deepseek-ai/DeepGEMM

矩阵乘法加速库DeepGEMM，采用细粒度scaling技术，在Hopper GPU上实现1350+ FP8 TFLOPS性能，支持密集布局和MoE分组矩阵运算，显著提升大模型训练效率‌。

DeepGEMM

‌Day 4 : ‌DualPipe‌

deepseek-ai/DualPipe: A bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training.

项目地址：https://github.com/deepseek-ai/DualPipe

双向流水线并行算法，通过计算与通信阶段的重叠，将跨节点通信开销降至近乎为零，减少GPU闲置时间‌；

Dualpipe

双向流水线流程

与传统的受气泡开销影响的流水线并行不同，DualPipe 实现了前向和后向计算-通信阶段的同时进行：

•前向和后向阶段之间的完全同步
•通过双通道处理消除流水线气泡
•优化所有可用设备的资源利用率
•通过高效的梯度处理减少内存占用
•基于计算需求的自适应调度

DualPipe

专家并行负载均衡器 (EPLB)

deepseek-ai/EPLB: Expert Parallelism Load Balancer

在使用专家并行（EP）时，不同的专家会被分配到不同的 GPU 上。由于不同专家的负载可能会根据当前工作负载而变化，因此保持不同 GPU 的负载均衡非常重要。正如 DeepSeek-V3 论文中所述，我们采用了冗余专家策略，即对负载较重的专家进行复制。然后，我们通过启发式方法将复制的专家分配到 GPU 上，以确保不同 GPU 之间的负载均衡。此外，得益于 DeepSeek-V3 中使用的组限专家路由机制，我们还尽可能将同一组的专家放置在同一节点上，以减少节点间的数据流量。

为了便于复现和部署，我们在 eplb.py 中开源了我们部署的 EP 负载均衡算法。该算法基于预估的专家负载计算出一个均衡的专家复制和分配计划。需要注意的是，预测专家负载的具体方法不在本代码库的范围内。常见的方法是使用历史统计数据的移动平均值。

Profiling Data

deepseek-ai/profile-data: Analyze computation-communication overlap in V3/R1.

Profile-Data 提供训练与推理阶段的性能可视化工具，帮助开发者精准定位瓶颈，实现端到端优化。

‌Day 5 : 3FS文件系统 & Smallpond

3FS

deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.

项目地址：https://github.com/deepseek-ai/3FS

‌3FS‌：基于SSD和RDMA网络的并行文件系统，实现180节点集群6.6TiB/s读取吞吐量，单节点KVCache查找峰值超40GiB/s，支持强一致性语义的分布式存储架构‌；

3FS是目前全球唯一大模型分布式文件管理系统，6TiB/s巨量吞吐性能，开辟训练新篇章！

Smallpond

deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and 3FS.

项目地址：https://github.com/deepseek-ai/smallpond

‌Smallpond‌：轻量级数据处理框架，结合DuckDB实现PB级数据管理，覆盖训练数据预处理、检查点保存、向量搜索等全场景‌。

Day 6 : DeepSeek-V3/R1推理系统概述

DeepSeek on X: “🚀 Day 6 of #OpenSourceWeek: One More Thing – DeepSeek-V3/R1 Inference System Overview Optimized throughput and latency via: 🔧 Cross-node EP-powered batch scaling 🔄 Computation-communication overlap ⚖️ Load balancing Statistics of DeepSeek’s Online Service: ⚡ 73.7k/14.8k” / X

DeepSeek-V3/R1

开源周的第六天：还有一件事——DeepSeek-V3/R1推理系统概述

通过以下方式优化吞吐量和延迟：

跨节点EP驱动的批量扩展
计算-通信重叠
负载均衡

DeepSeek在线服务的统计数据：

每个H800节点每秒输入/输出73.7k/14.8k个令牌
成本利润率545%

全文：open-infra-index/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md at main · deepseek-ai/open-infra-index

DeepSeek 开源周总结

此次DeepSeek开源周，6天疯狂开源8个大模型基建项目，覆盖AI训练、推理、并行计算等多个关键领域。被评价为“用软件重新定义算力”，通过算法优化充分榨取硬件性能，在未升级硬件条件下实现训练效率跃升。对比同期OpenAI发布的GPT-4.5（运行成本达DeepSeek-R1的270倍），DeepSeek技术路线展现出显著的性价比优势‌。