DeepSeek 今天宣布开源适用于 MoE 模型的专家并行通信库 DeepEP,该通信库旨在解决 MoE 模型在训练和推理过程中的通信效率问题。
DeepEP 通信库提供高效的节点内和节点间通信,支持高吞吐量内核和低延迟内核,原生支持 FP8 精度。DeepEP 针对 MoE 和专家并行 (Expert Parallelism,EP) 进行了优化,提高吞吐量和低延迟的 GPU 内核,适用于训练、推理预填充和敏感延迟的推理解码。
MoE 模型是一种神经网络架构,通过多个专家子网络组成,每个输入只激活部分专家子网络,这种设计相比传统全连接网络更加高效,特别是在参数使用和计算资源方面。
目前 MoE 模型在大型语言模型中越来越受欢迎,例如 DeepSeek-V3 使用的就是 MoE 架构,V3 参数总量达到 671B,其中每个 token 激活 37B 参数,DeepSeek 通过 MoE 架构优势可以扩展到更大的模型规模,同时还能保持计算效率,这对于处理复杂的问题非常重要。
DeepEP 通信库的特点:
确保数据在不同专家之间快速交换:无论是同一个节点内还是不同的节点之间都可以快速交换,使用 NVLink 和 RDMA 技术还可以让通信效率显著提升。性能测试显示,在 NVIDIA H800 GPU 上,节点内通信可达 153GB / 秒 (NVLink),节点间通信可达 46GB / 秒 (RDMA)。
高吞吐量内核用于训练和推理预填充:这些内核设计用于快速处理大量数据,特别适合训练阶段和推理的初始阶段,测试显示在 H800 GPU 上,处理 4096 tokens/batch 时,带宽可达 153GB / 秒。
低延迟内核用于推理解码:对于需要实时或快速响应的应用,低延迟内核通过纯 RDMA 技术最小化通信延迟,测试结果显示,处理 128tokens/batch 时,延迟低至 163 微妙,RDMA 带宽为 46GB / 秒。(以上详细数据可参见 DeepSeek DeepEP 开源库主页)
原生的 FP8 精度支持:支持 8 位浮点精度,这可以加速计算并减少内存使用,特别适合大型模型的分布式训练和推理。
灵活的 GPU 资源控制:通过 hook 机制实现计算和通信的重叠,不占用 SM 流式多处理器资源,从而最大化 GPU 的利用率。
DeepEP 要求使用 NVIDIA Hopper GPU、Python 3.8+、CUDA 12.3 + 和 PyTorch 2.1+,节点内通信依赖于英伟达专有的 NVLink 技术,节点间通信依赖 RDMA 技术,网络配置方面已经在 InfiniBand 上测试,理论上兼容 RoCE,支持流量隔离和自适应路由等。
以上就是“DeepSeek开源周2/5:开源DeepEP专家并行通信库 解决MoE模型通信效率问题”的详细内容,想要了解更多IT资讯欢迎持续关注编程学习网。
扫码二维码 获取免费视频学习资料
- 本文固定链接: http://www.phpxs.com/post/12860/
- 转载请注明:转载必须在正文中标注并保留原文链接
- 扫码: 扫上方二维码获取免费视频资料