编程学习网 > IT圈内 > DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率
2025
03-18

DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率


DeepSeek AI 开源周目前进行到了第三天,今天 DeepSeek 开源名为 DeepGEMM 的通用矩阵乘法库 (GEMM),专门为英伟达 Hopper GPU 上的 AI 训练和推理任务设计。

DeepGEMM 是一个为清洁和高效的 FP8 GEMM 设计的开源库,FP8 是一种低精度格式,提供比传统 FP32 或 FP16 更高的计算吞吐量和更低的内存使用,这对大型 AI 模型至关重要,尤其是设计矩阵乘法的任务。

这个开源库支持普通和混合专家 (MoE) 分组 GEMM,同时也适用于多种 AI 架构,DeepSeek 开源的这些基本都已经在自家模型中使用,属于经过测试和验证后再开源的产品。

在 GitHub 中 DeepSeek 也对 DeepGEMM 进行了详细说明:

DeepGEMM 的实现以简单性和效率而著称,使用 CUDA 编写利用 NVIDIA 的 GPU 编程模型,通过轻量级即时编译模块在运行时编译所有内核,无需在安装旗舰进行编译,这个特点让 DeepGEMM 可以根据特定硬件和输入大小生成高度优化的代码从而提高性能。

这个开源库借鉴了开源项目 CUTLASS 和 CuTe 的概念,但避免了依赖于这些项目的复杂模板或代数,相反 DeepGEMM 设计简单,核心内核函数大约在 300 行左右,从而提高简洁和易用性。

支持多种不同的布局:

DeepGEMM 还支持密集布局和两种 MoE 布局,适用于标准矩阵乘法和专门的 MoE 架构,这些架构被用于大型语音模型中以高效处理稀疏数据。

DeepGEMM 的性能在各种矩阵形状上匹配或超过专家优化库,这对仅 300 行代码的开源库来说是个巨大成就,专家优化内核通常通过技术如循环展开和分块手工优化,针对特定硬件设计,而 DeepGEMM 使用双极累积解决 FP8 精度问题,确保计算的准确性从而提高模型性能。

以上就是“DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率的详细内容,想要了解更多IT资讯欢迎持续关注编程学习网。

扫码二维码 获取免费视频学习资料

Python编程学习

查 看2022高级编程视频教程免费获取