
智谱早前发布并开源新旗舰模型 GLM-5,该模型在编码、智能体和聊天方面的表现都非常出色,并且 GLM-5 提供更大的上下文窗口可以进行内容推理。
得益于开源的优势,人工智能团队 Unsloth AI 与智谱合作对模型进行转换,该团队使用动态 2 位 GGUF 模型将 GLM-5 从 1.65TB 压缩到 241GB,动态 1 位则压缩到 176GB。
完整版的 GLM-5 包含高达 744B 参数 (采用 MoE 混合专家架构活跃参数为 40B),上下文窗口为 200K,模型通过 28.5 万亿个 token 上进行训练,完整版的 GLM-5 就需要 1.65TB 磁盘空间。
经过转化后的模型能做什么呢?答案是可以在内存或显存超大的本地设备上运行,Unsloth AI 称开发者可以在拥有 256GB 统一内存的 Mac 设备上运行该模型。
概念拆解:存储、内存与显存
存储即硬盘空间,这是用来当作模型仓库使用的,也就是需要至少 241GB 硬盘空间
内存主要用来临时存储数据,当模型运行时数据会从硬盘加载到内存里随时调用
显存主要是用来计算的,这也是模型实际运行时需要的最基础的硬件资源
GLM-5 压缩版实际需要的运行方案:
方案 1:使用统一内存的 Mac 设备 要求:统一内存至少为 256GB
方案 2:使用 24GB 显存的显卡 + 256GB 内存,普通 PC
方案 3:如果只有 128GB 内存,由于内存不足会频繁触发硬盘交换,导致推理速度呈断崖式下跌,失去交互式的实用价值。
所以这个团队推荐的最佳配置是:
如果跑动态 2 位版 (241GB):至少需要 256GB 的总内存 (内存 + 显存)
如果跑动态 1 位版 (180GB):至少需要 192GB 的总内存 (内存 + 显存)
如果跑动态 8 位版 (805GB):那你需要使用拥有 1TB 内存的顶级工作站
以上就是“有团队将智谱GLM-5从1.65TB压缩到241GB 256GB(内存+显存)即可在本地跑模型”的详细内容,想要了解更多Python教程欢迎持续关注编程学习网。
扫码二维码 获取免费视频学习资料

- 本文固定链接: http://phpxs.com/post/13994/
- 转载请注明:转载必须在正文中标注并保留原文链接
- 扫码: 扫上方二维码获取免费视频资料