阿里巴巴通义千问 (Qwen) 团队发布博客宣布开源 QwQ-32B 模型,该模型拥有 320 亿个参数,但其性能媲美拥有 6710 亿个参数的 DeepSeek-R1 模型。
在博客中通义千问团队称扩展强化学习 RL 有潜力提升模型性能,超越传统的预训练和后训练方法。最近的研究表明,RL 可以显著提高模型的推理能力,例如 DeepSeek-R1 通过整合冷启动数据和多阶段训练实现了最先进的性能以及深度思考和复杂推理。
在研究探索强化学习的可扩展性及其对增强大型语言模型智能的影响,通义千问团队推出了 QwQ-32B 并且达到与 DeepSeek-R1-671B 的能力。
这个成果也凸显 RL 应用于基于广泛世界知识进行预训练的稳健基础模型时的有效性,通义千问也将代理相关的功能集成到推理模型中,让模型能够在利用工具的同时进行批判性思考,并根据环境反馈调整推理。
QwQ-32B 经过一系列基准测试旨在评估数学推理、代码编写和一般问题的解决能力,从基准测试可以看到该模型在能力方面表现不俗。
另外 QwQ-32B 目前已经在 Apache 2.0 许可证下通过 HuggingFace 和 ModelScope 开源,用户也可以通过 Qwen Chat 平台使用该模型。
以上就是“阿里通义千问团队开源QwQ-32B模型 规模更小但性能媲美DeepSeek-R1-671B”的详细内容,想要了解更多IT资讯欢迎持续关注编程学习网。
扫码二维码 获取免费视频学习资料
- 本文固定链接: http://phpxs.com/post/12901/
- 转载请注明:转载必须在正文中标注并保留原文链接
- 扫码: 扫上方二维码获取免费视频资料
查 看2022高级编程视频教程免费获取