正文

阿里凌晨开源新模型：性能对标DeepSeek-R1，参数仅为其1/20|界面新闻 · 科技

admin V管理员 /03-06/147阅读/0评论

0306

文章最后更新时间2025年03月06日，若文章内容或图片失效，请留言反馈！

3月6日凌晨3点，阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B 。阿里巴巴称，这是一款拥有320亿参数的模型，其性能可与具备6710亿参数（其中370亿被激活）的DeepSeek-R1媲美。

据悉，QwQ-32B 在一系列基准测试中进行了评估，测试了数学推理、编程能力和通用能力，并与OpenAI的o1-mini以及DeepSeek满血版及蒸馏版进行了比较。

在测试数学能力的AIME24评测集上，以及评估代码能力的LiveCodeBench 中，千问 QwQ-32B表现与DeepSeek-R1相当，远胜于o1-mini及相同尺寸的R1蒸馏模型。

在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中，千问QwQ-32B的得分均超越了DeepSeek- R1。

官方介绍称，这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外，阿里团队还在推理模型中集成了与Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。

推荐阅读：

科大讯飞刘庆峰：建议加快构建国产算力平台上的自主可控大模型及产业生态 | 两会·民企之声|界面新闻 · 科技

除了性能上的大幅提升，QwQ-32B的另外一个亮点是大幅降低了部署使用成本，开发者和企业可以在消费级硬件上轻松将其部署到本地设备中。

资料显示，从2023年至今，阿里通义团队已开源200多款模型，包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列，覆盖从0.5B到110B等参数，实现了全模态、全尺寸大模型的开源。

开源社区Hugging Face此前的榜单显示，开源仅6天的阿里万相大模型已反超DeepSeek-R1 ，登顶模型热榜、模型空间榜两大榜单，成为近期全球开源社区最受欢迎的大模型。根据最新数据，万相2.1（Wan2.1）在Hugging Face及魔搭社区的总下载量已超百万，在Github的Star数超6k 。

在通义千问最新推理模型发布并开源后，阿里巴巴股价应声大涨。隔夜美股收盘涨8.61%，报收141.03美元。截至发稿，阿里巴巴港股涨超7% 。今年以来，阿里巴巴股价累计涨幅已近70%。

你可能想看：

科技早报 | DeepSeek据悉力求提前发布R2模型；阿里云视频生成大模型万相2.1开源|界面新闻 · 科技

AI早报 | 阿里通义千问站上全球开源模型榜首；DeepSeek新专利公布|界面新闻 · 科技

阿里通义千问站上全球开源模型榜首，杭州公司包揽前三|界面新闻 · 科技

阿里通义千问与DeepSeek开源两款新模型|界面新闻 · 快讯

科技早报 | 阿里发布开源全新模型；Manus被质疑“饥饿营销+套壳炒作”|界面新闻 · 科技

DeepSeek开源生态全面引爆，科技股的重估还会带动哪些相关行业？|界面新闻 · 证券

回顾DeepSeek“开源周”：越是开源，越能扩大生态|界面新闻 · 科技

阿里拟10亿美元投资DeepSeek？相关人士：假消息|界面新闻 · 科技

DeepSeek“开源周”收官，连续五天到底都发布了什么？|界面新闻 · 科技

AI早报 | 中美模型性能差距近乎持平；英伟达被曝已收购前阿里高管创立的Lepton AI|界面新闻 · 科技

-- 展开阅读全文 --

相关阅读

发表评论取消回复

评论列表（暂无评论，147人围观）

还没有评论，来说两句吧...

目录[+]

微信二维码

微信二维码

支付宝二维码