3月6日凌晨3点,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B 。阿里巴巴称 ,这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。
据悉,QwQ-32B 在一系列基准测试中进行了评估 ,测试了数学推理 、编程能力和通用能力,并与OpenAI的o1-mini以及DeepSeek满血版及蒸馏版进行了比较。
在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench 中,千问 QwQ-32B表现与DeepSeek-R1相当 ,远胜于o1-mini及相同尺寸的R1蒸馏模型 。
在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek- R1。
官方介绍称,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外 ,阿里团队还在推理模型中集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
除了性能上的大幅提升 ,QwQ-32B的另外一个亮点是大幅降低了部署使用成本,开发者和企业可以在消费级硬件上轻松将其部署到本地设备中 。
资料显示,从2023年至今,阿里通义团队已开源200多款模型 ,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列,覆盖从0.5B到110B等参数,实现了全模态 、全尺寸大模型的开源。
开源社区Hugging Face此前的榜单显示,开源仅6天的阿里万相大模型已反超DeepSeek-R1 ,登顶模型热榜、模型空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。根据最新数据,万相2.1(Wan2.1)在Hugging Face及魔搭社区的总下载量已超百万 ,在Github的Star数超6k 。
在通义千问最新推理模型发布并开源后,阿里巴巴股价应声大涨。隔夜美股收盘涨8.61%,报收141.03美元。截至发稿 ,阿里巴巴港股涨超7% 。今年以来,阿里巴巴股价累计涨幅已近70%。
科技早报 | DeepSeek据悉力求提前发布R2模型;阿里云视频生成大模型万相2.1开源|界面新闻 · 科技
科技早报 | 阿里发布开源全新模型;Manus被质疑“饥饿营销+套壳炒作”|界面新闻 · 科技
李彦宏态度反转,百度文心一言免费后还要开源下一代模型|界面新闻 · 科技
阿里拟10亿美元投资DeepSeek?相关人士:假消息|界面新闻 · 科技
大模型开源卷至视频生成领域:阿里开源万相2.1,性能超Sora|界面新闻 · 科技
DeepSeek开源生态全面引爆,科技股的重估还会带动哪些相关行业?|界面新闻 · 证券
工信部:三家电信运营商企业已全面接入DeepSeek开源大模型|界面新闻 · 科技
自称是“小团队”的DeepSeek下周起再开源5个代码库|界面新闻 · 科技
还没有评论,来说两句吧...