登顶开源大模型榜首阿里Qwen3成色如何？|聚焦

《科创板日报》5月1日讯（记者黄心怡）阿里巴巴在“五一”节前开源新一代通义千问模型Qwen3，而且一口气开源了 8 个版本。

阿里千问大模型官网用“思深，行速”来描述Qwen3，是指Qwen3 是中国公司推出的首个混合推理模型，在同一个模型中融合了 “推理” 和 “非推理” 模式，可以根据不同问题选择 “快、慢思考”。

最新数据显示，阿里Qwen 系列大模型已被累计下载 3 亿次，基于 Qwen 的衍生模型数量超 10 万个，为全球第一。Qwen3 发布也引来众多开发者的使用和测评。

Qwen3 提供了不同参数的模型版本，包含2款30B、235B的MoE模型，以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型。阿里方面称，千问3的30B参数MoE模型仅激活3B就能达到上代Qwen2.5-32B模型性能，而千问3的稠密模型比如32B版本的千问3模型，可超越上一代Qwen2.5-72B性能。

多名开发者告诉《科创板日报》记者，此次发布的千问3系列中的小参数量模型表现突出。“32B模型表现突出，小参数量跑出了优秀的效果，对大模型应用研发人员或公司来说是福利。毕竟大参数量还是成本太高。目前来看32B性价比最高，235B感觉相比千问2.5提升不太大，而32B能跑出目前效果确实很不错了。”

有业内人士推测，千问3选择在小参数模型发力，主要是为了苹果生态而准备。此前，阿里董事局主席蔡崇信确认了回应阿里与苹果在手机上合作落地AI的传闻。而今年4月的最新消息称，苹果果正积极推进在国行版iPhone上引入AI功能的计划，并计划于2025年中期前登陆国行iPhone。

▍并非全面碾压DeepSeek R1

尽管Qwen3发布后，有媒体报道其性能全面碾压同样开源的DeepSeek R1 。但《科创板日报》记者注意到，每家大模型公司在公布自己大模型的测评数据时，可能用的都是不同的指标，或者只公布自己得分高的测评测试。因此，比较公立的第三方测评比较有说服力。

著名华裔AI学者吴恩达的公司Artificial Analysis对包括Qwen3和DeepSeek R1在内的大模型测试显示，Qwen3只是在某些指标上超越DeepSeek R1，并非全面碾压。

在“GPQA 钻石：博士级多学科”项目测试中，Qwen3 235B测试结果70分，和 DeepSeek R1 的 71分成绩接近；在“LiveCodeBench：编码能力”项目测试中，Qwen3 235B测试结果：71分，高于 DeepSeek R1 的 62分成绩；在“MATH-500：高难度数学”项目测试中， Qwen3 235B测试结果93分，低于 DeepSeek R1 的 97分成绩; 在“MMLU：通用知识基准” Qwen3 235B测试结果83分，接近 DeepSeek R1 的 84分成绩；在“AIME2024：数学推理中等挑战，泛化能力参考”项目测试中，Qwen3 235B测试结果84分，高于 DeepSeek R1 的 68分成绩。

因此，业内普遍的看法是，总体看Qwen3推理模型整体表现略好于R1，但相比R1也不算有太大突破，还称不上“全面碾压”。

▍小参数模型远超预期

另一名开发者告诉《科创板日本》记者，此次千问3系列的超大参数模型不及预期，但小参数的模型远超预期。“4B模型在数学能力上属实惊到我了。”

小参数量模型的特点是能够主要用于端侧部署，比如4B模型可用于手机端，8B可在电脑和汽车端侧，32B可用于企业大规模部署，也适合有条件的开发者上手。

开放传神（OpenCSG）联合创始人陈冉认为，通义大模型的出现充分验证大模型领域金律“模型天天变，不变的是数据沉淀“，也再次证明开源是技术创新的压箱石。技术上，还在继续努力推进，目标还是降本增效，种类齐全，但核心创新点还有待观察。

《科创板日报》记者注意到，在千问3发布后，上下游供应链第一时间进行适配和调用。英伟达、英特尔、联发科、AMD等多家头部芯片厂商纷纷适配千问3。

《科创板日报》记者从英特尔方面获悉，英特尔在车端舱内对新发布的千问3系列模型，也已经完成匹配。国产芯片厂商海光信息则宣布其DCU完成对Qwen3全部8款模型的适配+调优，覆盖235B、32B、30B、14B、8B、4B、1.7B、0.6B各种参数。

随着算力成本的降低和性能的提升，业内分析普遍认为，千问3为即将到来的智能体Agent和大模型应用爆发提供了更好的支持。阿里云智能集团副总裁霍嘉在接受《科创板日报》采访时表示，“模型推理模型能力不断提高，使得当前在业内有共识，今年会是 AI应用爆发的真正元年。

▍通用Agent在工程和技术两个方面仍面临挑战

华创证券在评价千问3大模型时称， Agent训练与落地成为了 AI+ 叙事的下一重心。天风证券认为，AI Agent市场规模有望超万亿，通义千问已发布多行业垂直生态体系，有望成为B端Agent链主。

《科创板日报》注意到，在第八届数字中国建设峰会期间，中国一汽正式发布企业智能体OpenMind。这是汽车行业首个面向全集团运营管理的AI Agent，正是基于阿里通义大模型打造。

此外，中国电信、蚂蚁集团等也纷纷发布了智能体相关平台，以加速AI Agent在政务、金融等领域落地：中国电信正式发布星辰行业Agent平台；蚂蚁数科则发布了面向金融机构发布智能体开发平台Agentar。

不过，通用Agent在工程和技术模型两个方面仍面临挑战。一名业内人士表示，“实际上能够处理通用或复杂任务的并不多。这些产品要么不够通用，要么无法应对复杂的任务。”

阿里云 CTO 和通义实验室负责人周靖人近日在接受媒体采访时透露，今年在大模型领域，相对确定的进展是两个主线，一是模型能力上，会继续在类人思考和多模态上有提升；二是模型和底层云计算系统会更深度结合，能同时提升训练和推理效率，让模型更好用、更普及。

在谈及DeepSeek R1时，周靖人表示，DeepSeek看起来有算力、有 Infra 层、有模型，但不构成一个完整的云服务。"我们的一个核心认知是，大模型发展和云体系的支撑不可分割。”

谈及国外内大模型竞争对手的你追我赶，他认为，市场空间很大，欢迎一起来推动 AI 产业的发展。至于谁领先，他说：

“还是看市场反馈，把选择权留给客户。”