马斯克Grok大模型更新编程能力超越GPT-4 可塞进一部中篇小说

《科创板日报》3月29日讯（编辑宋子乔） 今日，马斯克旗下的xAI团队突然发布了Grok-1.5大模型，新模型的两大重磅更新被甩在产品介绍的封面页——

一、推理性能大幅提升。

Grok-1.5处理编程和数学相关任务的能力全面超越Grok-1、Mistral Large、Claude2。

数学方面，从基准测试的结果来看，Grok-1.5在MATH基准测试中取得了50.6%的得分，在GSM8K基准上，Grok-1.5获得了90%的得分，这两个数学基准测试涵盖了小学基础算术到高中高级数学的竞赛问题。

xAI团队核心成员称：“在从Grok1版本升级到1.5版本的过程中，数学推理能力从24%提升至50%”。

编程方面，Grok-1.5在评估代码生成和解决问题能力的HumanEval基准测试中得分为74.1%，超越了GPT-4。

不过，在MMLU、GSM8K等一系列的基准测试中，Grok1的表现远胜于LLaMA270B，但和Claude2以及GPT-4仍有不小的差距。其中，HumanEval测试是唯一一个显示Grok-1.5超越GPT-4的测试。

二、文本理解能力增强。

Grok-1.5能容纳的上下文长度大大扩展，是Grok-1的16倍，提升到了与GPT-4Turbo相同的档次，能够处理多达128K个token，相当于300页的文本，相当于可以塞进一部中篇小说。

在“大海捞针”（NIAH）测试中，Grok-1.5展示了强大的检索能力，在128Ktoken的上下文中完美检索嵌入的文本：

由于Grok系列是一个规模较大的模型，需要有足够GPU内存进行训练，为了更加灵活地利用基础设施，据官方介绍，Grok1.5采用分布式训练架构，使用Rust、JAX+Kubernetes构建。

为了提高训练可靠性和维持正常运行时间，团队提出了自定义训练协调器，可自动检测到有问题的节点，然后剔除。

除此之外，他们还优化了check pointing、数据加载和训练重启等流程，最大限度地减少故障停机时间。

xAI宣布，Grok-1.5将在未来几天内向早期测试者和𝕏平台上的Grok用户开放。随着Grok-1.5逐步向更广泛的用户推出，未来几天也会推出几项新功能。

此前3月17日，马斯克宣布开源Grok-1，这使得Grok-1成为当前参数量最大的开源大语言模型，拥有3140亿参数，远超OpenAI GPT-3.5的1750亿。

如今不到半个月，马斯克的AI团队便放出更强的Grok-1.5。AI大模型竞争之激烈可见一斑。