2026年4月AI大模型排名:谷歌登顶,国产模型全面崛起
如果你最近还在用半年前选定的AI模型做业务,可能要重新看一看了。
Artificial Analysis 每72小时更新一次的 LLM 排行榜,目前已收录 317 个模型。这张榜单不是看论文发表数量,也不靠厂商自报,而是从实际 API 调用中采集智能指数、响应速度、成本和延迟这几个维度的实测数据。换句话说,它大致反映了”花钱买到的模型到底怎么样”。
智能指数前五,格局已经变了
排行榜的核心是”智能指数(Intelligence Index)”,满分不限,越高越好。截至2026年4月,前五名是:
Gemini 3.1 Pro Preview(谷歌,57分)和 GPT-5.4 xhigh(OpenAI,57分)并列第一,两家打了个平手。第三是 GPT-5.3 Codex xhigh(OpenAI,54分),第四是 Claude Opus 4.6 max(Anthropic,53分),第五是 Meta 的 Muse Spark(52分)。
值得注意的是,谷歌这次是真正意义上的第一次登顶。过去几年 GPT 系列几乎是这类榜单的常客,而 Gemini 3.1 Pro 以实测分数追平 GPT-5.4,说明谷歌在推理能力上已经补上了短板。
Anthropic 的 Claude Opus 4.6 位居第四,但它的定价是每百万 token 10 美元,在头部模型里属于偏贵的。Claude Sonnet 4.6 max 以52分紧随其后,性价比稍好一些(6美元/百万token)。

速度榜:谁响应最快
如果说智能指数是”聪不聪明”,那输出速度决定的是”能不能用”。
目前最快的是 Inception 的 Mercury 2,实测达到 874 tokens/秒,远超其他模型。第二是 IBM 的 Granite 4.0 H Small(485 t/s),第三是 Granite 3.3 8B(375 t/s)。
这个速度意味着什么?普通阅读速度大约是每秒4~5个汉字,一个874 t/s 的模型,用来做实时对话完全感觉不到等待。相比之下,Claude Opus 4.6 的速度是44 t/s,差了将近20倍,但它要解决的问题类型本来就不一样。
延迟方面(首字符时间),阿里的 Qwen3.5 2B 和 Qwen3.5 0.8B 做到了最低延迟,非常适合需要快速响应的实时场景。
最便宜的模型在哪里
价格维度,阿里的 Qwen3.5 0.8B 系列拿下了最便宜的席位,仅需 $0.02/百万token,基本等于白送。紧随其后是 Google 的 Gemma 3n E4B($0.03)和 Qwen3.5 2B($0.04)。
DeepSeek V3.2 的价格是 $0.32/百万token,在同等智能指数水平(42分)的模型里属于性价比极高的选择。相比之下,OpenAI 的 GPT-5.4 Pro xhigh 要收 $67.5/百万token,算是榜单里最贵的,适合对精度要求极高、成本不敏感的场景。
开源模型:国产已经站上主力位置
榜单共有 196 个开源(开放权重)模型,占总数超过60%。
开源模型排名第一的是 GLM-5.1,由智谱 AI(Z AI)发布,智能指数51分,收费仅 $2.15/百万token。这是中国模型第一次在此类国际榜单的开源分类中拿到第一。GLM-5(50分)紧接其后,Kimi K2.5 以47分位列第三。
除此之外,阿里的 Qwen 系列在这张榜单上几乎占据了速度、价格、小尺寸模型的多个细分第一,出现频率相当高。国内还有小米 MiMo-V2-Pro(49分)、DeepSeek V3.2(42分)、百度 ERNIE 5.0、字节跳动 Doubao Seed Code 等多个模型上榜。
一些值得关注的细节
首先是上下文窗口的分化。Meta 的 Llama 4 Scout 和 xAI 的 Grok 4.1 Fast 支持高达 1000万 token 的上下文,而大多数模型在 128k~256k 之间。对于需要处理超长文档或代码库的应用场景,这个差距会直接影响选型。
其次是推理模型(Reasoning Model)的比例越来越高,目前榜单上有159个推理模型,超过总数的一半。这类模型在输出前会进行”思维链”扩展,在数学、逻辑、代码等任务上表现明显更好,但同时延迟也更高——适不适合用,取决于业务场景对实时性的要求。
还有一个趋势值得留意:越来越多的模型开始追求”小而快”而不是”大而全”。Qwen3.5 0.8B、Ministral 3B、Phi-4 Mini 这些模型在特定任务上的表现已经相当可用,部署成本却低出一个数量级。
怎么选模型
这张榜单的意义不是告诉你”用最贵的就行”,而是帮你找到你实际需求对应的最优解。
如果你要做复杂推理、深度研究,Gemini 3.1 Pro 或 GPT-5.4 是当前上限。如果是日常对话、内容生成类的业务,Claude Sonnet 4.6 或 DeepSeek V3.2 的性价比更好。如果对速度和成本都很敏感,Qwen3.5 系列几乎是现在最省钱的选择。
需要补充的是,智能指数反映的是综合推理能力,并不等于”对你的业务有用”。具体任务还是要自己跑 benchmark,或者找专门的测评服务验证。榜单是参考,不是答案。