AI 智能指数

SuperCLUE 2026 · 24 模型 · 6 维度

当前: Claude Opus 4.6VS

模型 (24)

Claude Opus 4.677.0

Gemini 3.1 Pro76.7

GPT-5.472.5

Doubao Seed 2.0 Pro71.5

DeepSeek V4 Pro71.0

Gemini 3 Flash68.8

DeepSeek V4 Flash68.8

Grok 4.2066.1

Kimi K2.564.6

Qwen 3.5 Think64.5

GLM-564.3

DeepSeek V3.261.9

MiMo V2 Pro60.7

Tencent HY 2.059.2

Qwen 3.5 122B58.5

LongCat Flash57.5

GPT-OSS 120B57.1

Step 3.5 Flash56.2

MiniMax M2.556.0

MiniMax M2.755.7

Spark X252.8

MiMo V2 Flash50.0

Mistral Large 341.1

Llama 4 Maverick36.7

Claude Opus 4.6

🏆 数学推理 85.71🏆 幻觉控制 82.95🏆 科学推理 85.37 指令遵循 47.57 代码生成 71.15🏆 智能体 89.35

77.0

SuperCLUE总分 /100

Anthropic

Claude Opus 4.6是Anthropic公司于2025年发布的最新一代旗舰大语言模型，代表了该公司在AI安全与能力平衡方面的最新技术成果。作为Claude系列中性能最强的型号，Opus 4.6在多个关键维度上实现了显著突破。在核心能力方面，Opus 4.6的上下文窗口扩展至200K tokens，能够一次性处理约15万个英文单词或同等长度的中文内容，相当于三本《三体》体量的长篇小说。在MMLU（大规模多任务语言理解）基准测试中，Opus 4.6得分达到90.8%，较前代Opus 3.5提升约3个百分点；在GSM8K数学推理测试中准确率突破96%；在HumanEval代码生成测试中通过率达到93.5%。这些数据表明，该模型在知识问答、逻辑推理和编程任务上均达到行业顶尖水平。技术亮点上，Opus 4.6采用了Anthropic独有的Constitutional AI（宪法式A

🌐 访问官网

📊 总分排名

100

Claude

Gemini

GPT-5.4

Doubao

DeepSeek

Gemini

DeepSeek

Grok

Kimi

Qwen

GLM-5

DeepSeek

MiMo

Tencent

Qwen

LongCat

GPT-OSS

Step

MiniMax

Spark

MiMo

Mistral

Llama

数学推理

100

Gemini

DeepSeek

GPT-5.4

DeepSeek

Claude

Gemini

Grok

Doubao

Qwen

MiMo

Qwen

Kimi

幻觉控制

100

GLM-5

GPT-5.4

Qwen

Claude

Gemini

DeepSeek

Gemini

Doubao

Grok

Kimi

DeepSeek

Tencent

科学推理

100

Claude

GPT-5.4

Gemini

Doubao

DeepSeek

Grok

Qwen

GLM-5

MiMo

DeepSeek

指令遵循

100

Gemini

Claude

GPT-5.4

Doubao

DeepSeek

Gemini

DeepSeek

Grok

DeepSeek

GLM-5

GPT-OSS

Qwen

代码生成

100

Claude

Gemini

Kimi

Gemini

Doubao

DeepSeek

MiMo

MiniMax

GLM-5

Tencent

智能体

100

Claude

Doubao

GPT-5.4

Gemini

Kimi

DeepSeek

Qwen

LongCat

Grok

GLM-5

MiniMax

数据来源：SuperCLUE (superclueai.com) · 测评日期：2026年3月-4月

鸣谢 SuperCLUE 团队为中文大模型评测所做的贡献。

如涉及版权或侵权问题，请联系管理员：wangtao4059371@gmail.com