AI 智能指数

SuperCLUE 2026 · 24 模型 · 6 维度

当前: Claude Opus 4.6VS
模型 (24)
Claude Opus 4.677.0
Gemini 3.1 Pro76.7
GPT-5.472.5
Doubao Seed 2.0 Pro71.5
DeepSeek V4 Pro71.0
Gemini 3 Flash68.8
DeepSeek V4 Flash68.8
Grok 4.2066.1
Kimi K2.564.6
Qwen 3.5 Think64.5
GLM-564.3
DeepSeek V3.261.9
MiMo V2 Pro60.7
Tencent HY 2.059.2
Qwen 3.5 122B58.5
LongCat Flash57.5
GPT-OSS 120B57.1
Step 3.5 Flash56.2
MiniMax M2.556.0
MiniMax M2.755.7
Spark X252.8
MiMo V2 Flash50.0
Mistral Large 341.1
Llama 4 Maverick36.7
Claude Opus 4.6
🏆 数学推理 85.71🏆 幻觉控制 82.95🏆 科学推理 85.37 指令遵循 47.57 代码生成 71.15🏆 智能体 89.35
77.0
SuperCLUE总分 /100
Anthropic
Claude Opus 4.6是Anthropic公司于2025年发布的最新一代旗舰大语言模型,代表了该公司在AI安全与能力平衡方面的最新技术成果。作为Claude系列中性能最强的型号,Opus 4.6在多个关键维度上实现了显著突破。 在核心能力方面,Opus 4.6的上下文窗口扩展至200K tokens,能够一次性处理约15万个英文单词或同等长度的中文内容,相当于三本《三体》体量的长篇小说。在MMLU(大规模多任务语言理解)基准测试中,Opus 4.6得分达到90.8%,较前代Opus 3.5提升约3个百分点;在GSM8K数学推理测试中准确率突破96%;在HumanEval代码生成测试中通过率达到93.5%。这些数据表明,该模型在知识问答、逻辑推理和编程任务上均达到行业顶尖水平。 技术亮点上,Opus 4.6采用了Anthropic独有的Constitutional AI(宪法式A
🌐 访问官网

📊 总分排名

0
20
40
60
80
100
77
77
72
72
71
69
69
66
65
64
64
62
61
59
59
57
57
56
56
56
53
50
41
37
Claude
Gemini
GPT-5.4
Doubao
DeepSeek
Gemini
DeepSeek
Grok
Kimi
Qwen
GLM-5
DeepSeek
MiMo
Tencent
Qwen
LongCat
GPT-OSS
Step
MiniMax
MiniMax
Spark
MiMo
Mistral
Llama

数学推理

0
20
40
60
80
100
92
89
89
87
86
86
86
85
85
84
82
82
Gemini
DeepSeek
GPT-5.4
DeepSeek
Claude
Gemini
Grok
Doubao
Qwen
MiMo
Qwen
Kimi

幻觉控制

0
20
40
60
80
100
87
85
84
83
82
81
81
79
78
78
77
76
GLM-5
GPT-5.4
Qwen
Claude
Gemini
DeepSeek
Gemini
Doubao
Grok
Kimi
DeepSeek
Tencent

科学推理

0
20
40
60
80
100
85
84
82
82
80
79
79
78
76
75
74
73
Claude
GPT-5.4
Gemini
Gemini
Doubao
DeepSeek
DeepSeek
Grok
Qwen
GLM-5
MiMo
DeepSeek

指令遵循

0
20
40
60
80
100
57
48
44
39
38
36
32
32
26
25
21
19
Gemini
Claude
GPT-5.4
Doubao
DeepSeek
Gemini
DeepSeek
Grok
DeepSeek
GLM-5
GPT-OSS
Qwen

代码生成

0
20
40
60
80
100
71
70
66
64
64
63
61
60
60
59
58
58
Claude
Gemini
Kimi
Gemini
Doubao
DeepSeek
DeepSeek
DeepSeek
MiMo
MiniMax
GLM-5
Tencent

智能体

0
20
40
60
80
100
89
81
80
79
78
77
75
72
68
67
67
66
Claude
Doubao
GPT-5.4
Gemini
Kimi
DeepSeek
DeepSeek
Qwen
LongCat
Grok
GLM-5
MiniMax

数据来源:SuperCLUE (superclueai.com) · 测评日期:2026年3月-4月

鸣谢 SuperCLUE 团队为中文大模型评测所做的贡献。

如涉及版权或侵权问题,请联系管理员:wangtao4059371@gmail.com