
國產模型在代碼與推理項目表現亮眼,性價比突出,這進展值得關注這個領域的同事一起看背景。

中外AI大模型對決結果出爐 事件脈絡與關鍵事實
2026年5月,SuperCLUE公布最新中文大模型綜合測評結果,涵蓋數學推理、科學推理、程式碼生成、智能體任務規劃、精確指令遵循與幻覺控制六大項目,共492道測試題。測評納入21款中外主流AI模型,結果顯示,Gemini、GPT-5.5、Claude-Opus與Gemini-Flash四款海外模型穩居前四名,形成第一梯隊,技術領先地位難以動搖。
國產模型中,DeepSeek-V4-Pro、Qwen3.7-Max與豆包Seed 2.0 Pro表現最佳,分數極為接近,全球排名集中在第五位左右,構成「國產第一集團」。雖然尚未突破前四封鎖,但在多項指標中已逼近國際頂尖水準。例如在程式碼生成項目,Qwen3.7-Max得分僅次於海外頂尖模型,差距不到2分;數學與科學推理也多次進入全球前列。
值得注意的是,國產模型在推理性價比方面優勢明顯,多款產品以較低成本實現接近高階模型的效果。然而在高效能推理表現上,海外模型仍主導高階區間,國產多落在中低效能段,仍有提升空間。整體來看,中國AI大模型正快速追趕,但全球頂尖格局尚未改變。
事實
- SuperCLUE 2026年5月測評涵蓋21款中外主流AI模型,測試題共492道,分六大任務。
- Gemini、GPT-5.5、Claude-Opus、Gemini-Flash位列前四,形成海外第一梯隊。
- 國產最佳三款模型為DeepSeek-V4-Pro、Qwen3.7-Max、豆包Seed 2.0 Pro,全球排名集中在第五位附近。
- 在程式碼生成項目中,Qwen3.7-Max得分僅次於海外頂尖模型,差距不到2分。
- 國產模型在性價比方面表現突出,多款進入高性價比區間,但高效能推理仍落後海外。
Canto 的視覺新聞解說。製作過程可能有 AI 輔助。 編輯政策





