一組中外AI模型排名示意圖,海外四強佔據前四,三款國產模型緊接其後競爭第五名
一組中外AI模型排名示意圖,海外四強佔據前四,三款國產模型緊接其後競爭第五名

國產模型在代碼與推理項目表現亮眼,性價比突出,這進展值得關注這個領域的同事一起看背景。

中外AI大模型對決結果出爐 事件脈絡與關鍵事實

2026年5月,SuperCLUE公布最新中文大模型綜合測評結果,涵蓋數學推理、科學推理、程式碼生成、智能體任務規劃、精確指令遵循與幻覺控制六大項目,共492道測試題。測評納入21款中外主流AI模型,結果顯示,Gemini、GPT-5.5、Claude-Opus與Gemini-Flash四款海外模型穩居前四名,形成第一梯隊,技術領先地位難以動搖。

國產模型中,DeepSeek-V4-Pro、Qwen3.7-Max與豆包Seed 2.0 Pro表現最佳,分數極為接近,全球排名集中在第五位左右,構成「國產第一集團」。雖然尚未突破前四封鎖,但在多項指標中已逼近國際頂尖水準。例如在程式碼生成項目,Qwen3.7-Max得分僅次於海外頂尖模型,差距不到2分;數學與科學推理也多次進入全球前列。

值得注意的是,國產模型在推理性價比方面優勢明顯,多款產品以較低成本實現接近高階模型的效果。然而在高效能推理表現上,海外模型仍主導高階區間,國產多落在中低效能段,仍有提升空間。整體來看,中國AI大模型正快速追趕,但全球頂尖格局尚未改變。

事實

  • SuperCLUE 2026年5月測評涵蓋21款中外主流AI模型,測試題共492道,分六大任務。
  • Gemini、GPT-5.5、Claude-Opus、Gemini-Flash位列前四,形成海外第一梯隊。
  • 國產最佳三款模型為DeepSeek-V4-Pro、Qwen3.7-Max、豆包Seed 2.0 Pro,全球排名集中在第五位附近。
  • 在程式碼生成項目中,Qwen3.7-Max得分僅次於海外頂尖模型,差距不到2分。
  • 國產模型在性價比方面表現突出,多款進入高性價比區間,但高效能推理仍落後海外。

Canto 的視覺新聞解說。製作過程可能有 AI 輔助。 編輯政策