
算力競賽不只比誰買得多,更考驗誰用得聰明。如果身邊有關注AI基礎建設的朋友,可以順手分享給他看看。

55萬張GPU只用11%?馬斯克的算力困境 事件脈絡與關鍵事實
馬斯克旗下的xAI目前運營約55萬顆英偉達H100與H200 GPU,構成全球最龐大的AI運算集群之一,但其模型算力利用率(MFU)僅約11%至36%,意味著實際可用算力僅相當於6萬顆左右的規模。低利用率主因在於超大規模集群中的軟體協調困難、資料傳輸延遲與通訊開銷,導致大量GPU長時間處於閒置等待狀態。此外,AI訓練流程本身的間歇性也加劇了資源浪費。這種現象雖令人驚訝,但在業界並非特例,部分企業甚至會透過重複訓練來「刷高」利用率以保住資源配額。
相較之下,Meta與谷歌透過深度優化的基礎設施,已能將GPU利用率提升至43%與46%,顯示軟體堆疊與系統整合才是發揮硬體潛能的核心。xAI已將目標訂為50%利用率,並聚焦於基礎設施與軟體架構的改進。未來也可能將閒置算力對外租賃,並推動自研晶片「TeraFab」計畫,結合英特爾先進製程,為xAI、SpaceX等業務提供客製化解決方案。
這起案例反映當前AI軍備競賽的轉折:單純堆疊GPU已無法帶來競爭優勢,如何有效調度與運用龐大資源,才是決定技術進展與商業價值的關鍵。隨著AI模型朝「智能體AI」(Agentic AI)發展,對運算架構的靈活性與效率要求將更高,軟體與硬體的協同設計將成為下一階段的主戰場。
事實
- xAI目前運營約55萬顆英偉達H100與H200 GPU,部分採用液冷散熱。
- 其模型算力利用率(MFU)僅約11%,實際效能相當於約6萬顆GPU。
- Meta與谷歌的GPU利用率分別達43%與46%,顯示軟體優化差距。
- 低利用率主因是超大規模集群中的資料傳輸延遲與通訊瓶頸。
- xAI已設定50%利用率目標,並推動自研晶片TeraFab計畫。
- 未來可能將閒置算力對外租賃,以提升資源效益。
Canto 的視覺新聞解說。製作過程可能有 AI 輔助。 編輯政策

