兩位科學家在擂台上對峙,背景是Transformer架構與新AI模型的視覺化對比
兩位科學家在擂台上對峙,背景是Transformer架構與新AI模型的視覺化對比

這場由創造者自己參與的技術路線之爭,也給關注AI演進的朋友一個可以一起看的背景。

Transformer十年霸權面臨挑戰 事件脈絡與關鍵事實

2026年5月5日,一場在舊金山舉行的「拳擊式」技術辯論,將AI領域最核心的架構爭議推向高潮。Transformer的聯合發明人Łukasz Kaiser親自上場,為這項統治AI近十年的技術辯護,對手則是包括另一位發明人Llion Jones在內的「後Transformer」倡議者。雙方圍繞長上下文處理、記憶持續性、運算複雜度(O(n²))、並行效率與持續學習能力等五大缺陷展開激烈交鋒。挑戰者主張現有架構已達瓶頸,需由液態神經網絡、BDH等新設計取代。

Kaiser並未否認問題存在,而是提出關鍵判準:任何新架構必須展現更優異的scaling曲線——也就是在增加算力與數據時,模型能力提升的效率。他強調,Transformer之所以主導,不僅因其設計,更因整個AI工程生態(從訓練框架到推理引擎)皆以此為中心。即便新架構理論更優,若無法在實際運算效率上突破,仍難以撼動現狀。

辯論中一個關鍵轉折是,Kaiser承認AI智能體已能自動優化CUDA與Triton核函數,這意味新架構的硬件優化壁壘正在瓦解。他提議建立統一測試標準,以困惑度(perplexity)衡量各架構學習效率,正式開啟「後Transformer」的實證競賽。Jones則表示,一旦有更好架構出現,所有人——包括Kaiser——都將自然轉向。

這場辯論不僅是技術路線之爭,更可能決定通往通用人工智慧(AGI)的物理路徑。若新架構能在極長上下文任務中展現優勢,scaling效應將加速舊體系的淘汰。目前,Transformer仍居主導,但其未來已不再被視為理所當然。

事實

  • 2026年5月5日,舊金山舉辦一場AI架構辯論,Transformer聯合發明人Łukasz Kaiser為其辯護。
  • 挑戰者包括Llion Jones、Adrian Kosowski與Matthias Lechner,提出Transformer五大設計缺陷。
  • Kaiser主張,除非新架構展現更優scaling曲線,否則Transformer仍將主導AI發展。
  • 目前整個AI工程棧(訓練框架、推理引擎等)皆圍繞Transformer建立,轉換成本極高。
  • Kaiser承認AI Agent已能自動優化GPU核函數,降低新架構的硬件驗證門檻。
  • 雙方共識:應建立以困惑度為基礎的統一測試標準,公平比較各架構效能。

Canto 的視覺新聞解說。製作過程可能有 AI 輔助。 編輯政策