Ilustrace PCIe karty Skymizer HTX301 s obrovským jazykovým modelem běžícím na malém zařízení, na pozadí jsou vidět grafické znázornění toku dat a architektury HyperThought.
Ilustrace PCIe karty Skymizer HTX301 s obrovským jazykovým modelem běžícím na malém zařízení, na pozadí jsou vidět grafické znázornění toku dat a architektury HyperThought.

Tato technologie může usnadnit nasazení velkých modelů i mimo cloudové farmy, což je zajímavé pro kolegu z vývojářského týmu sledujícího efektivitu AI infrastruktury.

Karta pro jazykové modely s 700 mld. parametry Tok příběhu a hlavní fakta

Společnost Skymizer představila nový PCIe akcelerátor HTX301 určený pro inferenci velkých jazykových modelů (LLM). Karta umožňuje provozovat modely s až 700 miliardami parametrů při relativně nízké spotřebě 240 wattů. To je významný krok k decentralizaci AI výkonu mimo centrální cloudové servery. Řešení využívá šest čipů HTX301 postavených na architektuře HyperThought a celkem 384 GB paměti typu LPDDR4 nebo LPDDR5.

Fakta

  • Skymizer představil PCIe akcelerátor HTX301 pro inferenci velkých jazykových modelů.
  • Karta podporuje modely s až 700 miliardami parametrů při spotřebě 240 W.
  • Na kartě je 384 GB paměti LPDDR4 nebo LPDDR5 a šest čipů HTX301.
  • Čipy jsou vyráběny 28nm procesem a využívají architekturu HyperThought pro lepší efektivitu.
  • Skymizer uvádí výkon 240 tokenů za sekundu pro model Llama2 7B.
  • Architektura LISA a rozdělení operací prefill a decode zlepšují latence a využití čipu.

Vizuální vysvětlení zpráv od Canto. Při tvorbě mohou pomáhat nástroje AI. Redakční zásady