Фотография двух видеокарт Tesla V100 в PCIe-адаптерах, установленных в полноразмерный компьютерный корпус, рядом — схема сборки и таблица бенчмарков
Фотография двух видеокарт Tesla V100 в PCIe-адаптерах, установленных в полноразмерный компьютерный корпус, рядом — схема сборки и таблица бенчмарков

Собрать мощную ИИ-лабораторию дома стало реально по цене одной новой видеокарты, что полезно знать коллеге, следящему за доступными технологиями.

Лаборатория ИИ за 200 тысяч Ход истории и ключевые факты

Российские энтузиасты собрали локальный ИИ-сервер на двух бывших в употреблении видеокартах Tesla V100 32GB за 200 000 рублей. Несмотря на возраст архитектуры Volta (2017 год), такой сервер обеспечивает 64 ГБ видеопамяти — аналог трёх RTX 5080 16GB — и позволяет запускать модели до 70 миллиардов параметров в квантованном виде. Сборка использует PCIe-адаптеры OLOEY, что упрощает установку в обычный десктопный корпус.

Команда провела 128 тестов с LLM, генерацией изображений, видео и речи, включая Whisper-large-v3. Основной стек — Ollama с квантованием Q4_K_M, так как vLLM нестабилен на Volta из-за ограничения shared memory в 96 КБ. На длинных промптах (от 1100 токенов) vLLM падает, а Ollama продолжает работать.

Сервер подходит для небольших команд и локальных пайплайнов, например, одновременной транскрибации и анализа звонков. Однако для задач с нативной поддержкой FP8, MXFP4 или NVLink-ускорением лучше выбирать более современные GPU. Главный вывод: мощный ИИ-стенд можно собрать по цене одной новой флагманской видеокарты.

Факты

  • Две видеокарты Tesla V100 32GB в PCIe-адаптерах собраны в локальный ИИ-сервер за 200 000 ₽.
  • Сервер прошёл 128 тестов: 108 LLM, 14 image-gen, 6 video-gen и STT-блок на базе Whisper-large-v3.
  • На Volta cc 7.0 vLLM нестабилен при длинных промптах из-за лимита shared memory в 96 КБ, поэтому основной стек — Ollama с Q4_K_M.
  • Модель Llama-3.3-70B-AWQ TP=2 запускается, но без NVLink производительность падает в 2–3 раза.
  • Архитектура Volta не поддерживает FP8, MXFP4 и NVFP4 — такие модели нужно запускать через Ollama GGUF.

Визуальное объяснение новостей от Canto. Инструменты AI могут помогать в производстве. Редакционная политика