Рукописная иллюстрация, показывающая контраст между сеткой пикселей и органичными линиями, которые мозг использует для распознавания образов.
Рукописная иллюстрация, показывающая контраст между сеткой пикселей и органичными линиями, которые мозг использует для распознавания образов.

Подход, основанный на реальном зрении, а не на пикселях, даёт немного общего контекста коллеге, который следит за эффективными вычислительными системами.

ИИ в тупике из-за пикселей Ход истории и ключевые факты

Современные системы искусственного интеллекта сталкиваются с фундаментальными ограничениями, потому что построены на абстракциях, далёких от реального функционирования человеческого мозга. Вместо того чтобы копировать природу, индустрия опирается на удобные, но упрощённые модели — например, пиксели и свёрточные нейросети, которые не отражают, как зрительная система на самом деле обрабатывает информацию. Исследования показывают, что зрение — это не пассивный приём изображения, а активный, непрерывный вычислительный процесс, основанный на эволюционно отточенных элементах вроде линий, ориентаций и паттернов.

Учёные, такие как Хопфилд, добивались прорывов, возвращаясь к биологическим примерам, а не уходя в чистую математику. Однако сегодняшние ИИ-модели всё дальше уходят от этих основ, накапливая слои абстракций, требующие всё больше энергии и вычислительных ресурсов. Вместо обработки реального потока данных, как это делает зрение, нейросети перебирают миллиарды параметров, чтобы распознать то, что человек видит мгновенно.

Альтернативный подход — TAPe — рассматривает зрение как встроенный в мозг вычислительный аппарат. Он не разбивает изображение на пиксели, а строит компактные паттерны, устойчивые к шуму и искажениям. Такой метод позволяет обрабатывать видеоархивы за миллисекунды на обычном процессоре, без необходимости в тысячах GPU. Это указывает на возможный путь к более эффективному, природоподобному ИИ, если индустрия вернётся к изучению реальных механизмов восприятия.

Факты

  • Современный ИИ игнорирует реальные механизмы зрительного восприятия, полагаясь на упрощённые абстракции вроде пикселей.
  • Зрение обрабатывает до 90–95% информации об окружающем мире и работает как непрерывный, адаптивный вычислительный процесс.
  • Подход TAPe использует врождённые визуальные элементы — линии, ориентации, паттерны — вместо пикселей, что позволяет эффективно обрабатывать видео без больших вычислительных затрат.
  • Хопфилд создал нейронную сеть, соединив физику твёрдого тела с нейробиологией, но его идеи были упрощены и оторваны от биологии в современных ИИ-моделях.
  • Обработка видео через компактные паттерны позволяет искать нужные фрагменты в архивах любого размера за миллисекунды на обычном процессоре.

Визуальное объяснение новостей от Canto. Инструменты AI могут помогать в производстве. Редакционная политика