Иллюстрация интерфейса DocuMentor, анализирующего структуру PDF-документа с выделением заголовков, таблиц и формул
Иллюстрация интерфейса DocuMentor, анализирующего структуру PDF-документа с выделением заголовков, таблиц и формул

Теперь сложные документы можно эффективно превращать в машиночитаемые данные без утечек. Коллега или технический друг, интересующийся ИИ, может оценить такой шаг вперёд.

ИТМО создало инструмент для точного анализа документов Ход истории и ключевые факты

Учёные Университета ИТМО разработали библиотеку DocuMentor, предназначенную для точного анализа структуры документов в форматах PDF, DOCX и Markdown. Инструмент определяет расположение заголовков, таблиц, изображений и формул с точностью до 98% для обычных текстов и 94% для сканированных документов, что значительно превосходит существующие аналоги. Благодаря поэтапному алгоритму, DocuMentor минимизирует ошибки — всего 1,3% при распознавании символов и 2,5% при распознавании слов.

Разработка особенно актуальна для крупных организаций, которым нужно превращать объёмные нормативные документы в машиночитаемые данные. В отличие от открытых сервисов, DocuMentor можно использовать во внутреннем контуре, снижая риски утечки информации. Уже сейчас Минстрой России применяет библиотеку для создания базы данных на основе нормативных актов.

DocuMentor решает ключевую проблему: большинство существующих инструментов либо не справляются со сложной структурой, либо плохо работают с большими файлами. Новая библиотека уже вызвала интерес у коммерческих компаний, где важны и точность, и безопасность обработки документов.

Факты

  • Учёные ИТМО разработали библиотеку DocuMentor для анализа структуры документов с точностью до 98%.
  • Инструмент поддерживает форматы PDF, DOCX и Markdown, распознаёт заголовки, таблицы, формулы и изображения.
  • DocuMentor совершает ошибки в 1,3% случаев при распознавании символов и в 2,5% — слов, что в 6–10 раз лучше аналогов.
  • Точность определения элементов — 98% для обычных текстов и 94% для сканов.
  • Минстрой России уже использует DocuMentor для создания базы данных на основе нормативных документов.

Визуальное объяснение новостей от Canto. Инструменты AI могут помогать в производстве. Редакционная политика