Релиз системы распознавания текста Tesseract 5.5.0

acolyte · # 11.11.2024 08:29

Релиз системы распознавания текста Tesseract 5.5.0
Дата публикации:Mon, 11 Nov 2024 07:56:01 +0300

Опубликован релиз системы оптического распознавания текста Tesseract 5.5.0, поддерживающей Unicode и распознавание текстов более чем на 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкции AVX2, AVX, AVX512F, NEON или SSE4.1.

Основные улучшения:

Добавлена поддержка векторных расширений RISC-V V, на базе которых подготовлены ассемблерные оптимизации для систем с процессорами RISC-V.

При записи результата в формате hOCR обеспечено выставление в создаваемом файле параметров ocrp_dir и ocrp_lang.

Модернизирован код для определения доступных языковых моделей.

Улучшен код для формирования файлов в формате hOCR и убрано преобразование имён файлов на платформе Windows.

Разрешено указание символьных значений в опциях "--oem" и "--psm".

В коде произведена замена функций access и _access на метод std::filesystem::exists(). Функции tprintf заменены на использование потока tesserr.

Удалена поддержка платформы машинного обучения Tensorflow, которая в своё время была реализована, но так и не была задействована для выполнения AI-моделей распознавания.

Улучшен установщик для платформы Windows.
Субмодуль googletest обновлён до версии 1.15.2.

Новость позаимствована с opennet.ru
Ссылка на оригинал: https://www.opennet.ru/opennews/art.shtml?num=62216