Релиз открытой системы распознавания текста Tesseract 5.5.0
Состоялся релиз открытой системы распознавания текста Tesseract 5.5.0. Проект поддерживает Unicode и работает с более чем 100 языками. Итоговый результат распознавания может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Решение развивается при участии работников компании Google. Исходный код проекта написан на языке программирования C++ и опубликован на GitHub под лицензией Apache 2.0.
Предыдущая стабильная версия Tesseract 5.4.1 вышла в июне этого года. Релиз Tesseract 5.0.0 состоялся в ноябре 2021 года. Выпуск Tesseract 1.0 состоялся в июне 2006 года.
По информации OpenNET, проект Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкции AVX2, AVX, AVX512F, NEON или SSE4.1.
Основные изменения и доработки в Tesseract 5.5.0:
добавлена поддержка векторных расширений RISC-V V, на базе которых подготовлены ассемблерные оптимизации для систем с процессорами RISC-V;
при записи результата в формате hOCR обеспечено выставление в создаваемом файле параметров ocrp_dir и ocrp_lang;
модернизирован код для определения доступных языковых моделей;
улучшен
Читать на habr.com