Как обнаружить строки текста на изображении или как извлечь чистый текст из pdf (любые идеи)

Необходимо из pdf файлов извлекать только текст песни или хотя бы весь текст в читаемом виде без лишних символов и букв. Проблема в том что видимая графика выполнена тоже в виде символов обычного текста и причем часто это обычные буквы алфавита, которые просто так не выкинуть.

введите сюда описание изображения

Пробовал извлекать названия и размеры шрифтов и сортировать текст по ним и по координатам в документе, но метод работает ненадежно. Пробовал обнаруживать строки текста в документа с помощью библиотеки surya, но пока нормального результата тоже не получается так как часто захватывается и нотный текст (ноты).

Audiveris тоже оставляет желать лучшего в плане извлечения слов песни.

Какие еще можно попробовать методы?


Ответы (0 шт):