Как обнаружить строки текста на изображении или как извлечь чистый текст из pdf (любые идеи)
Необходимо из pdf файлов извлекать только текст песни или хотя бы весь текст в читаемом виде без лишних символов и букв. Проблема в том что видимая графика выполнена тоже в виде символов обычного текста и причем часто это обычные буквы алфавита, которые просто так не выкинуть.
Пробовал извлекать названия и размеры шрифтов и сортировать текст по ним и по координатам в документе, но метод работает ненадежно. Пробовал обнаруживать строки текста в документа с помощью библиотеки surya, но пока нормального результата тоже не получается так как часто захватывается и нотный текст (ноты).
Audiveris тоже оставляет желать лучшего в плане извлечения слов песни.
Какие еще можно попробовать методы?
