Не могу извлечь текст из Linearized PDF используя pdfbox
Я испоьзую org.apache.pdfbox.text.PDFTextStripper 2.0.26. Обычный pdf парсится нормально. Но Linearized PDF не извлекает тест корректно : Linerized PDF.
try (PDDocument pdDocument = PDDocument.load(documentPath.toFile())) {
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition(true);
stripper.setStartPage(1);
stripper.setEndPage(2);
try (ByteArrayOutputStream os = new ByteArrayOutputStream()) {
stripper.writeText(pdDocument, new OutputStreamWriter(os));
os.flush();
System.out.println("Content: " + os.toString());
}
}