Распознавание маленьких символов с помощью tesseract

Question

Всем доброго времени суток! Имеется рабочая документация в табличном формате, которую требуется преобразовать в редактируемый формат. Покопавшись в интернете собрал простенький скрипт, который разбивает таблицу на блоки, далее каждый блок с помощью tesseract распознаётся и результат выводится на экран. Однако имеется проблема при распознавание маленьких цифр, например: будет распознан как:

т.м*,

или т.м

или т.м?

Подскажите пожалуйста, как решить данную проблему?

Пример рабочей документации:

Фрагмент кода: распознавания символов:

# Перебираем все контуры найденные на изображении 
j=1
for cnt in contours : 

    approx = cv2.approxPolyDP(cnt, 0.009 * cv2.arcLength(cnt, True), True)
    rect = cv2.minAreaRect(approx)
    area = int(rect[1][0]*rect[1][1]) # вычисление площади

    if area > 2600 and area<1060765: #сортировка по площади

        i = 0
        coord = cv2.boxPoints(rect)
        kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2, 1))
        coordx=[]
        coordy=[]

        for i in coord:
            coordx.append(i[0])
            coordy.append(i[1])

        y=int(min(coordy))
        x=int(min(coordx))
        h=int(max(coordy))
        w=int(max(coordx))

        crop_img = img[y:h, x:w]

        resizing = cv2.resize(crop_img, None, fx=1, fy=1, interpolation=cv2.INTER_CUBIC)
        j=j+1

        cv2.imshow('2', resizing)
        cv2.waitKey() 


        out = pytesseract.image_to_string(resizing, lang='rus', config='--psm 6')

        s = out
        print(s)

БЛОГ НА HUSL

Распознавание маленьких символов с помощью tesseract

Ответы (0 шт):