Распознавание маленьких символов с помощью tesseract
Всем доброго времени суток! Имеется рабочая документация в табличном формате, которую требуется преобразовать в редактируемый формат. Покопавшись в интернете собрал простенький скрипт, который разбивает таблицу на блоки, далее каждый блок с помощью tesseract распознаётся и результат выводится на экран. Однако имеется проблема при распознавание маленьких цифр, например:
будет распознан как:
т.м*,
или т.м
или т.м?
Подскажите пожалуйста, как решить данную проблему?
Фрагмент кода: распознавания символов:
# Перебираем все контуры найденные на изображении
j=1
for cnt in contours :
approx = cv2.approxPolyDP(cnt, 0.009 * cv2.arcLength(cnt, True), True)
rect = cv2.minAreaRect(approx)
area = int(rect[1][0]*rect[1][1]) # вычисление площади
if area > 2600 and area<1060765: #сортировка по площади
i = 0
coord = cv2.boxPoints(rect)
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2, 1))
coordx=[]
coordy=[]
for i in coord:
coordx.append(i[0])
coordy.append(i[1])
y=int(min(coordy))
x=int(min(coordx))
h=int(max(coordy))
w=int(max(coordx))
crop_img = img[y:h, x:w]
resizing = cv2.resize(crop_img, None, fx=1, fy=1, interpolation=cv2.INTER_CUBIC)
j=j+1
cv2.imshow('2', resizing)
cv2.waitKey()
out = pytesseract.image_to_string(resizing, lang='rus', config='--psm 6')
s = out
print(s)
