Как оформить аннотации в paddleocr
Я занялся обучением предобученной модели на базе PaddleOCR и так как я новичок в этом деле, я делал все как сказано в документации на сайте paddle https://github.com/PaddlePaddle/PaddleOCR/blob/main/doc/doc_en/recognition_en.md После чего создал датасет из данных и директория для обучения была следующая
train -
|
-----images (dir)
|
--- image_1.jpg
|
--- image_2.jpg
|
--- ...
train_list.txt
test -
|
-----images (dir)
|
--- image_1.jpg
|
--- image_2.jpg
|
--- ...
test_list.txt
eval -
|
-----images (dir)
|
--- image_1.jpg
|
--- image_2.jpg
|
--- ...
val_list.txt
все указал как и нужно, но для меня было важно выделить зоны определения текста и так как у меня была выборка с данными о местоположении box я просто спарсил данные оттуда и внес их как координаты 4х точек в аннотации и получилось что-то наподобие этого Формат ввода <путь где изображение>, <[x1, y1, x2, y2, x3, y3, x4, y4]>, "true-value" Пример из моей работы: /content/drive/My Drive/AI_detect/Model/train_model_3PP/eval/images/test_image_1.jpg, [793, 241, 873, 243, 871, 260, 791, 258], "OCOMBV"
После чего сделал конфигурационный файл нужного образца и запустил процесс обучения
!python3 tools/train.py -c '/content/drive/My Drive/AI_detect/Models/train_model_3PP/en_PP-OCRv3_rec.yml'
Но вместо обучения у меня рекурсивная ошибка , и я думаю дело в аннотационных данных так как правила оформления их я не знаю. Подскажите в этом ли проблема и если да то как мне изменить данные? Правильно ли я оформил аннотационные данные для набора или нет?
ТЕКСТ ОШИБКИ: [2024/07/08 02:56:35] ppocr ERROR: When parsing line /content/drive/My Drive/AI_detect/Model/train_model_3PP/train/images/21401063.jpg, [1340, 680, 1435, 623, 1433, 681, 1339, 753], "X423XK" , error happened with msg: Traceback (most recent call last): File "/content/PaddleOCR/ppocr/data/simple_dataset.py", line 153, in getitem label = substr1 IndexError: list index out of range