Сопоставление коммерческих описании товаров с их ТН ВЭД описаниями, с последующим рекомендацием по схожести смысла описании
Есть коммерческие описания товаров которые заполняются людьми. К каждому товару должен быть присвоен свой код ТН ВЭД, а у этого кода есть свое описание (это категория в которое товар входит). Пример:
Комм. описание = "СИСТЕМА ЛУЧЕВОЙ ТЕРАПИИ HALCYON С ПРИНАДЛЕЖНОСТЯМИ (ЧАСТИЧНО РАЗОБРАННЫЙ)"
Код = "9022140000".
Официальный ТН ВЭД описание по этому коду = "Аппаратура, основанная на использовании рентгеновского, альфа-, бета- , гамма- или другого ионизирующего излучения, предназначенная или не предназначенная для медицинского, хирургического, стоматологического или ветеринарного использования, включая аппаратуру рентгенографическую или радиотерапевтическую, рентгеновские трубки и прочие генераторы рентгеновского излучения, генераторы высокого напряжения, щиты и пульты управления, экраны, столы, кресла и аналогичные изделия для обследования или лечения: / — — для медицинского, хирургического или ветеринарного использования, прочая" (таких описании больше 10 тысяч, некоторые друг на друга очень похожи даже, меняются лишь цифры или буквы)
Есть датасет с комм описанием(в котором иногда пишется одно слово как Куртка и т.д.) + его тн вэд описание которое подходит.
Какие модели или подход использовать чтобы они могли помочь пользователю выбрать правильный тн вэд код при написании описании товара путем выведении топ 5?
Перепробовал всевозможные модели связанные с STS по типу BERT, ROBERTA, RUBERT, LLMки по типу Llama 3.2.
Варианты с платным api не вариант. Работаю в Jupyter Notebook