Выбор модели машинного обучения для подбора кода ОКВЭД

Необходимо обучить модель, которая будет по текстовому запросу пользователя подбирать подходящий код ОКВЭД (Общероссийский классификатор видов экономической деятельности). Сложность заключается в том, что это должен быть не поисковик по ключевым словам. То есть, по запросу "я гвозди делаю" должен выходить результат: 25.91 — Производство металлических изделий, кроме машин и оборудования. Для выполнения задачи - хочу привлечь трансформеры. Может, кто то знает, какие есть пред обученные модели, которые смогут помочь с решением задачи?


Ответы (1 шт):

Автор решения: CrazyElf

В принципе, тут вектора слов должны помочь. Вектора этих слов должны оказаться близко:

гвозди <-> металлических 
 делаю <-> производство 

То есть делаете векторизацию слов, а потом ищете близкие вектора. Вернее, делаете вектор запроса в целом и ищете наиболее близкий к нему вектор ответа. Но это очень в общих чертах. Хотя вот это "кроме" с вычитанием терминов нужно как-то будет самостоятельно обработать. Но в целом задача выглядит именно как поисковик по ключевым словам, просто вместо слов и, например, расстояния Левенштейна между ними, нужно использовать векторизацию слов (причём, желательно выполненную по текстам близкой к предметной области тематики, а не по поэмам Пушкина, например) и поиск расстояний между векторами слов (обычно это косинус между векторами). В общих чертах выглядит так. Даже никакие нейросети тут и не нужны особо.

В общем можете начать разбираться с векторизации слов. Готовых моделей я не подскажу, хотя наверняка и этой темой кто-то уже занимался.

→ Ссылка