Выбор модели машинного обучения для подбора кода ОКВЭД
Необходимо обучить модель, которая будет по текстовому запросу пользователя подбирать подходящий код ОКВЭД (Общероссийский классификатор видов экономической деятельности). Сложность заключается в том, что это должен быть не поисковик по ключевым словам. То есть, по запросу "я гвозди делаю" должен выходить результат: 25.91 — Производство металлических изделий, кроме машин и оборудования. Для выполнения задачи - хочу привлечь трансформеры. Может, кто то знает, какие есть пред обученные модели, которые смогут помочь с решением задачи?
Ответы (1 шт):
В принципе, тут вектора слов должны помочь. Вектора этих слов должны оказаться близко:
гвозди <-> металлических
делаю <-> производство
То есть делаете векторизацию слов, а потом ищете близкие вектора. Вернее, делаете вектор запроса в целом и ищете наиболее близкий к нему вектор ответа. Но это очень в общих чертах. Хотя вот это "кроме" с вычитанием терминов нужно как-то будет самостоятельно обработать. Но в целом задача выглядит именно как поисковик по ключевым словам, просто вместо слов и, например, расстояния Левенштейна между ними, нужно использовать векторизацию слов (причём, желательно выполненную по текстам близкой к предметной области тематики, а не по поэмам Пушкина, например) и поиск расстояний между векторами слов (обычно это косинус между векторами). В общих чертах выглядит так. Даже никакие нейросети тут и не нужны особо.
В общем можете начать разбираться с векторизации слов. Готовых моделей я не подскажу, хотя наверняка и этой темой кто-то уже занимался.