Как извлечь из текста резюме сведения об образовании, основных навыках и опыте работы?

На вход подается pdf/doc файл резюме на русском или английском, который переводится в текст. Структура резюме не всегда одинаковая (например блок об образовании может идти как до, так и после опыта работы). Как в таком случае извлечь корректно образовательное учреждение или организацию, степень или должность, основные навыки? К тому же время обучения или работы может быть указано словами (май 2022 - декабрь 2022, как вариант)

Насколько понимаю, надо смотреть в сторону NER? Пробовал использовать spacy и stanza, но правильно извлекает редко, особенно организации. Есть ли для этого какие-либо другие готовые решения? Если учить самому, то есть ли датасеты на русском для такого?


Ответы (0 шт):