Предобработка данных

Автор вопроса: Alexander Tesemnikov

Как желательно предобрабатывать данные в зависимости от используемой модели машинного обучения? Например для одних алгоритмов требуется нормализация данных, для других важен вид распределения? Например, как подготовить данные для деревянных алгоритмов или линейных моделей? Как дела с другими алгоритмами?

Источник

Ответы (1 шт):

Автор решения: CrazyElf

Тема слишком сложная для вопроса-ответа на этом сайте, но если вкратце, то можно считать, что для предсказания по табличным данным сейчас используются в основном два вида моделей:

линейные модели
ансамбли (внутри которых могут быть деревья, бустинги, нейросети - не суть важно)

Для линейных моделей очень важна подготовка данных, как минимум это:

приведение фич к одинаковому масштабу
чистка выбросов
нормализация распределения
кодирование категориальных переменных

Для ансамблей же практически ничего этого не нужно, ансамбли по своей природе хорошо справляются почти со всеми проблемами "из коробки", за что их так и любят начинающие дата-сайентисты.

Единственное, что ещё бывает нужно для любых моделей - это исправление распределения целевой переменной (таргета). Кривое распределение целевой переменной, к сожалению, может отрицательно влиять на любую модель.

Осталось пояснить, почему же до сих пор не отказались полностью от линейных моделей и не перешли на ансамбли. Дело в том, что интерпретировать результат работы ансамбля - задача не тривиальная. Прочему он принял то или иное решение или выдал определённую величину на выходе - не всегда бывает легко понять и, тем более, объяснить. С линейными же моделями всё гораздо проще - есть коэффициенты, на которые модель просто умножает каждую из фич и всё это потом между собой складывает. И тут всё очень просто: у какой фичи больше коэффициент - та и важнее, грубо говоря. Это очень полезно знать для тех отраслей, где принятие решений сопряжено с большими рисками и нужно контролировать с помощью экспертизы то, что делает модель. Например, для банковской сферы интерпретируемость - это необходимое свойство используемых моделей.

→ Ссылка

БЛОГ НА HUSL

Предобработка данных

Ответы (1 шт):