Задать допустимый интервал данных в моделях sklearn

Автор вопроса: Lera

Необходмо построить прогноз данных, которые могут принамать значения из диапазона (например, количество чего-то >=0 или доля ~ [0;1]). Прогнозирую регерссией из sklearn и иногда модель дает недопустимый прогноз. Есть ли в sklearn реализованное решение? Спасибо

Источник

Ответы (1 шт):

Автор решения: CrazyElf

Насколько я помню по Data Science соревнованиям, обычно в этих случаях просто обрезают результат предсказания до нужного диапазона. Для этого можно использовать например функцию numpy.clip.

Есть ещё такая штука как калибровка вероятности, но это уже про изменение формы распределения вероятностей предсказания внутри диапазона.

А сильное ли у вас выпадение из диапазона? Если не сильное, то достаточно "подрезать" результат. А если сильное, то в этом случае нужно разбираться в чём дело. Возможно, будет эффективнее найти выбросы и убрать их из выборки перед обучением. Либо наоборот выбросы есть в тестовой выборке и нужно что-то с ними делать (приводить к диапазону? заменять на среднее?). В общем, в этом случае нужно разбираться с данными, а не "лечить симптомы".

→ Ссылка

БЛОГ НА HUSL

Задать допустимый интервал данных в моделях sklearn

Ответы (1 шт):