Задать допустимый интервал данных в моделях sklearn

Необходмо построить прогноз данных, которые могут принамать значения из диапазона (например, количество чего-то >=0 или доля ~ [0;1]). Прогнозирую регерссией из sklearn и иногда модель дает недопустимый прогноз. Есть ли в sklearn реализованное решение? Спасибо


Ответы (1 шт):

Автор решения: CrazyElf

Насколько я помню по Data Science соревнованиям, обычно в этих случаях просто обрезают результат предсказания до нужного диапазона. Для этого можно использовать например функцию numpy.clip.

Есть ещё такая штука как калибровка вероятности, но это уже про изменение формы распределения вероятностей предсказания внутри диапазона.

А сильное ли у вас выпадение из диапазона? Если не сильное, то достаточно "подрезать" результат. А если сильное, то в этом случае нужно разбираться в чём дело. Возможно, будет эффективнее найти выбросы и убрать их из выборки перед обучением. Либо наоборот выбросы есть в тестовой выборке и нужно что-то с ними делать (приводить к диапазону? заменять на среднее?). В общем, в этом случае нужно разбираться с данными, а не "лечить симптомы".

→ Ссылка