Какие метрики лучше всего использовать в задаче бинарной классификации
Допустим, в задаче бинарной классификации, доля одного класса составляет 95% выборки. Какие метрики лучше всего использовать для этой модели?
Ответы (2 шт):
Обычно в случае такого дисбаланса классов при бинарной классификации используют метрику ROC AUC, хотя и она тоже имеет границы применимости и при ещё более сильном имбалансе (например 100:1) её тоже нужно использовать с осторожностью.
Почему собственно используют ROC AUC вместо, например, Accuracy. Для Accuracy не важно, какой класс правильно предсказан, главное, чтобы было побольше верных предсказаний в принципе. Получается, если при дисбалансе классов 95% на 5% просто предсказать всем сэмплам значение того класса, которого больше, то Accuracy будет 0.95 (по шкале от 0 до 1) при том, что мы не определили правильно ни одного сэмпла того класса, которого у нас мало. Это как-то нехорошо. А вот ROC AUC при выставлении всем сэмплам одного и того же класса (любого из двух) даст метрику 0.5 (по шкале от 0 до 1), что гораздо более информативно. ROC AUC заставляет нас правильно предсказывать не просто какой-то процент сэмплов от их общего кол-ва, а какой-то процент сэмплов от того класса, к которому они принадлежат на самом деле.
При разбалансированных данных первое, что приходит на ум это:
Во многих статьях утверждают, что при сильной разбалансировке лучше все-таки использовать F1 Score в качестве метрики.
PS очень хороший и подробный ответ на данный вопрос в англоязычной версии SO