Формула матрицы ковариации для PCA
Изучаю метод главных компонент. Возникло два вопроса по формуле ковариации:
- В статьях по PCA нахожу два варианта формул матрицы ковариации:
Где X - матрица признаков (уже нормализованных). Строки - объекты, столбцы - признаки. Какой вариант из этих двух правильный? И нужно ли после такого перемножения матриц делить их на количество объектов?
- Существует два варианта формул по нахождению ковариации:
Первый вариант мне понятен. Не понимаю почему во втором варианте в знаменателе из n (число объектов) вычитается 1?
Ответы (1 шт):
Первая формула для вектора-столбца, вторая для вектора-строки. Результат получится одинаковый.
Прочитайте про выборочную дисперсию.
Тонкость в том как вы вычисляете средние (x и y с крышками). Если вы знаете средние значения распределений точно (например, если они вам даны), то вам нужна первая формула с 1/n. Если вы вычисляете средние из той же выборки что и ковариацию, то вам нужен коэффициент 1/(n-1). Минус единичка учитывает некоторую ошибку, которая возникает при одновременном расчёте средних и ковариаций из одной выборки.