Формула матрицы ковариации для PCA

Изучаю метод главных компонент. Возникло два вопроса по формуле ковариации:

  1. В статьях по PCA нахожу два варианта формул матрицы ковариации:

введите сюда описание изображения

Где X - матрица признаков (уже нормализованных). Строки - объекты, столбцы - признаки. Какой вариант из этих двух правильный? И нужно ли после такого перемножения матриц делить их на количество объектов?

  1. Существует два варианта формул по нахождению ковариации:

введите сюда описание изображения

Первый вариант мне понятен. Не понимаю почему во втором варианте в знаменателе из n (число объектов) вычитается 1?


Ответы (1 шт):

Автор решения: Stanislav Volodarskiy
  1. Первая формула для вектора-столбца, вторая для вектора-строки. Результат получится одинаковый.

  2. Прочитайте про выборочную дисперсию.
    Тонкость в том как вы вычисляете средние (x и y с крышками). Если вы знаете средние значения распределений точно (например, если они вам даны), то вам нужна первая формула с 1/n. Если вы вычисляете средние из той же выборки что и ковариацию, то вам нужен коэффициент 1/(n-1). Минус единичка учитывает некоторую ошибку, которая возникает при одновременном расчёте средних и ковариаций из одной выборки.

→ Ссылка