Формула матрицы ковариации для PCA

Изучаю метод главных компонент. Возникло два вопроса по формуле ковариации:

В статьях по PCA нахожу два варианта формул матрицы ковариации:

Где X - матрица признаков (уже нормализованных). Строки - объекты, столбцы - признаки. Какой вариант из этих двух правильный? И нужно ли после такого перемножения матриц делить их на количество объектов?

Существует два варианта формул по нахождению ковариации:

Первый вариант мне понятен. Не понимаю почему во втором варианте в знаменателе из n (число объектов) вычитается 1?

Источник

Ответы (1 шт):

Автор решения: Stanislav Volodarskiy

Первая формула для вектора-столбца, вторая для вектора-строки. Результат получится одинаковый.
Прочитайте про выборочную дисперсию.
Тонкость в том как вы вычисляете средние (x и y с крышками). Если вы знаете средние значения распределений точно (например, если они вам даны), то вам нужна первая формула с ¹/_n. Если вы вычисляете средние из той же выборки что и ковариацию, то вам нужен коэффициент ¹/_(n-1). Минус единичка учитывает некоторую ошибку, которая возникает при одновременном расчёте средних и ковариаций из одной выборки.

→ Ссылка

БЛОГ НА HUSL

Формула матрицы ковариации для PCA

Ответы (1 шт):