Представленным выше способом формируется столько главных компонент, сколько существенных причин участвовало в формировании вариант. Теперь можно детальнее показать, почему количество расчетных признаков (главных компонент) должно быть меньше, чем число исходных переменных. На выборке объектов можно часто наблюдать, как от объекта к объекту разные признаки изменяются чуть ли не синхронно, т. е. сходным образом реагируют на одни и те же факторы. Факт корреляции между признаками означает, что они содержат много общей информации о действующих факторах. При этом каждый отдельный фактор влияет на несколько признаков. Главные компоненты как раз и выражают эти немногие причины изменчивости, которых всегда меньше, чем исходных признаков. Получается, что 100% информации об изменчивости вариант, заключенной в исходной матрице данных, перераспределяется между компонентами по-иному, чем между признаками. Например, когда изучается 10 признаков, можно условно принять, что каждый из них привносит по 10% информации. Пусть при этом половина значения каждой варианты каждого признака будут изменяться у разных особей под действием одной причины (например, возраста), тогда на долю главной компоненты, которая уловит эти возрастные отличия, придется 50% общей информации; она будет в пять раз более информативна, чем любой исходный признак. Аналогично можно представить, что на половые отличия придется 30% информации (изменчивости значений вариант), на отличия по срокам наблюдения – 10%, а на все прочие более слабые причины – оставшиеся 10%. В итоге можно увидеть, что вместо 10 признаков львиную долю общей изменчивости вариант отобразили, "объяснили" всего 3 главных компоненты. Эти 10–20% относятся, как правило, к стохастическому шуму (слабые несущественные факторы, ошибки измерения), их обычно не рассматривают. В рамках компонентного анализа "сила" каждой компоненты (характеристики некоего фактора) оценивается как доля дисперсии данной компоненты в общей дисперсии признаков (этот принцип, по существу, заимствован из дисперсионного анализа). Как уже говорилось, количество информации в многомерной статистике выражается степенью отличия объектов друг от друга, т. е. общей дисперсией их значений (S²ГКj). Эта общая по всем признакам дисперсия перераспределяется между разными компонентами. (В публикациях можно найти выражения вроде "доля дисперсии первой главной компоненты составляет 34%"; буквально это означает, что относительная сила влияния некоего фактора, выраженного этой компонентой, составляет 34%.) Процедура расчета главных компонент организована таким образом, что первыми описываются самые сильные влияния, действие самого сильного фактора, т. е. чтобы дисперсия первой компоненты имела наибольшее значение. Затем вычисляются оценки действия второго по значимости фактора, с меньшей дисперсией, и так далее в порядке уменьшения величины дисперсии главных компонент: .
Ви переглядаєте статтю (реферат): «Требование максимума дисперсии» з дисципліни «Введення в кількісну біологію»