Для представления результатов компонентного анализа часто используются три разных способа выражения величины факторных нагрузок. При первом из них, показанном выше (табл. 9.9, 9.13 ), в качестве векторов факторных нагрузок выступают так называемые собственные векторы (техника и теория их расчетов приведена во многих пособиях, например, Коросов, 1996). Таблица 9.13 Факторные нагрузки a1 a2 a3 W 0.644 0.191 0.741 Lt 0.603 0.467 –0.655 Lc –0.47 0.863 0.186
Дисперсия, S2 2.09 0.71 0.19
Для собственных векторов выполняется важное условие: произведение вектора на самого себя дает единицу. Так,
На основании этих факторных нагрузок рассчитываются те значения главных компонент, дисперсии которых, S2, представлены в нижней строке таблицы с результатами (табл. 9.10, 9.13). Кстати сказать, сумма дисперсий всех компонент равна числу изучаемых признаков, m (2.09+0.71+0.19 = 3). В такой форме результаты анализа выдает пакет StatGraphics. Несмотря на прозрачный математический смысл, интерпретировать такие факторные нагрузки неудобно из-за какой-то непонятной "абсолютности" собственных векторов. Второй способ позволяет более эффективно сопоставлять нагрузки, относящиеся к каждой компоненте по отдельности. Для этого все нагрузки делят на модуль максимального значения. Так, для первого вектора maxa = 0.644; нормированная нагрузка для признака W составит: 0.644/0.644 = 1.000, а для признака Lt – 0.603/0.644 = 0. 936 и т. д. (табл. 9.14). Таблица 9.14 Факторные нагрузки a1 a2 a3 W 1.000 0.221 1.000 Lt 0.936 0.541 –0.884 Lc –0.730 1.000 0.251
Дисперсия, S2 2.09 0.71 0.19
В результате факторные нагрузки обретают значения от –1 до +1, их становится легче сравнивать друг с другом в контексте одной компоненты. При этом, правда, свойства векторов нагрузок меняются и их произведение на себя уже не дает значения 1. В то же время, новая относительная величина позволяет применить простой критерий оценки достоверности отличия нагрузки от нуля, для этого она должна быть по модулю больше 0.7: |a|>0.7. Получается, что большие коэффициенты нагрузки как бы приравниваются к единице (полный учет признака), а остальные – к нулю (признак не участвует в компоненте). Такой прием во многом облегчает первый шаг в интерпретации главных компонент. Провести рассмотренные преобразования можно в среде Excel. Третий способ презентации результатов МГК позволяет сравнивать факторные нагрузки одного признака в разных главных компонентах. В качестве основания для нормирования такого рода служит стандартное отклонение конкретной компоненты S, на величину которой умножаются факторные нагрузки (табл. 9.15). Например, нагрузка признака Lt теперь составит для второй компоненты: 0.467∙0.843 = 0.394, для третьей компоненты: –0.655∙0.435 = –0.286.
Такое преобразование позволяет оценить относительную роль признака в той или иной компоненте: несмотря на относительно высокое значение исходной нагрузки признака Lt в третьей компоненте (-0.655) по сравнению со второй (0.467) (табл. 9.13), его рассмотрение в контексте общего варьирования говорит от обратном: фактическое влияние признака на изменчивость третьей компоненты (–0.28) меньше, чем влияние на вторую компоненту (0.394) (табл. 9.15). Более того, новое преобразование позволяет точно вычислить какую долю своей изменчивости каждый признак сообщает каждой компоненте (иначе, какую долю изменчивости признака учитывает та или иная компонента). Поскольку факторные нагрузки можно рассматривать как аналоги коэффициентов корреляции, то их квадраты могут играть роль коэффициентов детерминации, выражающих как раз долю варьирования за счет действия фактора в общем варьировании признака. Как известно, общая дисперсия отдельного нормированного признака равна единице (см. табл. 9.10), поэтому квадраты факторных нагрузок будут представлять собой искомые доли (табл. 9.16). Так, из общей дисперсии признака Lt компоненты "забрали" такие доли: первая – 0.764, вторая – 0.155, третья – 0.082; при этом 0.764 + 0.155 + 0.082 = 1, или 76 + 16 + 8 = 100%. Как видно, в наибольшей степени длина тела учтена в первой компоненте.
Произведения преобразованных векторов факторных нагрузок на самих себя не равны единице, но – величине дисперсии (что вытекает из процедуры получения векторов):
Значения главных компонент, рассчитанные с помощью преобразованных факторных нагрузок будут отличаться от тех, что высчитаны по первой схеме. Если их дисперсии вычислить непосредственно, то они будут равны единице, а не той величине, что указана в нижней строке таблицы. В такой форме результаты компонентного анализа представлены в пакете Statistica. В заключении следует отметить, что каким бы способом представления факторных нагрузок мы ни пользовались, как бы не трансформировались значения главных компонент, все равно, ординация (взаиморасположение) объектов в осях главных компонент не меняется! Это позволяет правильно интерпретировать компонентный анализ изменчивости признаков независимо от метода отображения его результатов.
Ви переглядаєте статтю (реферат): «Варианты представления результатов» з дисципліни «Введення в кількісну біологію»