Этой цели служит коэффициент частной корреляции, оценивающий связь между первым и вторым признаками при постоянных значениях третьего и вычисляемый по формуле: , где A и В – факторы, связь которых требуется изучить; С – фактор, влияние которого необходимо исключить из корреляционной зависимости между A и В (реперный признак); rАB, rАС, rBС – соответствующие парные коэффициенты корреляции, вычисляемые обычным способом; rА(BС) – искомый коэффициент частной корреляции, показывающий связь между двумя признаками при исключении влияния третьего. Этот же метод можно применить и для элиминации двух факторов при четырех переменных и т. д. Формула для расчетов примет в этом случае следующий вид: . Рассмотрим нахождение коэффициента частной корреляции на упрощенном примере (взятом из книги П. Ф. Рокицкого). Получены данные о корреляции между давлением крови (A), содержанием в ней холестерина (В) и возрастом (С) у 142 женщин. Соответствующие коэффициенты корреляции следующие: rАB = +0.25; rАC = +0.33; rBC = 0.51. Известно, что повышенное артериальное давление может быть связано с высоким содержанием холестерина в стенках кровеносных сосудов, однако и давление крови, и концентрации холестерина увеличиваются с возрастом. Поэтому возникает вопрос, создается ли корреляция между давлением крови и содержанием в ней холестерина за счет их общей связи с возрастом, или же она реально существует для каждого возраста (и независимо от него). Элиминируя эффект возраста по приведенной выше формуле, получим: = 0.12. По таблице 16П можно установить, что при п = 150 для достоверности коэффициента корреляции даже при уровне значимости α = 0.05 его величина должна быть не меньше 0.16. В данном же случае полученное значение меньше табличного и, следовательно, коэффициент корреляции от нуля достоверно не отличается. Таким образом, внутри отдельных возрастных групп корреляционной связи между давлением крови и содержанием холестерина, по крайней мере на изученном материале, не обнаруживается. Пока нет оснований отбрасывать нулевую гипотезу. Второй пример демонстрирует использование коэффициента частной корреляции для более глубокого проникновения в структуру нескольких факторов наведения. Рассмотрим выборку объектов разного статуса (11 видов мелких млекопитающих), взяв в качестве признаков их численность в семи биотопах прибайкальской равнины. Реперным признаком послужила суммарная численность вида во всех биотопах. Здесь коэффициент корреляции отражает сходство между биотопами по соотношениям численности 11 видов. Например, оказалось, что между березняком и экотоном (граница между березняком и коренными лесами) и общая корреляция (r = 0.92), и частная (r = 0.64) высока и положительна. Можно утверждать, что население животных этих биотопов почти идентично. В свою очередь, корреляция между кедровником и лугом не проявилась (r = –0.08), но коэффициент частной корреляции был велик и отрицателен (r = –0.43). Этим оттеняется тот факт, что виды, отсутствующие на лугу, многочисленны в кедровнике (красная полевка, мышь), а обычные в агроценозе – крайне редки в тайге (серые полевки). Частная корреляция не просто показала, что население биотопов не сходно, но и что во многом диаметрально противоположно. Тем самым удалось выявить два уровня факторов наведения. Первый из них хорошо известен – это расселение таежных видов в другие биотопы, в том числе на луга. В результате сезонных миграций видовой состав тайги и луга меняется несогласованно, без определенной направленности (одни виды идут из тайги в агроценозы, другие – в противоположном направлении), отличия по численностям всех видов получаются стохастические r = –0.08. Частная корреляция устраняет эффект прироста численности за счет иммигрантов и выдвигает на первый план контраст остаточной численности. Понятно, что ее формируют в первую очередь характерные обитатели биотопов: в тайге это лесные полевки, на лугу – серые. Так проявляется второй фактор "наведения": отличие качества среды в разных биотопах. Он обеспечивает формирование принципиально несходных зооценозов, что и выявляется высокой частной корреляцией r = –0.43. Корреляционное отношение и критерий линейности Для измерения силы связи между переменными величинами при криволинейных зависимостях, т. е. когда равномерному изменению первого признака соответствуют определенные неравномерные изменения второго, коэффициент корреляции подходит плохо. В таких случаях применяется корреляционное отношение, обозначаемое греческой буквой η (эта), причем оно описывает взаимосвязь между переменными двусторонне – как у по х (ηу/х), так и х по у (ηх/y). Значения корреляционных отношений, показывающие зависимость изменения первого признака от второго и второго от первого, тем более сходны по величине, чем сильнее связь и чем она ближе к линейной. При линейной зависимости корреляционное отношение совпадает по величине с коэффициентом корреляции (который служит равнозначной мерой связи признаков), а при криволинейной – отличается от него: одно из значений оказывается больше, другое меньше коэффициента корреляции. В природе редко встречаются случаи двусторонних причинных зависимостей межу двумя переменными, чаще наблюдается односторонняя зависимость. Например, если плодовитость животных зависит от кормовых условий, то последние, естественно, от плодовитости животных не зависят. Корреляционное отношение есть отношение дисперсии предсказанных значений одного из признака к его общей дисперсии (сокращая число степеней свободы, имеем отношение сумм квадратов): , Значимость величин оценивается по критерию Стьюдента: T = η/ mη , где . Ход вычислений можно показать на примере из раздела Криволинейная регрессия. Сначала рассчитываются два уравнения линейной регрессии H' = 107.88∙Lt – 404.15, Lt' = 0.008∙H + 4.0896 и теоретические значения каждого из признаков (табл. 8.11). Таблица 8.11 № H Lt H' Lt' 1 3.4 40 4.4 –37.4 2 4.2 50 4.5 48.9 3 5.2 150 5.3 156.8 4 5.8 120 5.0 221.6 5 7.1 240 6.0 361.8 6 7.0 410 7.4 351.0 7 7.4 370 7.0 394.2 8 8.2 500 8.1 480.5 9 8.5 610 9.0 512.8 M 6.3 276.7 6.3 276.7 Σ(x–M)² 25.1 336800 21.6 291754.1
Затем рассчитываем средние (M), суммы квадратов отклонения он них отдельных вариант (Σ(x–M)²) и сами корреляционные отношения: , . , T = η/ mη = 0.927/ 0.044 = 20.9. Полученная эмпирическая величина (20.9) много больше табличной для α = 0.05 и df = 9–2 = 7 T(0.05,7) = 2.37 (табл. 6П). Таким образом, сомневаться в достоверности отличия от нуля вычисленных коэффициентов нет оснований. В данном случае значения корреляционных отношений почти совпадают как друг с другом, так и с коэффициентом корреляции (0.931, 0.927 и 0.931 соответственно), что характерно для случая линейной зависимости между переменными. Высказанное предположение можно проверить с помощью критерия линейности. В соответствии с простейшим из них связь считается криволинейной, если разность квадратов корреляционного отношения и коэффициента корреляции превышает 0.1: η² – r² > 0.1. Этот критерий показывает, что в нашем случае линия хорошо описывает зависимость веса печени от размеров тела: 0.930727²–0.930693² = 0.866253–0.8661902 = 0.00006 < 0.1. Более точные оценки, учитывающие объем выборки, дает критерий Блекмана, согласно которому связь считается криволинейной, если произведение разности квадратов корреляционного отношения и коэффициента корреляции на объем выборки превышает 11.37: n∙(η² – r²) > 11.37. И этот критерий говорит о линейности изучаемой связи: 9∙0.00006 = 0.0006 < 11.37. Существуют и другие более точные критерии линейности. Тем не менее, для оценки степени криволинейности связи лучше пользоваться более точным методом – дисперсионным анализом и более простым показателем – коэффициентом детерминации R², к тому же их расчеты автоматизированы в среде Excel.
Ви переглядаєте статтю (реферат): «Метод частной корреляции» з дисципліни «Введення в кількісну біологію»