Реферати статті публікації

Пошук по сайту

Головна » Реферати та статті » Біологія » Введення в кількісну біологію

Техника расчета линейной регрессии

Судить о том, на какую величину в среднем изменяется один признак (Y) при изменении другого (x) на единицу измерения, позволяет уравнение линейной регрессии: Y = ax + b.
Термин "линейная" относится к методу оценки коэффициентов регрессии (a, b), это метод наименьших квадратов, дающий уравнение линии, удаленной от всех точек двумерного распределения на наименьшее расстояние.
Способ вычисления уравнения регрессии показан в таблице 8.3 на примере зависимости между живым весом коров и их приплода (кг). Нулевая гипотеза предполагает отсутствие связи. По таблице рассчитываются квадраты вариант и их произведения, а также суммы вариант, квадратов и произведений. Вычисления ведутся по точным рабочим формулам.

Таблица 8.3
i у х у² х² х∙у Y (y–Yi)² T∙mY minY maxY
1 25 352 625 123904 8800 25.6 0.31 2.0 23.6 27.5
2 26 376 676 141376 9776 27.1 1.29 1.7 25.5 28.8
3 31 402 961 161604 12462 28.8 4.65 1.4 27.4 30.2
4 32 453 1024 205208 14496 32.2 0.04 1.2 31.0 33.4
5 34 484 1156 234256 16456 34.2 0.06 1.3 32.9 35.5
6 38 528 1444 278784 20064 37.1 0.76 1.7 35.4 38.9
7 38 555 1444 308025 21090 38.9 0.81 2.1 36.8 41.0
Σ 224 3150 7330 1453158 103144
7.92

Проведем последовательные расчеты. Сначала определим вспомогательные величины:
Cxy = Σ(x∙y)–(Σx)∙(Σy)/n = 103144–3150∙224/ 7 = 2344,
Cобщ. = Cy = Σy²–(Σy)²/n = 7330–224²/ 7 = 162,
Cx = Σx²–(Σx)²/n = 1453158–3150²/ 7 = 35658,
Cостат. = 7.92,
Cмод. = 162–7.92 = 154.08;
затем – параметры:
My = Σy/n = 224/ 7 = 32,
Mx = Σx/n = 3150/ 7 = 450,
= 5.2,
= 77.1,
= 0.975,
= 0.0657,
b = My–a∙Mx = 32–0.0657∙450 = 2.419.
Получено уравнение линейной регрессии Y = 0.0657x + 2.419, которое позволяет рассчитать теоретические значения Yi (табл. 8.3) и провести дисперсионный анализ (табл. 8.4).
Расчетное значение F (97.3) превышает табличное (6.0), следовательно, модель адекватна реальности. Судя по коэффициенту детерминации, "сила влияния" веса коров на вес плода велика:
.
Далее найдем ошибки параметров:
,
,
,
или = 1.2582,
3.0359;
и, наконец, критерий T Стьюдента для проверки значимости коэффициентов: Ta = a/ ma = 0.0657/ 0.00667 = 9.84,
Tb = b/ mb = 2.419/ 3.0359 = 0.7968.
Для уровня значимости α=0.05 и числа степеней свободы df = n–2 = 5 находим табличное значение критерия Стьюдента T(0.05,5) = 2.57.

Таблица 8.4
Составляющие дисперсии С
df S² F
Наклон модельной линии Смод. =
= Σ (Yi –Y)2 154.08 1 S2мод. = = 154.08 F =
= =
= 97.3
Отклонения
вариант от линии регрессии Состат. =
= Σ (yi – Yxi)2 7.92 5 S2остат. = = 1.58 F(0.05,1,5) = 6.6
Общая
(всего) Собщ. =
= Σ (yi –Y)2 162

Полученная величина (9.84) значительно превышает табличную (2.57), что говорит о высокой статистической значимости первого коэффициента регрессии (a), о достоверности его отличия от нуля. Масса тела теленка действительно возрастает вслед за ростом массы тела коровы.
Рассчитаем доверительный интервал, в котором с той или иной вероятностью заключено теоретическое значение веса новорожденных. Примем уровень значимости α = 0.05, тогда для числа степеней свободы df = п–1 = 6 критерий Стьюдента (нормированное отклонение) составит 2.45. Далее находим границы. Так, для значения x = 352 кг прогноз равен Y = 25.56, отклонение составит:
T∙mY = =
= 2.45∙0.81 = 1.98.
Отсюда находим границу доверительного интервала (табл. 8.3):
верхнюю: maxY = Yi + T∙mY = 25.56 + 1.98 = 27.54
и нижнюю: minY = Yi – T∙mY = 25.56 – 1.98 = 23.58.
Для найденного значения доверительный интервал имеет границы 25.56 ±1.98 кг, или от 23.58 до 27.58 кг. Именно в этом весовом диапазоне с вероятностью P = 0.95 должен находиться средний вес новорожденных телят, рожденных от коров весом 352 кг.

Интервал прогноза рассчитывается аналогично. Так, для тех же значений x = 352 кг и Y352 = 25.56 кг отклонение составит:
T∙SY = =
= 3.66.
Отсюда находим границы интервала прогноза:
верхнюю: Yi + T∙SY = 25.56 + 3.66 = 29.22
и нижнюю: Yi – T∙SY = 25.56 – 3.66 = 21.89.
Для найденного значения 25.56 кг зона прогноза имеет границы 25.56 ±3.66 кг, или от 21.89 до 29.22 кг. В таком диапазоне с вероятностью P = 0.95 должен находиться вес очередного новорожденного от коровы массой 352 кг. Доверительные интервалы и интервалы прогноза, рассчитанные для других значений, отображены на диаграмме (табл. 8.3, рис. 8.9). В пределах доверительной зоны с вероятностью P = 0.95 находится генеральная (истинная) линия регрессии, в пределах зоны прогноза ожидаются новые значения вариант.

Рис. 8.9. Линия регрессии, ее доверительный интервал и интервал прогноза для модели Y = 0.0657∙x+ 2.1347

Итак, расчетное уравнение регрессии приняло вид (Y = a∙x+b): Y = 0.0657∙x+2.1347. Однако анализ показал, что критерий Стьюдента для второго коэффициента (свободного члена уравнения) (2.13) оказался ниже табличного значения (2.57), т. е. коэффициент b значимо от нуля не отличается (на данном объеме собранных материалов). Это позволяет пересчитать коэффициент регрессии: a = Σ(x∙y)/Σx² = 0.071.
Отсюда уравнение регрессии (Y = a∙x) будет иметь вид:
Y = 0.071∙x.
Подставляя в него любые значения х, мы получим соответствующие теоретические (т. е. средние) значения Y и таким образом сможем построить на графике линию регрессии. Например, при массе тела коровы x = 376 кг масса теленка должна составить Y = 0.071∙376 = 26.7 кг, а при х = 555 Y = 39.4. Соединив на графике точки с этими координатами, получаем линию регрессии, весьма наглядно иллюстрирующую характер изучаемой связи (рис. 8.10).

Рис. 8.10. Линия регрессии, ее доверительный интервал и интервал прогноза для модели Y = 0.071∙x

В заключение оценим адекватность полученной модели исходным данным с помощью дисперсионного анализа. Для этого следовало бы вновь найти оценку остаточной суммы квадратов отклонений реальных значений от новых прогнозных, Σ(y–Y)², затем оценить регрессионную сумму квадратов, найти дисперсии и рассчитать критерий Фишера (кстати, число степеней свободы для остаточной дисперсии берется как df = n–1 = 6, раз в расчетах участвует только один коэффициент (a)). Для этой цели воспользуемся программой, встроенной в пакет Excel. Она вызывается командой меню Сервис\ Анализ данных\ Регрессия.
Дисперсионный анализ (табл. 8.5) показал, что расчетное значение (F = 102.9) выше табличного (6.0), т. е. регрессионная дисперсия существенно превышает остаточную, иначе говоря, исходные данные и модельные расчеты хорошо согласуются друг с другом, модель адекватна реальности. Коэффициент детерминации указывает, что "сила влияния" веса коров на вес плода очень велика:
.

Таблица 8.5
ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R 0.9720

R-квадрат 0.9449

Нормир R-квадрат 0.7782

Стандартн 1.2193

Наблюден 7

Дисперсионный анализ

df SS MS F Значимость F

Регрессия 1 153.079 153.079 102.958 0.00015

Остаток 6 8.92085 1.48680

Итого 7 162

Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 95.0% Верхние 95.0%
Y-пересеч 0 #Н/Д #Н/Д #Н/Д #Н/Д #Н/Д #Н/Д #Н/Д
х 0.0709 0.00101 70.1713 5.6E-10 0.06850 0.07345 0.06850 0.07345

В окне макроса нужно указать диапазоны ячеек, содержащих ряды значений изучаемых признаков (не перепутав x и y), желательно сразу с метками этих рядов (в этом случае нужно поставить галочку в окне Метки), ОК. Результаты будут выведены на новый автоматически созданный лист книги Excel. Помимо описательной статистики они содержат таблицу дисперсионного анализа, а также коэффициенты регрессии с их ошибками и оценкой статистической значимости по Стьюденту. Если при первом прогоне программы оказалось, что свободный член значимо от нуля не отличается, при втором прогоне макроса в окне Константа-ноль следует поставить галочку.
Выполнение регрессионного анализа с помощью пакета StatGraphics показано в следующем разделе.
Криволинейная регрессия
Рассмотренный выше метод линейной регрессии позволяет описывать и прогнозировать явления и процессы, при которых зависимость между изучаемыми признаками приближается к линейной, простой пропорции. Таковы, например, зависимость веса сердца разных видов млекопитающих от массы их тела или экстраполяция данных о численности популяции, полученных на пробных площадях, на всю занимаемую ею территорию и т. п. Однако в большинстве случаев связь биологических признаков не бывает линейной, и они изменяются с разной скоростью (и в разных масштабах). Соответственно на графике форма такой связи отображается не прямой, а кривой линией. Примерами могут служить геометрическая прогрессия роста численности популяции в оптимальных условиях, характерное для теплокровных животных изменение метаболизма – невысокий уровень в оптимуме и ускоренно возрастающий при смене условий, рост числа видов, попавших в описание, по мере увеличения площади обследованной территории, а также различие скоростей роста разных частей тела, определяющее аллометрический характер зависимости признаков. Так, увеличение массы тела опережает по темпам весовой рост сердца и других внутренних органов, лицевой отдел черепа растет более интенсивно, чем мозговой; с разной скоростью растут листья на одном и том же побеге.
В подобных случаях использование уравнения прямой линии (у = ах + b) неэффективно: теряются многие детали процесса, коэффициенты корреляции и регрессии получаются заниженными, а результаты анализа – приблизительными, недостаточно точными. Решить эту проблему можно с помощью уравнений кривых линий. В практике биологических исследований в число наиболее часто используемых входят следующие пять видов криволинейной зависимости (табл. 8.6).
Существуют два достаточно простых пути подгонки уравнений под конкретные данные (аппроксимации данных – кривой), два способа оценки коэффициентов в уравнениях кривых – это настройка параметров модели с помощью макроса "Поиск решения" (этот путь рассмотрен в разделе Имитационное моделирование) и расчет коэффициентов методом наименьших квадратов.

Таблица 8.6
Название зависимости Уравнение График
Степенная
(аллометрическая)
(multiplicative)

у = bхa
Гиперболическая
(reciprocal)

Показательная
(экспоненциальная,
exponencial)

у = beax и у = bax

Параболическая
(polynomial)

у = c+bх+aх²
Логистическая (кривая Ферхюльста)
(logistic)

Поскольку метод наименьших квадратов исходно ориентирован на линию (поиск уравнения линии, наименее удаленной ото всех эмпирических точек), прямой расчет уравнений кривых в рамках регрессионного анализа невозможен. Натурные данные необходимо предварительно "выпрямить", т. е. сделать возможным вычисление линейного уравнения регрессии с тем, чтобы потом из него получить уравнение криволинейной связи. Общий порядок регрессионного анализа для криволинейной зависимости следующий:
преобразование исходных данных, "выпрямляющее" зависимость,
расчет коэффициентов линейной регрессии преобразованных данных,
проведение дисперсионного анализа, оценка значимости коэффициентов регрессии,
обратное преобразование коэффициентов линейной регрессии для конструирования уравнения криволинейной регрессии.
Рассмотрим процесс поиска уравнения криволинейной регрессии на примере изучения зависимости веса печени прыткой ящерицы от длины ее тела (рис. 8.11).
Рассчитанное по исходным данным уравнение линейной регрессии имеет вид:
у = 107.9х– 404.2.
И хотя коэффициент регрессии достоверен (T = 7.6, α<0.05) и коэффициент детерминации высок R² = 0.866, это уравнение весьма приблизительно описывает зависимость признаков – для наименьших наблюдаемых значений длины тела оно дает абсурдное (отрицательное) значение массы печени (107.9∙3.4–404.2 = –37.3 мг). Итак, линейная модель не годится даже для интерполяции изучаемых данных. Гораздо успешнее справляется с подобной задачей степенная (аллометрическая) функция у = bxa.

Рис. 8.11. Зависимость веса печени (M, мг) от длины тела (L, мм) у ящериц
Для вычисления коэффициентов этого уравнения воспользуемся преобразованием: Y = lgy, X = lgx, B = lgb. После логарифмирования степенное уравнение приняло линейный вид: lgy = lgb + a∙lgx или Y = B + aX. Теперь остается отыскать коэффициенты уравнения B и a, используя алгоритм метода наименьших квадратов (табл. 8.7).
Таблица 8.7
№ х у X = lgx Y = lgy X² Y² X∙Y Y’ (Y’–Y)² y’
1 3.4 40 0.531 1.60 0.282 2.567 0.85 1.517 0.00718 33
2 4.2 50 0.623 1.69 0.388 2.886 1.06 1.799 0.01009 63
3 5.2 150 0.716 2.18 0.513 4.735 1.56 2.085 0.00838 121
4 5.8 120 0.763 2.08 0.583 4.323 1.58 2.23 0.02284 170
5 7.1 240 0.851 2.38 0.725 5.665 2.03 2.5 0.01442 316
6 7.0 410 0.845 2.61 0.714 6.827 2.21 2.481 0.01728 303
7 7.4 370 0.869 2.57 0.756 6.596 2.23 2.556 0.00016 359
8 8.2 500 0.914 2.69 0.835 7.284 2.47 2.693 0.00004 493
9 8.5 610 0.929 2.78 0.864 7.758 2.59 2.741 0.00201 550
Σ 56.8 2490 7.043 20.6 5.66 48.64 16.6
0.08239
Для преобразования исходные данные (Y = lgy, X = lgx) можно воспользоваться функцией =log10(ячейка) среды Excel.
Далее рассчитаем суммы, необходимые промежуточные значения и коэффициенты (приведены округленные значения с листа Excel): ΣY = Σlgy = 20.6, ΣY² = Σ(lgy)² = 48.64, ΣX = Σlgx = 7.043,
ΣX² = Σ(lgx)² = 5.659, ΣXY = Σ(lgx∙lgy) = 16.577,
MY = ΣY/n = 20.6/9 = 2.289, MX = ΣX/n = 7.043/9 = 0.7826,
CXY = ΣXY–(ΣX)∙(ΣY)/n = 16.572–7.043∙20.602/9 = 0.45542,
CX = ΣX²–(ΣX)²/n = 5.655–(7.04)²/9 = 0.14816,
CY = ΣY²–(ΣY)²/n = 48.638–(20.601)²/9 = 1.4823,
= 0.4305,
= 0.1361,
= 0.9718,
a = CXY/CX = 0.45541/0.14815 = 3.0739,
B = MY – aMX = 2.289 – 3.0739∙0.7826 = –0.11643.
Линейное уравнение для преобразованных данных имеет вид:
lgy = 3.07∙lgx + lg(–0.116) или Y' = 3.07∙X – 0.116.
Оно дает возможность рассчитать теоретические значения признака Y' (теоретические значения логарифмов массы печени), а также квадраты отклонений прогнозных значений от реальных: (Y'–Y)² и их сумму Σ(Y'’–Y)² = 0.08239.
Эта величина есть остаточная сумма квадратов; вместе с общей суммой квадратов Cy = Cобщ. = 1.4823 она позволяет сформировать таблицу дисперсионного анализа (табл. 8.8):
Смод. = Собщ. – Состат. = 1.4823 – 0.08239 = 1.39993.
Таблица 8.8
Составляющие дисперсии С
df S² F
Наклон модельной линии Смод. =
= Σ (Y'i – MY)2 1.39993 1 S2мод. = 0.39993 F =
= =
= 118.9377
Отклонения вариант от линии регрессии Состат. =
= Σ (yi – Y'i)2 0.08239 6 S2остат. = 0.01177 F(0.05,1,7) =
= 5.6
Общая
(всего) Собщ. =
= Σ (yi – MY)2 1.482322

Полученное значение F = 118 больше табличного (5.6), следовательно, дисперсия, обусловленная регрессией, достоверно больше случайной, т. е. признак Y действительно зависит от признака X, и линия регрессии адекватна исходным данным. Коэффициент детерминации больше, чем у линейной регрессии, и составляет: R² = Смод./Собщ. = 1.39993/1.482322 = 0.944417.
Ошибка коэффициента криволинейной регрессии равна:
0.281,
а критерий Стьюдента, проверяющий гипотезу Но: a = 0, составляет
T = a/ ma = 3.0739/0.281 = 10.9.
Полученное значение больше табличного (T(0.05,8) = 2.31 для уровня значимости α = 0.05 и числа степеней свободы df = n–2 = 8) (α<<0.05), зависимость признака Y от X есть, причем очень тесная. Следует помнить, что при расчете ошибки коэффициента криволинейной регрессии используются стандартные отклонения для преобразованных (у нас – прологарифмированных) значений признаков.
В завершение выполним обратное преобразование второго коэффициента регрессии, свободный член равен:
b = 10B = 10–0.11643 = 0.764839.
Теперь уравнение регрессии принимает вид степенной зависимости:
у' = 0.765∙x3.07.
Теоретические значения у', рассчитанные по этому уравнению, гораздо ближе к исходным данным, что хорошо видно и на графике (рис. 8.11), и по большей величине коэффициента детерминации (0.94>0.87) (читателю несложно будет проделать все вычисления в среде Excel с помощью программы Регрессия – как для исходных, так и для преобразованных данных).
Аллометрическое уравнение (у' = 0.77х3.1) не только лучше описывает зависимость между сравниваемыми признаками в статистическом плане, но и придает ей более ясный биологический смысл (масса печени = 0.77∙длина тела3.1). Как известно, объемные величины (объем, масса тела) пропорциональны кубу линейных промеров (длина тела). В свою очередь, вес печени и вес тела связаны прямой пропорциональной зависимостью. Так становится понятной наблюдаемая пропорциональность веса печени кубу длины тела.
Когда зависимость между изучаемыми признаками имеет иную форму, чем может описать степенное уравнение, пользуются другими способами преобразования данных (табл. 8.9).
Выбрать, какой из видов описания лучше подходит к эмпирическим данным, можно ориентируясь на величину коэффициента детерминации или корреляции. Чем ближе линия проходит к эмпирическим точкам, тем меньше остаточная сумма квадратов, тем больше коэффициент детерминации. Существуют и другие уравнения для описания криволинейных зависимостей (например, очень интересна парабола).

Таблица 8.9
Название
уравнения
зависимости Линейный вид криволинейной зависимости
Y = B+AX Необходимое преобразование исходных значений переменных x, y Обратное преобразование коэффициентов
Степенное
у = bхa lgy = lgb + a∙lgx Y = lgy, X = lgx b = 10B
Гипербола
у = аX + b X = 1/x –
Показательное
у = beax
или у = bax
lgy = lgb + lga∙x Y = lgy a = 10A, b = 10B
Логистическая кривая
= ах+b –
Самый эффектный способ расчета уравнений регрессии в среде Excel реализуется программой Добавить линию тренда. Для того чтобы построить линию и рассчитать уравнение регрессии между двумя столбцами данных (x и y), следует сначала построить точечную диаграмму (чтобы получить зависимость y = f(x) столбец x должен быть первым, y – вторым). На построенной диаграмме должны присутствовать точки только одного цвета, наличие точек двух цветов говорит о том, что диаграмма построена неверно.
Далее нужно один раз щелкнуть мышкой по какой-либо точке (x, y) диаграммы. При этом точки ряда окрасятся другим цветом, а в главном меню появится новый пункт Диаграмма (справа от Сервис). Он позволяет построить линию регрессии с помощью команды Диаграмма\ Добавить линию тренда….
В открывшемся окне (вкладка Тип) будет предложено на выбор пять моделей (линейная, логарифмическая, полиномиальная, степенная, экспоненциальная) и сглаживание по средним, с помощью которых можно дать обобщенное описание данных. На вкладке Параметры следует поставить галочку, как минимум, в одном поле – Показывать уравнение на диаграмме, ОК. На диаграмме появится черная жирная линия регрессии. Изменить установки можно в окне настройки, которое появляется после двойного клика по линии.
Когда исходные данные содержат нулевые значения, их преобразование (логарифмирование) для "выпрямления" зависимости становится невозможным; в этом случае на вкладке Тип будут высвечиваться не все виды уравнений криволинейной регрессии. Ситуацию удается исправить, если нули исключить из рассмотрения или заменить правдоподобными малыми числами, следя за тем, чтобы основную роль в расчете уравнения играли реальные значения.
Регрессионный анализ в среде StatGraphics
Обширный список криволинейных функций предлагает пакет StatGraphics. Для выбора лучшего уравнения организуется таблица, сравнивающая результаты разных способов аппроксимации.
Сначала необходимо ввести данные на лист StatGraphics (один из простейших способов – простое копирование данных с листа Excel через буфер обмена). Для расчета разных видов парной регрессии нужно дать команду меню Relate\ Simple Regression…, выбрать переменные, выбрать все позиции Tabular options и Graphics options. Исходно в появившихся окнах будет рассчитана линейная регрессия. В окошке Comparison of Alternative Models будут отображены результаты 12 способов аппроксимаций, ранжированных по величине коэффициентов детерминации. Увидеть результаты расчетов для других видов уравнений можно, щелкнув правой кнопкой мыши и выбрав в окне Analysis Options нужный вид модели (Type of Model). Найти уравнение полиномиальной зависимости (параболы) можно, дав команду Relate\ Polynomial Regression…. Рассчитать линейную регрессию без свободного члена позволяет команда Relate\ Multiple Regression…, если в окне контекстного меню Analysis Options убрать галочку из рубрики Constant in Model.
успешнее справляется с подобной задачей степенная (аллометрическая) функция у = bxa.
Корреляционный анализ
Взаимная связь (взаимная зависимость) двух признаков при их изменчивости, т. е. сопряженность их вариации, называется корреляцией. Корреляция имеет место в тех случаях, когда признаки изменяются не автономно, а согласованно. Если с увеличением одного признака происходит соответствующее увеличение другого, говорят о положительной корреляции, и коэффициент корреляции имеет в этом случае положительный знак (+). Если же по мере увеличения первого признака второй уменьшается, то это отрицательная корреляция, и коэффициент корреляции пишется со знаком минус (–).
Полная положительная корреляция выражается единицей r = 1, полная отрицательная r = –1. В природе такая ситуация встречается редко, и степень связи выражается той или иной долей единицы. При этом о тесной (сильной) корреляции обычно говорят в тех случаях, когда коэффициент корреляции не ниже ±0.6; значения ниже ±0.6 указывают на среднюю связь, а ниже ±0.3 – на слабую.
Логико-теоретические основы
Рассмотренный выше регрессионный анализ изучает изменение среднего уровня одного признака при изменении другого, т. е. ориентирован асимметрично на один из признаков. Однако по любому массиву значений двух сопряженных признаков (x и y) можно рассчитать два уравнения регрессии и построить две линии регрессии зависимости y от x и зависимости x от y:
Y = a1 ∙x + b1, X = a2 ∙y + b2.

При этом не только уравнения содержат разные коэффициенты пропорциональности, но и линии регрессии не совпадают, как и прогнозы по ним (x1 > x2). Как указывалось выше, причина того, что линии регрессии не совпадают в осью эллипса рассеяния, а значит, и друг с другом, состоит в том, что случайная изменчивость признаков не дает точно определить коэффициенты пропорциональности (регрессии) и, следовательно, точно охарактеризовать взаимозависимое изменение обоих признаков.
В то же время по графикам видно, что каждый коэффициент регрессии неточен по-своему, в результате чего линии регрессии лежат по разные стороны оси эллипса. Возникает вопрос, нельзя ли вычислить некий усредненный показатель взаимосвязи, в котором свойства коэффициентов регрессии обобщаются? Такой характеристикой (средней геометрической) для линейной зависимости выступает коэффициент корреляции:
.
Корреляционный анализ, состоящий в расчете и оценке значимости коэффициента корреляции, держит в поле зрения в равной мере оба изучаемых признака – как их сопряженную, так и общую изменчивость. Коэффициент корреляции призван численно выражать долю сопряженной вариации двух признаков в общей их вариации:
,
где Cxy – характеристика сопряженной изменчивости признаков,
Cx, Cy – характеристика общей изменчивости признаков.
Рабочая формула для расчетов имеет вид:
.
Когда степень сопряженной изменчивости признаков велика, коэффициент корреляции имеет большую величину, вплоть до r = ±1 – при функциональной зависимости. Если признаки варьируют независимо друг от друга и сопряженная изменчивость отсутствует, выборочный коэффициент корреляции приближается к нулю, хотя практически никогда не имеет арифметических нулевых значений. В любом случае для доказательства существования зависимости между признаками необходимо проверить статистическую гипотезу Но: "коэффициент корреляции значимо от нуля не отличается", r = 0, т. е. "в генеральной совокупности изучаемые признаки не зависят друг от друга". Значимость отличия коэффициента корреляции от нуля оценивается с помощью критерия Стьюдента.
T = (r–0)/ mr = r/ mr ( T(0.05, n–2),
где .
Из приведенной формулы следует, что ошибка репрезентативности выборочного коэффициента корреляции определяется только объемом выборки и величиной самого показателя. Это позволяет предложить "таблицу значимых коэффициентов корреляции" (табл. 16П), в которой приведены минимальные значимые (достоверно отличные от нуля) коэффициенты корреляции при разных объемах выборок. Если коэффициенты корреляции выше табличных, то они также значимы, если ниже, то от нуля отличаются недостоверно.
Как статистический параметр, выборный коэффициент корреляции в той или иной степени соответствует генеральному параметру. Определить диапазон возможных значений генерального коэффициента корреляции можно с помощью доверительного интервала, хотя его нельзя построить непосредственно как для других выборочных параметров: r ±T(α,df)∙mr. Дело в том, что область изменений коэффициента ограничена рамками ±1, поэтому распределение выборочных коэффициентов корреляции в общем не соответствует нормальному (для него нужен диапазон изменчивости ±∞). Поэтому перед расчетом коэффициент корреляции переводят в величину, имеющую нормальное распределение по формуле: (или по табл. 14П, знак сохраняется), затем вычисляют ошибку коэффициентов: . Теперь доверительный интервал принимает вид: z ±T(α,df)∙mz. Далее отыскиваются границы интервала:
верхняя: maxz = z + T(α,df)∙mz
и нижняя: minz = z – T(α,df)∙mz.
После этого значения maxz и maxz с помощью таблицы 15П переводятся обратно, в прежние единицы maxr, minr; это и будут границы доверительного интервала для генерального значения коэффициента корреляции.
Биологическая интерпретация коэффициента корреляции
Понятие "корреляция" имеет длительную историю использования в биологии. Важно различать два понимания этого термина – статистическое и биологическое. Корреляционный анализ как статистический метод призван лишь установить факт сопряженного варьирования двух величин. Он ничего не сообщает о каузальной обусловленности изменения одного признака при изменении другого. Причинно-следственный характер этих объективных отношений устанавливает биолог. Можно говорить о трех классах биологической корреляции – это влияние, взаимовлияние и "наведение".
Влияние – это тот случай, когда величина одного признака действительно определяется величиной другого. Число видов и численность животных зависят от благоприятных экологических условий – климата, обеспечения кормами. Например, в Карелии продолжительность безморозного периода снижается к северу, что позволяет размножаться живородящим видам почти на всей территории республики, а яйцекладущим – только в южной части; число видов рептилий увеличивается к югу. Для исследования влияний корреляционный анализ очень удобен; изучение криволинейной зависимости требует предварительного "исправления" данных.
Говоря о взаимовлиянии, подразумевают прямую и обратную связь между переменными: один признак зависит от другого, изменение которого, в свою очередь, сопряжено с первым. Самые яркие примеры этого – физиологические реакции организма и экологические отношения, например, между популяциями паразита и его хозяина. Естественный рост численности хозяина непосредственно обеспечивает рост численности паразита, который, в свою очередь, может негативно сказываться на состоянии особей хозяина, вызывая их преждевременный выход из процесса размножения и смерть, т. е. приводить к снижению численности популяции хозяина. Обратная связь – это и есть взаимовлияние. Исследовать такие отношения с помощью корреляционного анализа неэффективно, поскольку один коэффициент не в состоянии учесть двойственную природу явления. Обратные связи наиболее эффективно можно исследовать с помощью динамических имитационных моделей (см. раздел 10).
Если величина обоих изучаемых признаков определяется внешней причиной, "наводится" ею извне, то между признаками можно обнаружить корреляцию в силу синхронности их реакций на этот фактор. Так, в годы роста численности рыжей полевки увеличивается и численность обыкновенной бурозубки, в другие (неблагоприятные) годы наблюдается депрессия обоих видов. Корреляция между этими показателями отражает вовсе не симбионтные (ценотические) отношения видов, но их сходную реакцию на одинаковые условия среды, не взаимное влияние видов друг на друга, а сходство видовых потребностей, причем опосредованно, – через реакцию на среду. В онтогенезе особи наблюдаются аналогичные отношения между признаками, связанными со степенью развития эмбриона. Оба признака выступают по отношению друг к другу индикаторами действия третьей силы. В этом случае корреляционный анализ также уместен.
В природе обычно наблюдается более сложная картина –величина изучаемых переменных определяется не только их связью друг с другом, но и одновременным влиянием внешних факторов. Например, развитие органов особи в онтогенезе зависит как от соседних органов (морфогенетические корреляции), так и от организма в целом (геномные, эргонтические корреляции); численность видов в ценозе определяется и общими (абиотическими, биокосными) условиями жизни в данных местообитаниях (зонах), и обилием других сочленов сообщества (объектов питания, конкурентов, хищников); токсичность стоков-загрязнителей зависит не только от их объема, происхождения, типа природной воды, но и от взаимодействия (антагонизм, синергизм) их компонентов. В процессе интерпретации биологических корреляций приходится декомпозировать сложные случаи, явно выделять направления функциональной ("влияние") и косвенной ("наведение") связи. Для этого следует, во-первых, контролировать (или хотя бы регистрировать) условия наблюдения и эксперимента. Во-вторых, важно осознанно формировать выборку для анализа, исходя из цели исследования, а не из имеющихся данных. В-третьих, распознать причины наблюдаемых корреляций можно применив "сильные" статистические методы, такие как частная корреляция и компонентный анализ.

Ви переглядаєте статтю (реферат): «Техника расчета линейной регрессии» з дисципліни «Введення в кількісну біологію»