Регрессионный анализ изучает эффект влияния одного признака на другой, зависимость признака от фактора, зависимость результативного признака от факториального. Его основные результаты таковы: 1. Таблица дисперсионного анализа, в которой показана сила и достоверность влияния на признак изучаемого фактора или другого признака (таблица разложения общего варьирования результативного признака на компоненты и соотнесение их друг с другом). 2. Уравнение регрессии, выражающее пропорциональность сопряженного изменения признаков, тенденции их взаимосвязанной изменчивости или динамики. 3. Оценки значимости параметров регрессионного уравнения.
Логико-теоретические основы
Регрессионный анализ методически односторонне ориентирован на изучение зависимости одного признака от другого (зависимость y от x или, напротив, зависимость x от y), хотя может применяться к случаям, когда фактически имеется взаимозависимость двух переменных. В свою очередь, обобщенная зависимость исследуется "симметричным" методом – корреляционным анализом. Судить о том, как меняется одна величина по мере изменения другой, позволяет коэффициент регрессии (a), показывающий, на какую величину в среднем изменяется один признак (y) при изменении другого (x) на единицу измерения: y – Y = a∙(x – X). Простые преобразования: y = a∙x +Y – a∙X, b = Y – a∙X приводят к уравнению линейной регрессии: y = ax + b. Возможность получить уравнение зависимости признаков позволяет важная смена идеологии: регрессионный анализ сравнивает друг с другом не выборки, разнесенные по градациям фактора, но отдельные варианты, т. е. изучает характер рассеяния вариант в осях двух изучаемых признаков, сопряженную изменчивость признаков. Основную тенденцию взаимосвязанного изменения двух признаков можно отобразить с помощью простого графического приема. Разобьем ось x на несколько интервалов. Найдем для каждого из них среднее (My) значение признака y. Теперь проведем через эти средние точки ломаную линию. Это будет линия регрессии Y по x. Регрессия – изменение среднего уровня одного признака при изменении другого (рис. 8.2).
Рис. 8.2. Эмпирическая линия регрессии
К сожалению, ход ломаной линии нельзя передать простым уравнением, к тому же на нем сказывается способ интервального разбиения оси абсцисс, а также уровень репрезентативности в разных областях распределения. В этом смысле предпочтительнее была бы единственная прямая линия регрессии, подчеркивающая основные тенденции зависимости признаков и выраженная простым уравнением: Y = ax + b (заменив символ для обозначения зависимого признака с y на Y, мы подчеркиваем, что на базе признака x уравнение позволяет рассчитать теоретическое, среднее, значение признака Y, в общем не равное ни одному наблюдаемому значению y). Грубо регрессионную линию можно построить, взяв всего две точки – средний уровень признаков в верхней и нижней половинках эллипса (рис. 8.3). Гораздо точнее определить и уравнение регрессии, и ход графика прямой линии можно в том случае, если учесть информацию по всем вариантам изучаемой совокупности. Для этой цели разработан метод наименьших квадратов, основная идея которого состоит в том, чтобы линия регрессии прошла на наименьшем удалении от каждой точки, т. е. чтобы сумма квадратов расстояний от всех точек до прямой линии была наименьшей. В математической статистике показано, что для случая двумерного нормального распределения лучшей (эффективной, несмещенной и пр.) линией, описывающей зависимость одного признака от другого, может быть только линия средних арифметических. Линия регрессии признака y по признаку x – это множество частных средних Yi, соответствующих определенным значениям xi.
Рис. 8.3. Примерная прямолинейная регрессия
Используя метод наименьших квадратов, вычислить коэффициенты линейной регрессионной модели можно по следующему алгоритму. Сначала найдем вспомогательные величины: Cx = Σx² – (Σx)²/n, Cy = Σy² – (Σy)²/n, Cxy = Σ(x∙y) – (Σx)∙(Σy)/n, My = Σy/n, Mx = Σx/n. Затем рассчитаем коэффициенты: a = Cxy/Cx, b = My – a∙Mx. Существо коэффициента регрессии a состоит в том, что он призван выражать пропорцию изменения признака y при изменении признака x: y – Y = a∙(x – X) или , но обобщенно для всех вариант выборки: . В этой формуле числитель характеризует только сопряженную изменчивость обоих признаков, знаменатель – квадрат общей изменчивости признака x; в итоге имеем показатель пропорции изменения одного признака при изменении другого. Однако это не "чистая" пропорция, но искаженная случайными факторами. Здесь уместно обратиться к истории. Термин "регрессия" предложил Ф. Гальтон. Анализируя зависимость роста сыновей (y) от роста отцов (x), он обнаружил, что в соответствии с линейным графиком, у низкорослых отцов сыновья должны иметь более высокий рост, чем отцовский. Напротив, у более высоких отцов сыновья должны быть менее высоки, чем они сами (x2 – x1 > y2 – y1). Вместо интуитивно ожидаемой прямой пропорции между ростом отцов и детей (отмечена серым пунктиром, это
ось эллипса рассеяния) наблюдается определенное возвращение к среднему уровню, "регрессия", как ее назвал исследователь. Причины такого явления состоят в том, что в случае стохастической зависимости для предсказания значений одного признака по значениям другого требуется показатель, который наиболее обоснован со статистической точки зрения. Таким показателем является средняя арифметическая (точнее, условная средняя, линия регрессии), но ее значения не лягут точно на ось эллипса рассеяния, кроме центральной точки (My, Mx). Однако случайная изменчивость не дает точно охарактеризовать истинную зависимость (пропорцию). Поэтому чем больше величина случайной составляющей общей изменчивости (Cx) по сравнению с сопряженной (Cxy), тем сильнее линия регрессии будет отклоняться от оси эллипса, т. е. чем больше знаменатель, тем ближе к нулю величина коэффициента регрессии. Построить регрессионное уравнение – это еще даже не пол дела, важнее оценить значимость зависимости признаков, реальность их взаимодействия, т. е. установить, что признак x является существенным, "доминирующим" фактором, сказывается на изменчивости признака y. Сходную задачу о достоверном влиянии фактора мы решали с помощью критерия исключения выскакивающих вариант. При этом изучаемая выборка состояла из двух частей – некоего "ядра", внутри которого варианты отличаются друг от друга по случайным причинам, и периферических вариант, которые отклонились от "ядра" за счет действия каких-то новых (доминирующих) факторов. Границы области случайного варьирования определялись по "соглашению 95%" и составляли M ( 2S. Чем больше выборка, тем более точно определяются эти границы. Перенесем эту логику на случай двумерного нормального распределения. Это значит, что всю область рассеяния вариант можно разбить на две зоны. Во-первых, это "ядро", в котором варианты отличаются друг от друга только по случайным причинам, т. е. факториальный признак x не влияет на результативный признак y. На плоскости двух осей граница области случайного варьирования будет иметь форму окружности, случайный разлет вариант от средней возможен, естественно, во все стороны. Во-вторых, по периферии будут располагаться варианты, отклонившиеся от "ядра" за счет действия доминирующего фактора, т. е. за счет взаимодействия признаков. Такое положительное влияние x на y означает, что чем больше будет значение признака x, тем больше будет и значение признака y, а чем меньше x, тем меньше y. Получается, что варианты, не случайно отклонившиеся от общей средней (от центра), будут накапливаться вверху справа и внизу слева от круглого "ядра". Область рассеяния вариант сформирует эллипс.
Рис. 8.4. Взаимодействие признаков есть "растягивание" окружности в эллипс
Оценка достоверности взаимодействия признаков есть задача описания пропорций эллипса рассеяния: достаточно ли много вариант выходят за границы случайного рассеяния (за границы круга), чтобы с уверенностью говорить о реальности связи признаков x и y. Для этой цели используется общая идея статистического оценивания – соотнести отклонения под действием доминирующего фактора с отклонениями по случайным причинам. Лучшим показателем взаимосвязи является линия регрессии (динамика среднего уровня), которая пытается показать только взаимозависимое изменение признаков и вовсе не рассматривает независимое варьирование каждого из них. В свою очередь, характеристикой чисто случайного варьирования выступает отклонение отдельных вариант от линии регрессии. Эта идея позволяет построить базовую модель варианты в регрессионном анализе (рис. 8.5): yi = My ( yx ( yсл., где yi – значение признака y для i-й варианты (соответствующее значению xi), My – общая средняя арифметическая для всей выборки (общая часть всех вариант), yx – доля значения yi, связанная с влиянием признака x, yсл. – доля значения yi, связанная с действием случайных факторов варьирования.
Рис. 8.5. Модель варианты в регрессионном анализе
Таким образом, отклонение варианты от общей средней арифметической связано с действием факториального признака и с действием случайных причин: (yi – My) = (yi – Yi) + (Yi – My), где yi – My – общее отклонение варианты от средней, yсл. = yi – Yi – отклонение варианты от линии регрессии, отклонение по случайным причинам, yx = Yi – My – отклонение линии регрессии (для точки xi) от средней, т. е. отклонение под действием факториального признака x. Представленная модель позволяет подойти к количественной оценке достоверности связи признаков в целом. Для этого нужно все рассмотренные отклонения объединить по всем вариантам выборки, причем, чтобы суммы отклонений не обратились в нуль, возвести их в квадрат. Таким образом мы получаем оценки факториальной и остаточной сумм квадратов, т. е. можем построить таблицу дисперсионного анализа, аналогичную рассмотренной выше (однофакторный дисперсионный анализ): изменчивость признака y складывается из варьирования, учтенного регрессионной моделью, и из варьирования по случайным причинам, т. е. остаточного. Общую сумму квадратов (Собщ. = Cy = Σ(yi–My)2 = Σyi2–(Σyi)2/n) находят непосредственно как сумму квадратов отличий между значением yi для каждой варианты и общей средней признака y. Остаточную сумму квадратов (Состат. = Σ(yi–Yi)2) находят также непосредственно как сумму квадратов отличий между значением yi для каждой варианты и значением, предварительно рассчитанным по уравнению регрессии Yi = axi + b (для соответствующих значений xi). Модельную сумму квадратов (Смод. = Σ(Yi–My)2) рассчитывают как разность между общей и остаточной (Смод. = Cобщ. – Cостат.).
Таблица 8.2 Составляющие дисперсии Суммы квадратов, С Формулы расчета сумм квадратов df S² F Наклон модельной линии Смод. = Σ(Yi–My)2 Cобщ. – Cостат. 1 S2мод. = =
Отклонения вариант от линии регрессии Состат. = = Σ(yi–Yi)2 n–2 S2остат. = = F(0.05,1,n–2) Общая (всего) Собщ. = = Σ(yi–My)2 (Σyi2-Σyi)2/n= = Cy
На этом этапе можно рассчитать величину, эквивалентную показателю "силы влияния фактора" – это коэффициент детерминации, отношение регрессионной суммы квадратов к общей сумме квадратов: . Она принимает значения от 0 до 1. На основе полученных сумм квадратов рассчитываем модельную и остаточную дисперсии. Число степеней свободы для остаточной дисперсии берут равным df = n–2, поскольку в расчетах теоретических значений принимают участие два параметра – a и b. В тех случаях, когда свободный член (b) значимо от нуля не отличается, расчеты теоретических значений проводятся при одном коэффициенте (a) и число степеней свободы берут df = n–1. После предварительных расчетов с помощью критерия Фишера можно проверить нулевую гипотезу Но: предсказания модели в целом неадекватно описывают исходные данные, зависимости между признаками нет. Конструкция критерия исследует вопрос, превышает ли варьирование, учтенное моделью, случайное (остаточное) варьирование? Критерий Фишера вычисляется как отношение модельной и остаточной дисперсии: F = S2мод./S2остат. ~ F(0.05,1,n–2) . Если значение критерия окажется выше табличного, значит, дисперсия реального признака y приближается по величине к дисперсии модельного признака Y, т. е. существенно превышает (случайные) отличия между ними. Значение критерия ниже табличного свидетельствует о существенных отличиях между реальными и модельными данными, о плохом согласовании модели с реальностью, о неадекватности модели. Помимо дисперсионного анализа и критерия Фишера существуют другие способы доказательства влияния признака x на y, например, критерий T Стьюдента, проверяющий нулевую гипотезу Но: а = 0, коэффициент регрессии значимо от нуля не отличается. С этой целью рассчитывается ошибка коэффициента регрессии ma и вычисляется величина T = (a–0)/ ma = a/ ma ( T(0.05, n–2). Смысл этого критерия состоит в следующем. Коэффициент регрессии a характеризует сопряженность пропорционального изменения двух признаков, т. е. отвечает за то, что линия регрессии имеет некоторый угол относительно оси абсцисс. Значение a = 0 означает, что линия регрессии идет параллельно оси ОХ, что при изменении признака x признак y не меняется, что y не зависит от x. Значения a > 0 или a < 0 говорят о том, что взаимосвязь признаков имеет место. Поскольку значение коэффициента регрессии оценивается по выборке, может статься, что a будет отличаться от нуля в силу случайных причин, вследствие ошибок репрезентативности (в действительности связи нет, а в выборке сочетание вариант дало слабый эффект). Иными словами, если при исследовании одного и того же явления получить множество выборок и для каждой из них рассчитать уравнение регрессии, то возможны два случая: 1. Для каждой повторной выборки мы будем получать устойчивые и сходные значения коэффициента регрессии, отличные от нуля, т. е. зависимость между признаками действительно есть (рис. 8.6, А). 2. Для каждой повторной выборки мы будем получать варьирующие значения коэффициента регрессии, близкие к нулю, т. е. зависимость между признаками отсутствует (рис. 8.6, Б).
Рис. 8.6. Варианты хода линии регрессии
Коэффициенты регрессии, рассчитанные по разным выборкам, будут отличаться друг от друга и от генеральных значений. Соответственно, выборочные линии регрессии будут иметь разные углы наклона. Межвыборочную изменчивость коэффициентов регрессии можно охарактеризовать стандартным отклонением, названным ошибкой (репрезентативности) коэффициента регрессии (ma). Понятно, что она будет характеризовать варьирование этого параметра по случайным причинам. В свою очередь, как показано выше, наклоненность линии регрессии обеспечена не случайными причинами. Поэтому отличие коэффициента регрессии от нуля (a–0), или просто величина a, оценивает силу связи между изучаемыми признаками. Если эта связь не случайна, то сопряженное варьирование двух признаков будет сильнее их свободного варьирования, тогда и отношение коэффициента регрессии к своей ошибке превысит критический уровень T статистики Стьюдента. T = (a–0)/ ma = a/ ma ( T(0.05, n–2). Если же связи нет или она сильно загрязнена стохастическим шумом, то линия регрессии скроется в облаке возможных случайных траекторий, критерий даст значение ниже табличного. Говоря о технической стороне, важно отметить, что расcчитать ошибку коэффициента регрессии можно и по одной единственной выборке (используя промежуточные величины, показанные выше). , где Sx, Sy – стандартные отклонения для признаков,
, , mr – ошибка коэффициента корреляции, , r – коэффициент корреляции, , n – объем выборки.
Оценка значимости коэффициентов регрессии особенно важна для случая множественной регрессии, когда оценивается зависимость результативного признака от нескольких факториальных. С помощью этой процедуры удается отделить существенные факторы влияния от малозначимых. Наряду с первым коэффициентом линейной регрессии можно проверить значимость и второго коэффициента, b. Идеология метода не меняется, но рассматривается другая гипотеза Но: b = 0, т. е. проходит ли линия регрессии через начало осей координат, через нуль. Здесь возможны те же варианты: либо линия регрессии проходит через нуль, и тогда выборочные коэффициенты регрессии случайно варьируют около этого значения (рис. 8.7, А), либо линия регрессии не проходит через точку пересечения осей координат, и выборочные коэффициенты регрессии действительно отличны от нуля (рис. 8.7, Б).
Рис. 8.7. Варианты хода линии регрессии
Проверяется эта гипотеза с помощью критерия Стьюдента, меняется только метод расчета ошибки второго коэффициента регрессии: T = (b–0)/ mb = b/ mb ( T(0.05, n–2), где , n – объем выборки, Сx – вспомогательная величина для признака x, Cx = Σx² – (Σx)²/n, m – ошибка регрессионной средней или остаточное стандартное отклонение, может вычисляться по разным формулам: (упрощенная формула для больших выборок), (точная формула для небольших выборок), (общая точная формула), r – коэффициент корреляции, Mx, My, Sy – средняя арифметическая и стандартное отклонение для рядов значений x и y, Состат. = – сумма квадратов отклонений расчетных (Yi) от реальных значений признака y (остаточная сумма квадратов из таблицы дисперсионного анализа). Если свободный член, коэффициент b, значимо от нуля не отличается, т. е. линия регрессии проходит через начало осей координат, следует пересчитать первый коэффициент регрессии a. Формула расчета коэффициента регрессии при этом упрощается: a = Σ(x∙y)/ Σx².
Регрессионная модель примет вид: Y = ax.
Ошибки коэффициентов регрессии позволяет рассчитать для каждого из них доверительные интервалы, ограничивающих область возможного варьирования с принятым уровнем значимости (значение T(α, n–2) берется по таблице Стьюдента): a ±T∙ma, b ±T∙mb. Варьирование коэффициентов a и b означает, что выборочная линия регрессии может иметь иной угол наклона, нежели генеральная, проходить в окрестностях несколько выше или несколько ниже центра, образуя целый "букет" из возможных случайно наклоненных выборочных линий регрессии (рис. 8.6). В силу нормального распределения признаков их множество укладывается в область сложной конфигурации с "перетяжкой" в окрестностях центра распределения. Этот феномен достаточно просто объяснить, имея в виду форму двумерного нормального распределения частот (рис. 8.1). Точнее всего выборочные линии регрессии "угадывают" положение центра распределения (точки, соответствующей средним My, Mx), поскольку в этой области концентрация вариант наиболее велика, значит, и средняя оценивается с наименьшей ошибкой. Обычно линия регрессии пересекает этот центр. Напротив, по краям двумерного распределения частоты уменьшаются, варианты разрежены. Поэтому на периферии эллипса рассеяния ошибки определения среднего уровня результативного признака увеличены и выборочные линии регрессии могут далеко отклоняться от генеральной линии регрессии. По этой причине доверительный интервал, или доверительная зона линии регрессии, имеет не простую, не линейную конфигурацию (рис. 8.8).
Рис. 8.8. Доверительный интервал линии регрессии
Теория двумерного нормального распределения предлагает методы расчета значений изменяющихся ошибок репрезентативности линии регрессии (mY), а также доверительного интервала (в котором с той или иной вероятностью находится генеральная линия регрессии); он задается границами: Yi ± T∙mY = , где mY – ошибка линии регрессии (ошибка прогноза регрессионных средних Yi), Yi – значение, рассчитанное по регрессионной модели для xi, T – величина нормированного отклонения из таблицы Стьюдента (табл. 6П), выбранная для данного числа степеней свободы (df = n–2) и уровня значимости α, Sостат. = – стандартное отклонение для случайных отклонений исходных значений y от теоретических Y, n – объем выборки, (xi – Mx)² – мера отклонения значения xi от средней Mx, Cx = – сумма квадрата отклонений всех значений x от своей средней Mx; рассчитывается по рабочей формуле: Cx = Σx² – (Σx)²/n.
Как следует из формул, чем дальше значение xi находится от средней арифметической Mx, тем больше числитель подкоренного выражения, т. е. тем больше для этого значения получится ошибка линии регрессии mY и тем шире будет доверительный интервал линии регрессии, т. е. интервал для предсказанного среднего значения признака Yi для очередного наблюдаемого значения xi. Кроме этого, в рамках регрессионного анализа можно рассчитать интервал прогноза новых наблюдений: Yi ± T∙SY = , где SY – расчетное стандартное отклонение для предсказанных значений признака y. Если доверительный интервал линии регрессии (Yi ± T∙mY) характеризует область ожидания генеральной линии регрессии (для средних), то интервал прогноза (Yi ± T∙SY) характеризует область, в которой с заданной вероятностью ожидается появление новых значений признака y (вариант) в случае продолжения наблюдений. Вероятность (уровень значимости), с которой в данном интервале ожидается появление варианты или среднего прогноза, задается соответствующей табличной величиной критерия Стьюдента T(α, n-2).
Ви переглядаєте статтю (реферат): «Регрессионный анализ зависимости двух признаков» з дисципліни «Введення в кількісну біологію»