Статистическое измерение тесноты корреляционной связи. Показатели меры тесноты корреляционной связи
При изучении корреляционной связи важным направлением анализа является оценка степени тесноты связи. Понятие степени тесноты связи между двумя признаками возникает вследствие того, что в реальной действительности на изменение результативного признака влияют несколько факторов. При этом влияние одного из факторов может выражаться более заметно и четко, чем влияние других факторов. С изменением условий в качестве главного, решающего фактора может выступать другой. При статистическом изучении взаимосвязей, как правило, учитываются только основные факторы. А вопрос необходимо ли вообще изучать более подробно данную связь и практически ее использовать, решается с учетом степени тесноты связи. Зная количественную оценку тесноты корреляционной связи, таким образом, можно решить следующую группу вопросов: 1) необходимо ли глубокое изучение данной связи между признаками и целесообразно ли ее практическое применение; 2) сопоставляя оценки тесноты связи для различных условий, можно судить о степени различий в ее проявлении в конкретных условиях; 3) последовательное рассмотрение и сравнение признака у с различными факторами (х1, х21, …) позволяет выявить, какие из этих факторов в данных конкретных условиях являются главными, решающими факторами, а какие второстепенными, незначительными факторами; Показатели тесноты связи должны удовлетворять ряду основных требований: 1) величина показателя степени тесноты связи должна быть равна или близка к нулю, если связь между изучаемыми признаками (процессами, явлениями) отсутствует; 2) при наличии между изучаемыми признаками (х и у) функциональной связи величина степень тесноты связи равна единице; 3) при наличии между признаками (х и у) корреляционной связи показатель тесноты связи выражается правильной дробью, которая по величине тем больше, чем теснее связь между изучаемыми признаками (стремится к единице); 4) при прямолинейной корреляционной связи показатели тесноты связи отражают и направление связи: знак (+) означает наличие прямой (положительной) связи; а знак (-) – обратной (отрицательной). Для характеристики степени тесноты корреляционной связи могут применяться различные статистические показатели: коэффициент Фехнера (КФ), коэффициент линейной (парной) корреляции (r’), коэффициент детерминации, корреляционное отношение ( ), индекс корреляции, коэффициент множественной корреляции ®, коэффициент частной корреляции (r’) и др. В данном вопросе рассмотрим коэффициент линейной корреляции ® и корреляционное отношение ( ). Более совершенным статистических показателем степени тесноты корреляционной связи является линейный коэффициент корреляции ®, предложенный в конце XIX в. При расчете коэффициента корреляции сопоставляются абсолютные значения отклонений индивидуальных величин факториального признака х и результативного признака у от их средних, т.е. и . Однако непосредственно сопоставлять между собой эти полученные результаты нельзя, т.к. признаки, как правило, выражены в различных единицах и даже при наличии одинаковых единиц измерения будут иметь различные по величине средние и различные вариации. В этой связи сравнению подлежат отклонения, выраженные в относительных величинах, т.е. в долях среднего квадратического отклонения (их называют нормированными отклонениями). Следовательно, сравниваются между собой следующие величины:
, .
Для того, чтобы на основе сопоставления таких нормированных отклонений получить обобщающую статистическую характеристику степени тесноты связи между этими признаками для всей совокупности, рассчитывается среднее их произведение. Полученная средняя и является коэффициентом корреляции ®: .
Поскольку в этом выражении и являются постоянными, то формула линейного коэффициента корреляции ® приобретает следующий вид
.
На практике вычисление по данной формуле является достаточно трудоемкой операцией. Поэтому обычно применяют формулу, полученную как определенное преобразование этой формулы
.
При использовании этой формулы отпадает необходимость вычислять отклонения индивидуальных значений признаков от их средних. Тем самым исключатся также возможная ошибка в расчетах при округлении в промежуточных вычислениях (например, средних величин). Линейный коэффициент корреляции может принимать любые значения в пределах от –1 до +1. Чем ближе коэффициент корреляции без учета знака к 1, тем теснее связь между признаками. Знак при линейном коэффициенте корреляции указывает на направление связи: (+) плюс указывает на прямую зависимость, а знак (-) минус на обратную зависимость. Если с увеличением значений факторного признака х, результативный признак у имеет тенденцию к увеличению, его величины r будет находиться между 0 и 1. Если же с увеличением значений признака х результативный признак имеет тенденцию к снижению, то r может принимать значения в интервале от 0 до –1. Разработаны специальные формулы для расчета коэффициента корреляции в зависимости от характера исходных данных: если представлена в виде корреляционной таблицы, по негруппированным данным. В соответствии с рабочей программой мы их не будем рассматривать. Коэффициент корреляции ® применяется для измерения тесноты связи только при прямолинейной корреляционной связи. Для измерения тесноты связи как при прямолинейной, так и при криволинейной корреляционной связи применяется корреляционное отношение. В основе исчисления корреляционного отношения ( ) лежит правило сложения дисперсии, согласно которому общая дисперсия результативного признака ( ) может быть представлена как сумма двух дисперсий средней внутригрупповой дисперсии ( ), характеризующей ту часть общей дисперсии признака y, которая вызвана действием специфических для групп факторов и не зависит от изменения величин фактора х, а также межгрупповой дисперсии ( ), характеризующей ту часть величины общей дисперсии, которая целиком складывается под влиянием изменения фактора х (лежащего в основе группировки): .
Корреляционное отношение исчисляется по формулам:
или .
Корреляционное отношение будет равно 1, если между признаками имеется функциональная связь и равно 0, если связь отсутствует. Корреляционное отношение не указывает направление связи. Это можно выявить из анализа характера изменения фактора и результативного признака. При прямолинейной форме связи корреляционное отношение равно коэффициенту корреляции без учета знака. Поэтому определенный интерес представляет сопоставление величины r и . Когда связь между признаками уклоняется от линейной формы, то и r несколько отличаются по величине, причем больше по величине (без учета знака r). Вычисления r и должны быть выполнены по одинаковым образом сгруппированным данным (по первичным данным, по групповой таблице, по корреляционной таблице). При проверке возможности использования линейной связи определяется разность квадратов , и если эта разность квадратов менее 0,1, то считается возможным применять линейное уравнение корреляционной зависимости. Имеются и более сложные формулы для этой цели. При использовании показателей степени тесноты корреляционной связи нужно помнить, что сама по себе величина их не является доказательством наличия причинно-следственной связи между изучаемыми признаками, а являются оценкой только степени взаимной согласованности в изменениях этих признаков. Возможность причинно-следственной связи обосновывается теорией изучаемых явлений. Необходимо помнить еще одно обстоятельство: оценка степени тесноты связи производится, как правило, на основе ограниченной информации об изучаемом явлении. Особенно осторожно следует подходить к истолкованию полученных статистических показателей тесноты связи при малых объемах выборочной совокупности. Кроме рассмотренных интерпретаций коэффициента корреляции и корреляционного отношения, на практике применяются показатели их квадратов, называемые коэффициентами детерминации ( и ). Коэффициент детерминации характеризует долю (или процент) вариации результативного признака, вызываемой влиянием факторного признака.
Ви переглядаєте статтю (реферат): «Статистическое измерение тесноты корреляционной связи. Показатели меры тесноты корреляционной связи» з дисципліни «Статистика»