В процессе анализа данных осуществляются следующие операций: расчет одномерного распределения признаков, построение группировок признаков, выявление зависимостей между признаками. |При обработке данных прежде всего выявляют одномерные Распределения признаков (частоты появления различных значений этих признаков в полученном массиве данных). Например, в ходе [47] одного из массовых опросов 1993 г. было установлено, что полностью доверяли правительству 5% респондентов, в основном доверяли 25%, не очень доверяли 36%, совсем не доверяли 25% (остальные затруднились ответить). На основе изучения этого распределения можно получить лишь предварительную информацию об отношении к правительству. Для всесторонней его оценки важно выяснить специфику распределения ответов на указанный вопрос у представителей различных социальных групп, включенных в выборку исследования: руководителей, специалистов, предпринимателей, военнослужащих, рабочих, учащихся, студентов, пенсионеров, безработных. Первым шагом на этом пути служит построение таблиц сопряженности (двумерных распределений) признаков. Анализ этих распределений обнаруживает, что руководители и служащие управленческого аппарата сильнее доверяют правительству, чем, например, рабочие, а среди последних преобладают люди, однозначно не доверяющие правительству. Это уже более точная характеристика отношения населения к правительству. На основе двумерных распределений признаков можно строить различные группировки опрошенных в соответствии с их социальными характеристиками (профессия, квалификация, доход, образование и пр.). В итоге получаются простые и комбинированные таблицы данных, а также графики, диаграммы, гистограммы и др. Однако все эти процедуры на самом деле представляют собой лишь подготовку к настоящему анализу данных. Главное в этом анализе — выявление зависимостей между признаками. Основными методами изучения зависимостей являются анализ статистических таблиц, корреляционный, факторный, кластерный анализ и многомерное шкалирование. Анализ статистических таблиц основан на оценке отсутствия/наличия взаимосвязи признаков по критерию хи-квадрат [Рабочая книга социолога, 194—195] и вычислении стандартизованных остатков (величин, которые указывают на степень отклонения наблюдаемых частот от ожидаемых) [ Сатаров Г.А. Структура политических диспозиций россиян // Российский монитор. Архив современной политики. Вып. 1. 1992. С. 145]. Вычисление критерия хи-квадрат и стандартизованных остатков осуществляется с помощью пакета 8Р88 (опции: 8т.ат.1г.1с8\сго881аЪ$). Показателем наличия взаимосвязи признаков служит значение критерия хи-квадрат, превышающее табличное [Рабочая книга социолога, 507; Мангейм и Рич, 519] для соответствующего числа степеней свободы — ^(значение выдается 8Р85 в результатах (оигрш.) вместе со значением хи-квадрат) и уровня значимости. Принимаются во внимание абсолютные значения остатков, превышающие 1,65. Это служит ин- [48] дикатором существования значимой статистической зависимости между изучаемыми признаками. Знак «плюс» в стандартизованных остатках свидетельствует о том, что реальное количество наблюдений больше ожидаемого, знак «минус» — о том, что оно меньше ожидаемого. Следует учитывать, что величина стандартизованных остатков указывает лишь на вероятность наличия линейной зависимости между изучаемыми переменными, но не на направление и интенсивность этой зависимости.
Ви переглядаєте статтю (реферат): «Методы анализа данных» з дисципліни «Політична соціологія»