Как уже отмечалось, в XX в. появился ряд методов, объединенных общим понятием — многомерный статистический анализ (МСА). Методы МСА направлены на выявление характера и структуры взаимосвязей между компонентами исследуемых многомерных данных. Как правило, методы МСА не опираются на предпосылку о вероятностном характере исследуемых свойств. Они составляют основу современного направления развития прикладной статистики, называемого анализом данных. Если представить исходные данные в виде матрицы, строки которой соответствуют числу единиц, а столбцы — переменным, то современные методы МСА —это объединение строк и столбцов матрицы исходных данных. В МСА реализуется принцип «экономии мышления». Способы «свертки» столбцов матрицы данных, т. е. перехода от исходных признаков к их линейным комбинациям, зародили, в начале века, когда возникли метод главных компонент в биометрии (К. Пирсон, 1901) и факторный анализ — в психологии (Ч. Спнрмэн, 1904). Однако детальная проработка этих и других, методов МСА относится к 30-м годам. В это время Хотеллингом (1933) были разработаны процедуры выделения главных компонент, создан метод канонической корреляции. В социально-экономических исследованиях широкое применение МСА началось лишь в 50—60-х годах. Одним из важнейших методов МСА является многомерная классификация, т. с. совокупность математических методов разделения заданного множества объектов на группы, состоящие из «похожих» друг на друга объектов. Французский исследователь Р. Триопон (1939) процедуру разбиения данных в многомерном пространстве признаков назвал кластер-анализом. Если определять кластер-анализ с позиций теории распознавания образов, то его можно назвать задачей «распознавания без учителя» (так как обучающие выборки отсутствуют и не возникает вопрос о распознавании новых объектов). Многомерная классификация может производиться как в пространстве исходных признаков, так и их линейных комбинаций (главных факторов или главных компонент). Скорость разработки и внедрения методов многомерного анализа во многом определялась не только практическими потребностями обработки массивов большой размерности, и успехами развития вычислительной техники. Появление во второй половине 40-х годов ЭВМ стимулировало научные исследования, в том числе и в статистике. В 60—80-е годы темпы развития ЭВМ ускорились, вычислительная техника стала применяться во всех отраслях человеческой деятельности. Соответственно повысился уровень программного обеспечения, появились пакеты прикладных программ, в частности включающие процедуры МСА, Дальнейшее развитие методов МСА связано с широким использованием персональных компьютеров. Кластер-анализ осуществляется в человеко-машинном режиме; разработаны и процедуры автоматической (машинной) классификации данных. Углубление представлений о свойствах статистических совокупностей привело к возникновению новых идей в задаче классификации. Одной из наиболее отвечающих реальным свойствам объектов является концепция размытых множеств, выдвинутая, американским математиком Л. Заде в 60-х годах. Он показал, что реальные системы, как правило, обладают настолько «плохой» структурой, что наши суждения о том или ином состоянии пли поведении в действительности относятся не к тому или иному конкретному (единичному) состоянию, а к совокупности трудно различимых между собой состояний, границы между которыми часто нельзя четко и однозначно установить. Применительно к проблеме классификации это означает, что необходимо чтобы алгоритмы классификации были основаны на представлении о классе как о размытом, нечетком множестве объектов, для которых переход от принадлежности к данному классу к непринадлежности, скорее, постепенный, чем резкий. В последние годы самое разнообразное широкое применение в социальных науках находит раздел МСА — многомерное шкалирование (для экономного описания данных — понижения размерности, их модельного представления). Развитие этого метода связано прежде всего с именами американских ученых Р. В. Хеммик-га. Л. Гуттмана, Л. Терстоуна. Для решения задачи разделения совокупности наблюдений, когда требуется приписать некоторый новый объект к той или иной совокупности на основе «обучающей выборки», разработан метод дискриминантного анализа. Существенным вкладом в многомерный непараметрический анализ явилось создание латентно-структурного анализа американским статистиком и социологом Паулем Лазарсфель-Лом (1901 —1976), а также разработка моделей частот таблиц сопряженности, в частности логарифмически линейных моделей, предложенных в 60-х годах американцем Лео Гудманом. В 30-е годы в Кембриджском университете началось развитие ряда методов статистического анализа сложных структур неколичественных переменных па основе аддитивного разложения теста x2 (включая применение канонической корреляции в анализе таблиц сопряженности). Развитие МСА во многом способствовало созданию новой науки — эконометрии. Ее предметом является изучение количественной стороны экономических явлений и процессов средствами математического и статистического анализа. Термин «эконометрия» был предложен в 1910 г. польским ученым Павлом Цьомпой а введен в науку норвежцем Рагнаром Фришем. В 1930 г было создано Международное эконометрическое общество с центром в Иельском университете (США), в 1933 г. стал издаваться журнал «Эконометрика». Хотя эконометрия как особая дисциплина появилась сравнительно недавно, корни ее уходят глубоко в историю математической формализации экономики и тех отделов математической статистики, которые применяются в анализе экономических данных. Так как первые попытки измерения в экономике принадлежат политическим арифметикам, то можно назвать эконометрию политической арифметикой XX в. Одно из ведущих направлений эконометрии — построение эконометрических моделей, задача которых состоит в проверке экономических теории па фактическом (эмпирическом) материале при помощи методов математической статистики. Часто эконометрические модели представляют собой множественную регрессию пли систему регрессий. В 30-е годы XX п. увлечение многофакторным регрессионным анализом сменилось разочарованием исследователей. Строя отдельные уравнения множественной регрессии, они часто получали бессмысленные результаты, которые прежде всего проявлялись в несоответствии знаков коэффициентов регрессии априорным предположениям. Причина этого в том, что изолированно взятое уравнение регрессии есть не что иное, как модель «черного ящика», поскольку в ней не раскрыт механизм зависимости выходной переменной у от входных переменных Хi, а лишь констатируется факт наличия такой зависимости. Для проведения правильного анализа нужно знать всю совокупность связей между переменными. Одним из подходов к решению этой задачи является конфлюэнтный анализ, разработанный в 1934 г. Фришем. Он предложил изучение целой иерархии регрессий между всеми сочетаниями переменных. При этом каждая переменная рассматривалась как зависимая от всех возможных подмножеств переменных, а также от всего множества переменных. Анализируя регрессии с разным числом переменных. Фриш обнаружил «эффект деградации» коэффициентов регрессии. Он проявляется в том, что если в регрессию включается много переменных, имеющих линейные связи друг с другом (мультиколлинеарные переменные), то коэффициенты регрессии имеют тенденцию возвращаться к тем значениям, которые они имели в уравнении с меньшим числом переменных. Например, при четырех переменных, вводя разное их число в анализ, Фриш подучил следующие коэффициенты регрессии для связи между х1 и х2; Ь12 = —0,120; b12.4 = 0,919; b12.3 = — 0,1 12. Это позволило ему сделать вывод о наличии какого-то оптимального круга переменных, выход за который не улучшает коэффициенты регрессии, делает их неустойчивыми. На основе изменения коэф фициентов регрессии Ь\ и множественного коэффициента детерминации Яг он разделил все переменные на полезные, лишние и вредные. Переменная считалась полезной, если ее включение значительно повышало Я2; если этого не происходило и ввод новой переменной не изменял коэффициентов регрессии при других переменных, то она рассматривалась как лишняя; если добавляемая переменная сильно изменяла &; без заметного повышения R2, то переменная относилась к вредным. Методы корреляций и регрессий создавались как методы описания совместных изменений двух и более переменных. Совместные изменения переменных могут не означать наличия причинных связей между ними. Потребность в причинном объяснении корреляции привела американского генетика Севалла Райта к созданию метода путевого анализа (1910-1920) — одной из разновидностей структурного моделирования. Путевой анализ основан на изучении всей структуры причинных связей между переменны- .. ми: построении графа связен и изоморфной ему рекурсивной системы уравнений. Центральное положение его состоят в том, что оценки стандартизированных коэффициентов рекурсивной системы уравнений, которые интерпретируются как коэффициенты: влияния (путевые коэффициенты) рассчитываются на основе коэффициентов парной корреляции. Это позволяет проанализировать структуру корреляционной связи с точки зрения причинности. Каждый коэффициент парной корреляции рассматривается как мера полной связи двух переменных. Путевой анализ позволяет разложить величину этого коэффициента на четыре компоненты: 1) прямое влияние одной переменной на другую (в этом случае в причинной цепи между одной и другой переменными нет промежуточных звеньев); 2) косвенное влияние — передача воздействия одной переменной на другую через посредство переменных, специфицированных в модели как промежуточное звено в причинной цепи, связывающей изучаемые переменные; 3) непричинная компонента, объясняемая наличием общих причин; 4) непричинная компонента, зависящая от не анализируемой в модели корреляции входных переменных. В том случае, если компоненты прямого и косвенного причинного влиянии равны нулю, корреляция является ложной. Таким образом, путевой анализ Райта позволил прояснить проблему ложной корреляции, которой занимались многие видные статистики, начиная с К. Пирсона. Последующее развитие путевого анализа привело к переносу центра тяжести в постановке задачи моделирования с оценки параметров модели на поиск структуры связей между элементами системы, адекватной эмпирическим данным. Американскими учеными Г. Сайманом и Г. Блейлаком в 50—60-е годы была разработана процедура верификации выдвинутых гипотез о причинных связях и решения задач их селекции. Основная идея процедуры в том, что рекурсивная модель, которая не воспроизводит эмпирические корреляции, должна быть отвергнута.
Тем самым статистика активно влияет на развитие теории изучаемого объекта, стимулирует ее развитие. Вместе с тем, в формировании экономической теории опасно становиться и формальные позиции. Как отмечал В. И. Ленин: «Схемы сами по себе ничего доказывать не могут; они могут только иллюстрировать процесс, если его отдельные элементы выяснены теоретически» (Полн. собр. соч. Т. 4. С. 52). Путевой анализ долго оставался вне социальных исследовании и только с 60-х годов стал широко применяться социологами. Путевой анализ, как и другие методы структурного анализа, предполагает, что дополнительно введенная инструментальная переменная рекурсивно связана с основной переменной. Общий метод для оценивания коэффициентов нерекурсивных систем предложен голландским эконометрикой Генри Тейлом — двухшаговый метой наименьших квадратов (1950). Дальнейшее развитие этот метод получил при разработке А. Цельнером и Г. Тейлом трехшагового метода наименьших квадратов (1957). Значительное место в эконометрии занимает теория случайных процессов, в разработку которой большой вклад внес Дж. фон Нейман. В этой области широко распространен метод Монте-Карло (1949). Он основан на кибернетической идее «черного ящика» и состоит в том, что исследуемый процесс моделируется путем многократных повторений его случайных реализаций. Этот метод предназначен для тех случаев, когда построение аналитической модели трудно или невозможно, например, при решении задач, теории массового обслуживания. Эконометрические методы применяются на разных уровнях. При описании экономики той или иной страны строится система моделей, включающих в качестве составных элементов производственную функцию, инвестиционную функцию, а также уравнения характеризующие движение занятости, доходов, цен, процентный ставок и другие блоки. Производственная функция была
Ви переглядаєте статтю (реферат): «МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ. СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ» з дисципліни «Історія статистики»