Реферати статті публікації

Пошук по сайту

Головна » Реферати та статті » Біологія » Введення в кількісну біологію

Методы многомерного анализа

Методы многомерной статистики – своеобразный отклик математики на запрос современной науки обеспечить, с одной стороны, более полное (многоплановое) количественное описание биологических объектов и окружающей среды (с помощью большого числа переменных), а с другой стороны – представить огромные массивы информации в более наглядном, интегрированном, обобщенном виде. Поиск максимально полной, но интегрированной характеристики каждого объекта привел к идее рассчитывать небольшое число новых признаков, вбирающих в себя почти всю информацию от исходных характеристик; в результате полученные данные "сворачиваются" до размеров, которые в состоянии охватить мысль. Так решается "задача сокращения размерности".
Теоретической основой для методов многомерной статистики служит понятие гиперпространства, или многомерного пространства. В отличие от привычного физического трехмерного пространства, имеющего три ортогональных (взаимно перпендикулярных) оси, многомерное пространство имеет множество осей координат, в качестве которых выступают признаки (переменные) изучаемых объектов. Отдельный объект, охарактеризованный по нескольким признакам, рассматривается как отдельная точка, а множество объектов – как облако точек. Если объекты (особи разного возраста, пола, органы, пробы, даты, разные популяции, виды, биотопы, местообитания и т. п.) отличаются друг от друга по разным признакам, то они будут занимать разное положение в многомерном пространстве; объекты оказываются рассеянными в нем.
Главной характеристикой объектов становится расстояние между ними в этом гиперпространстве, а главной особенностью всей выборки – форма облака рассеяния со своими пустотами и сгущениями объектов. Методы многомерной статистики изучают информацию, "закодированную" в порядке расположения объектов друг относительно друга. Например, взрослая особь по множеству размерных признаков превосходит молодую. Она будет находиться в зоне особей с большими размерами, тогда как молодая – в зоне мелких. Исследование относительного места расположения особи в "облаке" других особей раскрывает, "расшифровывает" ее биологический статус.
В кластерном анализе вычисляется один новый признак (абсолютное расстояние между объектами), многомерные отношения объектов нанизываются на одну ось. В дискриминантном и компонентном можно рассчитывать несколько новых признаков, рассматривающих пространственные отношения объектов с разных точек зрения. Суммарное отличие объектов друг от друга, т. е. их дисперсия, становится важнейшей характеристикой информационной насыщенности массива данных.
Основы кластерного анализа
Классификация, кластеризация – методы, широко используемые в современной таксономии, – позволяют наглядно представить сходство или различие биологических объектов, охарактеризованных по многим параметрам. Эти подходы можно применять в самых разных областях биологии, в частности, для сравнения условий среды в сериях местообитаний, выявления различий и сходства между сообществами живых организмов, отдельными их популяциями, группами, особями и т. п. Кластерный анализ, как и многие другие многомерные статистические приемы, не имеет достаточно разработанного математического аппарата для статистического оценивания полученных данных; его основная функция – выявление скрытой структуры биологического материала, что позволяет затем целенаправленно ставить и решать конкретные биометрические задачи с помощью простых статистических методов (регрессионного, корреляционного, дисперсионного и др.).
Суть кластерного анализа состоит в
определении "расстояний" (меры различия) между объектами по всей совокупности признаков,
группировании сходных объектов в кластеры (кластеризация),
графическом изображении сети (или древа) расстояний между всеми объектами.
Речь, следовательно, идет о формировании одного нового признака (относительного расстояния) на основании нескольких исходных.
В качестве меры расстояния может выступить любой признак. Так, разность между значениями длины тела двух полевок есть не что иное, как расстояние между ними по одному признаку. Достоинство кластерного анализа заключается в том, что он позволяет получить обобщенную меру расстояния между объектами по всему множеству анализируемых признаков.
Один из вариантов такой меры основан на коэффициенте сходства Съёренсена, который используется для сравнения многовидовых сообществ. "Расстояние" вычисляется по формуле:
,
где В и С – число видов в двух сравниваемых сообществах,
А – число общих видов.
Рассмотрим в качестве примера анализ биоценотических группировок мелких млекопитающих Приладожья. Видовой состав изучен в 7 основных биотопах: лишайниковых сосняках (A), сосняках-зеленомошниках (Б), ельниках (В), спелых лиственных и смешанных лесах (Г), лиственном мелколесье (Д), молодых зарастающих вырубках (Е) и по границе сеяного луга и ольшаника (Ж). Встречаемость (по принципу отсутствие – присутствие) и относительная численность (число особей на 100 ловушко-суток) 14 видов землероек и грызунов показаны в таблицах 9.1 и 9.2. Дальнейшая процедура сводится к следующему.
По данным таблицы 9.1 рассчитывается матрица расстояний между разными биотопами. Например, в ельниках (В) отмечено 12 видов мелких млекопитающих, а на вырубках (Е) – 5; из них общих для обоих биотопов – 5. Отсюда расстояние:
S = 1–10/17 = 0.41.
Смысл следующей операции – собственно кластеризации (от слова "кластер" – гроздь, группа) – состоит в последовательном объединении объектов в кластеры, в группы, внутри которых сходство между объектами выше, чем с другими объектами или кластерами. Вначале объединяются наиболее сходные объекты (с наименьшим расстоянием между собой), затем приближающиеся к ним по этому показателю и так далее до момента слияния всех объектов в один общий кластер. При этом на промежуточных этапах могут образовываться несколько отдельных кластеров. Уровень каждого объединения фиксируется и затем отображается на графике.
Таблица 9.1

Биотопы
Вид ЛС СЗ Е СЛ ЛМ В ЛО
А Б В Г Д Е Ж
Обыкновенная бурозубка 1 1 1 1 1 1 1
Средняя бурозубка 0 1 1 1 1 0 0
Малая бурозубка 0 1 1 1 1 1 1
Равнозубая бурозубка 0 0 1 1 0 0 0
Крошечная бурозубка 0 0 1 0 0 0 0
Водяная кутора 0 0 1 1 0 0 0
Лесная мышовка 1 1 1 1 1 1 0
Лесной лемминг 0 0 0 1 0 0 0
Полевая мышь 0 0 1 1 0 0 1
Мышь-малютка 0 0 1 0 0 0 1
Рыжая полевка 1 1 1 1 1 1 1
Красная полевка 1 1 1 1 1 0 0
Темная полевка 0 1 1 1 1 1 1
Полевка -экономка 0 0 0 1 1 0 1
Число видов 4 7 12 12 8 5 7

Таблица 9.2
ЛС СЗ Е СЛ ЛМ В ЛО
А 0.27 0.5 0.5 0.33 0.34 0.64 ЛС
Б 0.26 0.26 0.07 0.17 0.42 СЗ

В 0.17 0.3 0.41 0.58 Е

Г 0.21 0.41 0.47 СЛ

Д 0.23 0.47 ЛМ

Е 0.33 В

Ж ЛО
Существует множество вариантов процедуры кластеризации, из них наиболее простым считается метод "ближайшего соседа", не требующий обязательного использования ЭВМ. Сначала по матрице расстояний (табл. 9.2) отыскиваются ближайшие соседи для всех объектов и заносятся в таблицу наименьших расстояний (табл. 9.3). Так, к лишайниковому сосняку (А) ближе всего сосняк-зеленомошник (Б): SАБ = 0.27, а к сосняку-зеленомошнику (Б) – лиственное мелколесье (Д): SБД = 0.07, (минимальное расстояние из всех изученных биотопов).
Таблица 9.3
Сосед 1 Сосед 2 Расстояние, S Кластер Сосед 2 Расстояние,
S Кластер
А Б 0.27 1

Б Д 0.07 1

В Г 0.17 2 Б 0.26
Г В 0.17 2 Д 0.21 3
Д Б 0.07 1

Е Б 0.17 1

Ж Е 0.33 1

Заполнив четыре первые графы, приступают к построению предварительного дерева расстояний (рис. 9.1, А). Для этого на график наносят индексы объектов и расстояния между ними, соединяют их прямыми линиями. В нашем случае сначала образовалось два отдельных кластера (АБДЕЖ и ВГ), но их может быть и больше. Теперь вновь возвращаемся к таблицам 9.2 и 9.3. В пятой графе против объектов из меньшего кластера следует отметить индекс ближайших объектов из большего кластера, а в шестой – расстояние между ними. Далее выбираем звено наименьшей протяженности – это спелые лиственные леса (Г) и молодняки (Д): SГД = 0.21. Соединим на рисунке 9.1 кластеры пунктирной линией, и кластеризация завершена.
Последний этап – построение окончательного варианта дендрограммы. Здесь также есть несколько возможностей. Представленное на рис. 9.1, Б "древо минимальной протяженности" строится с учетом единственного условия – соблюдения пропорций расстояний между биотопами-соседями.

Рис. 9.1. А – схема поэтапной кластеризации; Б – "древо минимальной протяженности"; А–Ж – индексы биотопов
Классический вариант дендрограммы приведен на рис. 9.2. По оси абсцисс размещаются объекты в том порядке, который продиктован логикой их связей и субъективными вкусами исследователя, отдельные ветви "древа" при этом не должны пересекаться. По оси ординат откладывается расстояние между ближайшими соседями (рис. 9.2).
Интерпретация полученных результатов подчеркивает достоинства дендрограммы как емкой иллюстрации обобщающих характеристик. Так, в данных по Приладожью кластерный анализ выделил группы биотопов, наиболее близких по условиям обитания и видовому составу зверьков. Наиболее богаты видами еловые и смешанные леса (В и Г). Обедненными териокомплексами, представленными в основном политопными видами, характеризуются сосняки-зеленомошники, вырубки и лиственное мелколесье (Б, Е, Д). Население сосняков (Б и А) в общем сходно (табл. 9.1), но в лишайниковых сосняках видов очень мало. Наконец, наиболее обособленное положение занимает биотопический комплекс экотона – границы между лугом и лесом (Ж), включающий представителей смежных биотопов.

Рис. 9.2. Дендрограмма сходства биотопов по видовому составу мелких млекопитающих
При использовании в кластерном анализе количественных признаков применяют евклидову меру расстояния:

где xkj, xki – значения k-го признака у j-го и i-го объектов,
m – число учитываемых признаков.
Рассчитав матрицу расстояний между объектами по комплексу количественных признаков, проводят кластеризацию и построение дендрограмм по описанному выше методу. Рассмотрим эту процедуру на уже знакомом примере многовидовых группировок мелких млекопитающих в трех типах биотопов Приладожья (Б –сосняки-зеленомошники, В – ельники, Д – мелколесье), но по данным количественных учетов канавками (экз. на 10 канавко-суток; табл. 9.4).
Рассчитаем евклидово расстояние сначала между двумя биотопами – сосняком (Б) и ельником (В):
.
Таблица 9.4
Вид Численность,
экз. на 10 канавко-суток
сосняки-зеле-номошники
(Б) ельники
(В) лиственное мелколесье
(Д)
Обыкновенная бурозубка 3.9 7.2 6.0
Средняя бурозубка 1.8 1.1 0.5
Малая бурозубка 1.9 2.0 1.6
Равнозубая бурозубка 0.01 0.2 0.1
Крошечная бурозубка 0.04 0.04 0
Водяная кутора 0.04 0.06 0.4
Лесная мышовка 0.6 0.3 0.7
Лесной лемминг 0.2 0 0.05
Мышь-малютка 0.04 0 0
Рыжая полевка 1.5 0.8 0.8
Красная полевка 0.06 0.6 0.02
Темная полевка 0.2 0 0.7
Полевка-экономка 0 0.2 0.2
Всего 10.3 12.9 10.9
Повторив эту процедуру для других пар биотопов, получим dБД = 0.741 и dВД = 0.417. Сведем полученные данные в матрицу расстояний:
Б 0.97 0.74
В 0.42

Д
Сосед 1 Сосед 2 Расстояние, d
Б Д 0.74
В Д 0.42
Д В 0.42
Дендрограмма приведена на рис. 9.3. По сравнению с предыдущим случаем она выявляет новые нюансы отношений между биоценотическими комплексами млекопитающих. Если по видовому составу лиственные леса (Д) были ближе к соснякам (Б) (в отличие от ельников и там и тут встречались лесной лемминг и темная полевка), то по уровню численности лиственные леса ближе к ельникам (в отличие от сосняков в этих биотопах существенно больше обыкновенных бурозубок и рыжих полевок).

Рис. 9.3. Дендрограмма сходства биотопов по численности мелких млекопитающих
Когда изучаемые признаки имеют разную размерность (экз./га, кг, мм, %), то вместо таблицы исходных данных (см. табл. 9.4) для вычисления евклидовой меры расстояния следует подготовить таблицу нормированных значений. Для этого по каждой строке первичной таблицы рассчитываются средняя арифметическая (Мj) и стандартное отклонение (Sj), а затем – нормированные значения каждой варианты из этой строки:
,
где x – исходные значения вариант 1-й строки (i-го признака).
Например, для первой строки таблицы 9.4 М1 = 5.7, S1 = 1.67. Новые значения строки будут равны: t11 = (3.9–5.7)/1.67 = –1.078,
t12 = (7.2–5.7)/1.67 = 0.89, t13 = (6.0–5.7)/1.67 = 0.18.
Полученная таким образом таблица используется для вычисления евклидовой меры расстояния между объектами по рассмотренному выше алгоритму.
Кроме рассмотренных мер расстояния для кластерной классификации объектов исследования используют коэффициент корреляции ® в форме коэффициента "не-корреляции": dji = 1– rji. При этом следует использовать нормированные значения признаков.
В этом случае матрица расстояний формируется по предварительно рассчитанной корреляционной матрице. Поскольку метод корреляционного анализа рассмотрен нами выше, а дальнейшие процедуры несложны и очевидны, мы не иллюстрируем этот прием конкретным примером.
В среде Excel нет программы для проведения кластерного анализа. Но его можно выполнить с помощью пакета StatGraphics.

Ви переглядаєте статтю (реферат): «Методы многомерного анализа» з дисципліни «Введення в кількісну біологію»