Этот метод многомерной статистики служит для дискриминации, т. е. различения (дифференциации) и диагностирования (распознавания) биологических объектов и явлений, отличия между которыми неочевидны. В медицине этот метод используется для идентификации заболевания по ряду показателей (характерных симптомов), а в биологии – для установления групповой принадлежности отдельных особей (объектов). Иными словами, общая задача дискриминантного анализа заключается в том, чтобы определить, к какой из двух известных групп объектов принадлежит изучаемый объект. Как и в кластерном анализе, исследуемые объекты представлены несколькими численными признаками и (в простейшем случае) требуется сформировать один расчетный признак, однозначно характеризующий каждый объект. Однако задачи дискриминантного анализа прямо противоположны кластерному: не выделить из множества объектов группы близких, а отнести тот или иной объект к определенной, априорно выделенной группе. Эта идентификация (дискриминация) объекта выполняется с помощью уравнения дискриминации (дискриминантной функции), которое воплощает в себе максимальное отличие между предварительно заданными группами (дискриминация "с обучением"). Рассмотрим общий принцип использования этого метода на примере определения пола у пеночек-весничек. Визуально молодые самцы и самки этого вида не различаются, а распределения морфологических признаков (длина крыла, хвоста, цевки) у них довольно сильно перекрываются, что не позволяет с уверенностью диагностировать пол этих птиц. Например, для длины крыла степень трансгрессии составляет 20%, а длины цевки – 90%. Между тем дискриминантный анализ в силах справиться с подобной задачей.
Рис. 9.4. Зона трансгрессии – наложение "хвостов" распределений На основе реальных признаков птиц математически рассчитывается искусственный и единственный признак, учитывающий все незначительные морфологические отличия полов в целом по всем признакам. Эти расчеты проводятся с условием, чтобы различия между группами самцов и самок стали наиболее выраженными, а трансгрессия между их распределениями – наименьшей. Так удается свести к минимуму долю животных неопределенного пола и с высокой степенью достоверности предсказывать пол по морфологическим признакам. В основе дискриминантного анализа лежит дискриминантная функция; для двух признаков она имеет такой вид: . Как можно видеть, признаки х и у, объединяясь, дают один признак Z. Если в анализ будут включены размерные признаки, такие как длина крыла и длина хвоста, то новый признак можно назвать " относительные размеры тела". Коэффициенты a и b оценивают "вклад" каждого из признаков в диагностические возможности функции. На первых этапах работы в расчеты обычно вовлекается большое число реальных признаков, многие из которых никак не влияют на диагностические возможности дискриминантной функции, для них дискриминантные коэффициенты близки к нулю. Такие признаки исключают из рассмотрения, а дискриминантую функцию рассчитывают заново. Формальным критерием для отбраковки "неинформативных" признаков служит аналог критерия Стьюдента для оценки значимости коэффициентов регрессии, который мы не рассматриваем. Коэффициент Н – это граничная величина между значениями Z для самцов и самок. Свободный член уравнения ΔZ – поправка на разные объемы выборок. Теперь сформулируем задачу более конкретно. У 10 самцов и 10 самок погибших по разным причинам пеночек-весничек (их пол был определен путем вскрытия) взяли промеры длины крыла и хвоста. По этим данным вычислены необходимые для дальнейших расчетов величины (суммы значений, их квадратов и произведений), сведенные в таблицу 9.5: Σx = 1218; Σx² = 74324 5; Σy² = 9275; Σy² = 43087.25;Σ(х∙у) = 56564.5. Таблица 9.5 Самцы (1) 65 50 4225 2500 3250 0.14 61 47 3721 2209 2867 0.01 64 48 4096 2304 3072 0.09 63.5 51 4032.25 2601 3238.5 012 63 47 3969 2209 2961 0.05 62 46 2844 2116 2852 0.02 63 48 3969 2304 3024 0.07 63.5 48 4032.25 2304 3048 0.08 62 47 3844 2209 2914 0.03 64 46 4096 2116 2944 0.06 Σ1 = 631 478 39828.5 22872 301705 – Самки (2) 59 44 3481 1936 2596 –0.08 59 46 3481 2116 2714 –0.05 54 45 2916 2025 2430 –0.17 57.5 43 3306.25 1849 2472.5 –0.12 61 46.5 3721 2162.25 2836.5 0.0004 60.5 46 3660.25 2116 2783 –0.01 57.5 45 3306.25 2025 2722.5 –0.09 58 44 3364 1936 2552 –0.10 60.5 45 3660.25 2025 2610 –0.03 60 45 3600 2025 2700 –0.04 Σ2 = 587 449.5 34496 20215.25 26416.5 – Σ = 221218 927.5 74324.5 43087.25 56564.5 – Теперь определим средние арифметические: Mx1 = 631/10 = 63.1; My1 = 478/10 = 47.8; Mx2 = 58.7; My2 = 44.95 и их разности: dx = 63.1–58.7 = 4.4; dy = 47.8–44.95 = 2.85. Находим также вспомогательные величины: , , . Наконец, для определения коэффициентов а и b необходимо решить следующую систему уравнений:
. Ее корнями будут: , . Теперь найдем средние значения признака Z для самцов и самок: Z1 = a∙Mx1 + b∙My1 = 0.021423∙63.1 + 0.015335∙47.8 = 2.0848, Z2 = a∙Mx2 + b∙My2 = 0.021423∙58.7 + 0.015335∙44.95 = 1.9468. Определяем разность между этими средними, или центроидами: (D = Z1 – Z2): D = 2.0848 – 1.9468 = 0.138. Найдем границу между группировками самцов и самок: Н = Z2 + D/2 = 1.9468 + 0.138/2 = 2.0158. Так получен третий член уравнения дискриминации. Что касается четвертого, поправки на объем выборки, то он определяется по формуле: , где nmax – объем большей, nmin – объем меньшей выборки объектов разного качества. В нашем случае поправка равна 0, так как группы имеют одинаковый объем (по 10). Теперь можно записать уравнение дискриминации в полном виде: Z = 0.021423∙x + 0.015335∙у – 2.0158. Рассчитаем с его помощью значения нового признака "относительные размеры тела" для конкретных особей. Для первого самца величина разницы составит: Z11 = 0.021423∙65 + 0.015335∙50 – 2.0158 = 0.14. Значения для всех остальных особей занесены в таблицу 9.5, из которой видно, что самцы имеют положительные, а самки (кроме одной) – отрицательные значения функции Z. Распределения нового признака перекрываются на одну двадцатую часть, всего на 5%. По исходным данным видно, что трансгрессия по признаку х составила 10% (значение 61), а по признаку у – 25% (значения 46 и 46.5). Таким образом, рассчитанный признак характеризуется меньшей трансгрессией по сравнению с реальными признаками, т. е. позволяет снизить число неверных определений пола у живых птиц. Дальнейшие операции, связанные с использованием дискриминантной функции, вполне очевидны. Для особи с неизвестным полом, но известными промерами частей тела (когда птица после отлова и взятия промеров отпускается живой) вычисляется значение функции. Если оно больше 0, значит, это самец, если меньше – самка. Заключительный этап – оценка достоверности уравнения по критерию Фишера: ~ F(α, 2, n–3). В нашем случае . По лученное значение критерия Фишера (0.32) меньше табличного (табл. 7П) для α = 0.05 и df1 = 2, df2 = 20–3 = 17 F(α, 2,n–3) = 3.6, значит, уравнение недостоверно. Это объясняется небольшим объемом выборки в нашем примере: для исходных данных из 50 экз. птиц каждого пола (обычный объем зоологического материала) критерий Фишера был равен F = 4.2 при F(α, 2, 47) = 3.1. Отсюда следует, что уравнение дискриминации для 50 особей достоверно и вполне пригодно для прижизненного определения пола пеночек-весничек. Уверенность в результатах анализа может придать оценка работоспособности дискриминантной функции на независимой проверочной выборке особей с известным статусом.
Ви переглядаєте статтю (реферат): «Основы дискриминантного анализа» з дисципліни «Введення в кількісну біологію»