Признак (свойство, показатель, величина, характеристика, переменная) – любая информация о наблюдаемом объекте, выраженная качественно или количественно определенная. В рамках вариационной статистики любые признаки выступают в роли случайной величины. Случайная величина – численная характеристика, принимающая те или иные заранее точно не известные значения. Несмотря на то, что точное описание поведения случайной величины получить нельзя, статистика способна выполнить вероятностное описание, позволяющее за множеством частных случаев увидеть их единство и дать довольно точные интервальные предсказания, решить поставленные биологией вопросы. Максимально эффективно это можно сделать, если не упускать из вида требования к формированию выборок. На этапе выбора (конструирования) признака следует иметь в виду ряд обстоятельств. Число свойств (признаков) любого объекта бесконечно, поэтому выбор того или иного признака должен хорошо соответствовать цели исследования. Довольно часто в биометрических исследованиях используются традиционные, общепринятые признаки ("стандартные промеры"), что само по себе не гарантирует адекватности рассматриваемого признака целям данного исследования или планируемого способа статистической обработки. Например, традиционные зоологические промеры "длина тела", Lt, и "длина хвоста", Lc, имеют общую опорную точку на теле животного – передний край анального (клоакального) отверстия. Во время измерения кожа неизбежно натягивается и эта точка всегда смещается относительно тела, что одновременно сказывается на обоих названных промерах, причем прямо противоположным образом. Если по выборке таких промеров оценить средние, они будут адекватно реальности отражать обобщенное свойство выборки животных и могут быть использованы для статистических сравнений с другими выборками. Если же использовать методы, изучающие зависимости признаков (корреляционный, регрессионный), то обозначенная методическая погрешность синхронного искажения промеров будет приводить к появлению ложной корреляции, тем более сильной, чем "чище" выборка, чем более сходны животные друг с другом (например, группа одновозрастных однополых особей). В соответствии с биологическим смыслом корреляция между размерами тела и хвоста должна быть положительной (чем больше животное, тем больше у него хвост). Однако ложная корреляция будет отрицательной (чем больше промер тела, тем меньше длина хвоста), она будет вычитаться из общей и тем самым искажать представления об истинной зависимости между признаками. Избежать таких проблем можно, используя видоизмененные признаки, например сумму длины тела и хвоста, т. е. признак "длина позвоночника". Подходя к формированию выборки, нужно определиться с числом регистрируемых признаков; если их будет несколько, каждая варианта (объект) окажется носителем нескольких значений.
Варианта с одним признаком Варианта с тремя признаками Увеличивая число зарегистрированных свойств, мы получаем возможность усложнять методы статистической обработки и от одномерных методов (описательная статистика) переходить к поиску зависимостей между двумя характеристиками (дисперсионный, регрессионный, корреляционный анализ) и многомерному анализу (кластерный, дискриминантный, компонентный анализы). Обычно регистрация нескольких признаков предполагает последующее применение корреляционного анализа. В этом случае имеет смысл позаботиться о том, чтобы признаки были одного вида (лучше, чтобы они были непрерывными). Вариационная статистика может дать биологу множество эффективных способов количественного описания наблюдаемых явлений, которые позволяют с наименьшими ошибками получить точное статистическое (доказательное) суждение в рамках соответствующего статистического метода. Эти рекомендации относятся как к выбору статистического параметра, соответствующего цели, так и к способу количественного описания фактов. Существует целый ряд методов регистрации признаков биологических объектов. Качество (нечисловой дискретный признак) – простой, непосредственный, чувственный способ регистрации фактов; это статус, сезон, таксон, цвет, плотность, тип действия и пр. Значения таких признаков выражаются словами или символами, они не имеют количественного содержания и выражают принадлежность данного объекта к определенной обширной группе объектов (зеленый, январь, ♀, ♪). Для обработки с помощью количественных статистических методов таким признакам придают количественное содержание разными способами. Простейший прием состоит в подсчете частоты встречаемости объектов разного качества в выборке. Так можно оценить соотношение числа особей разного пола в популяции, соотношение объемов возрастных групп, видовое разнообразие в экосистеме. Другой способ состоит в переводе качественных характеристик в полуколичественные, в ранги и баллы. Например, серия генераций разновозрастных животных может быть обозначена как 1, 2, 3,… Если, в соответствии с этой шкалой, одной особи будет присвоен ранг 1, а другой – 3, это означает только то, что вторая особь старше первой, но вовсе не в три раза. Другой пример относится к косвенной (полуколичественной) характеристике зон загрязнения вокруг промышленного предприятия. Обычно по мере удаления от источника выбросов уровень загрязнения среды снижается. Это можно выразить, ранжируя некоторые зоны в порядке ослабления влияния как 1, 2, 3 и т. д. Если же помимо общих соображений есть некие данные о степени загрязнения (по интенсивности запыления, угнетения растительности или другим признакам), зоны загрязнения могут получить балльную оценку, например, 10, 2, 1. В отличие от рангов баллы сообщают не только порядок, но и степень отличия градаций изучаемой характеристики. В нашем примере первая зона загрязнена существенно сильнее по сравнению со второй, чем вторая по сравнению с первой. Многие из качественных признаков оказываются следствием использования грубых (прикидочных, визуальных, чувственных) методов исследования, но их в принципе можно перевести в количественные показатели с помощью соответствующих процедур и приборов (это третий способ). Так, зоны загрязнения можно охарактеризовать в единицах концентрации вредных веществ, измеренных химическими или физическими методами; цвета спектра выражают в единицах длины волны электромагнитного излучения, ноты (звуки) – частотой колебаний в герцах и т. д. Ранг (номер) – дискретный полуколичественный признак, выражающий особенности объекта измерения относительно соседних с ним объектов другого качества. Ранжирование вариант – это процедура упорядочивания объектов по степени увеличения или снижения выраженности какого-либо качества, воспринимаемого органами чувств. Ранг позволяет говорить только о направлении отличий объектов, но не о степени этих отличий (например, у объекта 1 качество выражено слабее, чем у объекта 5 и у объекта 10, но вовсе не в 5 и 10 раз). Процедура ранжирования применяется и для упорядочивания вариант в алгоритмах непараметрической статистики. Балл (оценка) – дискретный полуколичественный признак, численная характеристика объекта, присвоенная в соответствии с внешней заранее принятой шкалой (Перегудов, Тарасенко, 1981; Зайцев, 1990). Вначале разрабатывается некая шкала баллов, учитывающая весь возможный диапазон изменчивости регистрируемых (чаще всего чувственно) качественных признаков и снабженная точными критериями различения объектов разного статуса, соответствующих разным баллам. Во время оценки объект соотносится с этими критериями и ему присваивается соответствующий балл. В качестве примера рассмотрим шкалу балльной оценки проективного покрытия чем-нибудь какой-либо поверхности. Зрительно человек хорошо отличает отсутствие покрытия (0 баллов – 0%) от единичных объектов (1 – 1–5%), единичные – от слабого покрытия (2 – 5–30%), слабое – от сильного (3 – 40–70%), сильное – от сплошного (4 – 90–100%). По этой причине соотношение между балльными и прямыми количественными оценками не прямо пропорциональное, а имеет степенное выражение (рис. 2.2).
Рис. 2.2. Соотношение между оценками и баллами
Это значит, что баллы 2 и 4 не обладают свойствами чисел 2 и 4, в частности, балл 4 не в два раза больше балла 2, для них арифметические и алгебраические операции применять нельзя, только логические операции сравнения. По этой причине для статистической обработки балльных оценок требуются специальные, непараметрические, методы. Это значит, что для рангов и баллов нельзя обычными методами рассчитывать многие выборочные параметры, например средние и дисперсии. Точнее говоря, их рассчитывать можно, например, для иллюстративных целей. Но эти величины не будут обладать свойствами статистических параметров, в частности, их нельзя статистически сравнивать (с помощью критериев Стьюдента или Фишера). Корректно будет характеризовать выборки балльных оценок с помощью частотных распределений, моды, размаха изменчивости. Балльные оценки оказываются грубыми и приблизительными. В соответствии с этим и методы непараметрической статистики могут иметь только невысокую точность статистических выводов. Известным хорошим компромиссом оказывается так называемая "шкала желательности", процедура преобразования качественных признаков в количественные с возможностью последующей обработки точными статистическими методами. Шкала желательности позволяет установить "соответствия между физическими и психологическими критериями" (Адлер и др., 1976, с. 36). С ее помощью любые характеристики среды (количественные или качественные) получают субъективную оценку исследователя, выраженную, тем не менее, числами в диапазоне от 0 до 1. В отличие от баллов функция желательности (d) является непрерывной величиной. Выраженность качества объектов наблюдения соотносят с заранее определенной целью или разной ролью значений изучаемых признаков в достижении этой цели. Чем более важно данное значение на пути к этой цели, тем более высокую оценку желательности оно получит. При формировании шкалы функции желательности для отдельного признака неким стандартом служит шкала из 5 интервалов (Адлер и др., 1976, с. 36) (табл. 2.1). Каждому интервалу функции ставят в соответствие определенные уровни выраженности свойств объектов измерений. Характеристика выраженности признака в ключевых точках (0.2, 0.37, 0.63, 0.80) должна быть как можно более точной. В качестве примера приведена шкала желательности для оценки качества воды водоема в целях рекреации (Калинкина, 1989).
Таблица 2.1 Желательность Диапазон значений функции желательности Пример шкалы желательности качества воды Очень хорошо 1.00 – 0.80 Чистая прозрачная вода Хорошо 0.80 – 0.63 Чистая слегка желтоватая вода Удовлетво-рительно 0.63 – 0.37 Темная вода или замутненная взвесью Плохо 0.37 – 0.20 Мутная вода с легким неприятным запахом Очень плохо 0.20 – 0.00 Грязная пахнущая вода После разработки шкалы с ее помощью можно проводить количественные оценки качества объектов. Полученный таким образом количественный признак оказывается непрерывным. Это свойство используется для объединения нескольких признаков, оцененных в разных шкалах желательности, в обобщенную функцию желательности (среднее геометрическое из n частных функций): . В результате мы получаем интегральную характеристику, учитывающую значимость всех регистрируемых признаков. Продолжая наш пример, можно оценить рекреационное качество среды в целом, учитывая не только желательные характеристики воды, но и почвы (берега), воздуха, ландшафта, растительности и пр. Используя такой емкий показатель, можно гораздо точнее формулировать приоритеты научно-практической деятельности. Сходный метод построения количественных шкал оценок относительной важности разных видов деятельности разработан в рамках метода анализа иерархий (Саати, Кернс, 1991). В заключении отметим, что показатели желательности или относительной важности являются близкими аналогами обобщающих характеристик, используемых в многомерных методах анализа (см. раздел 9). Количество (число) – дискретный количественной признак (число натурального ряда), характеризующий множество однородных объектов, черт, деталей строения, состав (например, число эмбрионов у самки, число жаберных тычинок у рыб, число тычинок в цветке, число деревьев на пробной площадке). Отдельную варианту получают, подсчитав число неких дискретных черт строения у отдельного объекта в пространстве ограниченного объема, а также в отдельной пробе. Это очень важное понятие. Оно дает одну из возможностей перевода качественных признаков в количественные и, кроме того, раскрывает смысл формирования частотных распределений разного типа. Для иллюстрации понятия "проба" рассмотрим умозрительный пример описания полового состава популяции животных. Если просто подсчитать число самок и самцов, то мы получим два числа, которые можно свести к одному – доле самок в процентах. Если же брать пробы, к примеру, по 10 особей, то число самок в разных пробах будет широко варьировать, создавая тем самым выборку различных вариант. Поскольку для чисел натурального ряда выполняются все операции арифметики, количественные признаки можно обрабатывать всеми параметрическими методами статистики. Для такой выборки можно рассчитать статистические параметры и проводить сравнение с параметрами других выборок. Промер (ряд дробных, рациональных, чисел) – непрерывный (мерный) количественный признак, характеризующий свойства объектов с помощью различных дополнительных количественных шкал – температурной, весовой, размерной, объемной и т. п. Отдельная варианта получает количественную характеристику выраженности данного признака у данного объекта (в пределах точности метода): температуру тела, его размеры, уровень глюкозы в крови и т. д. Большинство методов статистики разработано для исследования именно таких непрерывных признаков (параметрические методы).
Ви переглядаєте статтю (реферат): «Признак» з дисципліни «Введення в кількісну біологію»