В биологии часто встречается ситуация, когда одна из полученных вариант сильно отличается от остальных. Эти отклонения могли возникнуть в результате неточности измерений, ошибок внимания, методических погрешностей и т. д. Можно ли такие резко выделяющиеся значения использовать при дальнейших расчетах? С помощью этой редко возникающей задачи о принадлежности данной варианты к данной выборке мы сделаем необходимый переход от практики статистического оценивания к практике проверки статистических гипотез. Любая статистическая задача – суть вопрос о принадлежности разных вариант к единой генеральной совокупности, о том, что сравниваемые выборочные варианты испытывают на себе действие одних и тех же доминирующих и случайных факторов. В терминах математической статистики поставленный вопрос звучит так: относится ли данная варианта вместе с другими вариантами изучаемой выборки к одной и той же генеральной совокупности или – к разным? Его можно сформулировать и по-другому: сформировано ли данное значение варианты под действием тех же доминирующих и случайных факторов, что и все остальные варианты данной выборки, или это были иные факторы? Здесь возможны два ответа: 1. Факторы те же, т. е. все варианты взяты из одной и той же генеральной совокупности. 2. Факторы иные, т. е. особенная варианта и выборка порознь взяты из разных генеральных совокупностей. Ответ на этот вопрос можно получить с использованием рассмотренных выше свойств нормального распределения. Так, если все варианты были взяты из одной генеральной совокупности, значит, поведение их должно быть однородным, они должны отличаться только в силу случайных причин и (с вероятностью P = 0.95) находиться в диапазоне M±2∙S. Иными словами, по случайным причинам варианты достаточно большой выборки будут отклоняться влево или вправо от средней арифметической не более чем на 2∙S: x–M < 2∙S или (x–M)/S < 2. Общепринятой безразмерной характеристикой отклонения отдельной варианты от средней арифметической служит нормированное отклонение, оно показывает, на сколько стандартных отклонений отклоняется та или иная варианта от среднего уровня варьирующего признака, и выражается формулой: ~ tтабл., где t – критерий выпада (исключения); x – выделяющееся значение признака; М – средняя величина для группы вариант; tтабл. – стандартные значения критерия выпадов, определяемые свойствами нормального распределения, их можно найти по табл. 5П для трех уровней вероятности (для больших выборок обычно пользуются значением tтабл. = 2 при P = 0.95, или α = 0.05). Используя этот показатель, можно утверждать, что для вариант, принадлежащих к данной достаточно большой выборке, нормированное отклонение меньше двух (с вероятностью P = 0.95): t < 2. Если же на отдельную варианту действовал какой-либо новый фактор, который вызвал дополнительное, т. е. не случайное, отклонение от средней, то такая варианта окажется за пределами указанного диапазона M±2S, а ее нормированное отклонение будет равно или больше двух: t ( 2. Нормированное отклонение есть простейший статистический критерий, который помогает определять так называемые "выскакивающие" варианты и решать вопрос о возможности их отбрасывания как артефактов (исключать из дальнейшей обработки). Смысл критерия "исключения" состоит в том, чтобы определить, находится ли данная варианта в интервале, характерном для большинства членов выборки, или же вне его. Если значение критерия больше табличного, то это означает, что данное значение не относится к анализируемой совокупности, а есть проявление каких-то особых закономерностей, ошибок и пр. и должно быть поэтому исключено из рассмотрения (отброшено). При этом иногда рекомендуют значения параметров (M, S) рассчитывать без учета "подозрительной" варианты. После такой "чистки" параметры выборки должны быть рассчитаны заново. К оценке чужеродности вариант, как и к другим методам статистики, нельзя подходить формально; цель биометрического исследования всегда состоит в том, чтобы понять специфику явления. В частности, "отскакивающая" варианта может быть следствием того, что признак имеет иное, не-нормальное распределение. Рассмотрим работу критерия на примере. При измерении длины черепа взрослых самцов обыкновенной землеройки-бурозубки получены выборки с такими параметрами: М = 18.8, S = 0.3 мм. Общее число животных n = 85. Вызывают сомнения два слишком больших значения 19.2 и 21.0. Определим для них критерии выпада: , . Согласно таблице 5П, критическое значение нормированного отклонения для уровня значимости α = 0.05 и n = 85 равно t = 2.0. Поскольку первое полученное значение (1.3) меньше табличного (2), первый из сомнительных результатов исключать не следует, а второй должен быть отброшен – критерий выпада (7.3) превышает табличное значение (2). Понятие "нормированное отклонение" позволяет ввести важнейшее понятие статистики. Статистика – безразмерная случайная величина, которая имеет известный закон распределения и используется в качестве критерия для проверки статистических гипотез. В этом смысле нормированное отклонение есть статистика. Во-первых, это безразмерная величина, поскольку единицы измерения числителя (xi–M) и знаменателя (S) взаимно уничтожаются. Во-вторых, оно имеет вполне определенное распределение (в случае непрерывных признаков – нормальное) со своими параметрами. Его средняя равна нулю Mt = tM = (M–M)/S = 0, а стандартное отклонение равно единице St = tS = (S–M)/S = (S–0)/S = S/S = 1. Последний тезис стоит рассмотреть более предметно, поскольку он имеет большое практическое значение. Рассмотрим на примере конкретных данных, почему нормированное отклонение имеет такие параметры. Значения длины хвоста (Lc, мм) для выборки из n = 9 гадюк дают среднюю M = 73.1, стандартное отклонение S = 11.7 мм.
M S xLc 58 59 75 93 65 85 79 68 76 73.1 11.7 tLc –1.29 –1.2 0.16 1.69 –0.69 1.01 0.50 –0.44 0.25 –0 1 Рассчитаем для каждого значения нормированное отклонение, например, для x = 59 t = (x–M)/S = (59–73.1)/11.7 = –1.20, а для x = 93 t = (93–73.1)/11.7 = 1.69. Нетрудно подсчитать, что для полученного ряда нового расчетного признака t средняя по всему ряду составит Mt = –2∙10-16 ≈ 0, стандартное отклонение St = 1. Здесь важно подчеркнуть, что нормированное отклонение – универсальная величина. Какой бы признак (имеющий нормальное распределение) мы ни брали, его значения можно выразить в виде расстояния от центра в единицах стандартного отклонения, т. е. на сколько S данное значение x отклонилось от M. При этом, как следует из свойств нормального распределения, крайние значения в 95% случаев не будут принимать значения меньше –2 и больше 2 (рис. 5.1).
Рис. 5.1. Переход от реального признака x к нормированному отклонению t
С помощью нормированного отклонения можно, например, сравнивать объекты разного качества (организмы разных видов, разных пород и сортов, разных возрастов) – по разным свойствам (признакам). Так, промеры длины хвоста (Lc, мм) и длины тела (Lt, см) у выборки гадюк разного пола позволяют увидеть, что самец № 5 при средних размерах тела (xLt = 0.03) обладает относительно небольшим хвостом (tLc = –0.69), а самец № 6 при такой же длине имеет существенно более длинный хвост (tLc = 1.01).
№ 1 2 3 4 5 6 7 8 9
Пол f f m m m m f m f M S xLc 58 59 75 93 65 85 79 68 76 73.1 11.7 tLc –1.29 –1.20 0.16 1.69 –0.69 1.01 0.50 –0.44 0.25 0.00 1.00 xLt 45 46 48 49 50 50 53 53 55 49.9 3.3 tLt –1.47 –1.17 –0.57 –0.27 0.03 0.03 0.93 0.93 1.53 0.00 1.00
Нормированное отклонение можно использовать и для сравнительной оценки разных индивидов по одному и тому же признаку. Например, если сопоставляемые по относительному весу сердца молодая и взрослая землеройки-бурозубки демонстрируют одинаковые показатели (10.5 мг%), то это, тем не менее, не означает их сходства по изучаемому признаку. Используя известную информацию (у молодых средний индекс сердца равен M = 10.0 при стандартном отклонении S = 1.3, у взрослых – M = 11.8, S = 1.1), рассчитаем нормированное отклонение для молодого зверька и для взрослого . Налицо существенное различие: взрослый зверек имеет относительно низкий показатель сердечного индекса, а молодой близок по этому признаку к видовой норме. Наибольшее развитие такой подход получает в процедурах обработки многомерных данных, при исследовании объектов, охарактеризованных по многим признакам, методом корреляций, главных компонент, при их кластеризации и т. п. Во многих случаях обработка многомерного массива начинается с нормирования данных по формуле нормированного отклонения.
Ви переглядаєте статтю (реферат): «Задача "доказать чужеродность варианты"» з дисципліни «Введення в кількісну біологію»