Мы считаем, что любое статистическое исследование должно начинаться с установления характера распределения изучаемых признаков. Распределение – это соотношение между значениями случайной величины и частотой их встречаемости. Статистическая теория началась с идеи подсчитать, как часто случается то или иное событие. Бóльшая повторяемость одних значений по сравнению с другими заставляет задумываться о причинах, о закономерностях наблюдаемых процессов. В качестве первичного описания любого явления может выступить частотное распределение. Если значения признака откладывать по оси абсцисс, а частоты их встречаемости по оси ординат, то можно построить гистограмму, частотную диаграмму, удобную для целей иллюстрации и исследования. Основой для построения гистограммы служит вариационный ряд – представленный в виде таблицы ряд значений изучаемого признака (первый столбец), расположенных в порядке возрастания с соответствующими им частотами их встречаемости в выборке (второй столбец). Начнем с примера изучения плодовитости серебристо-черных лисиц, которое дало следующие результаты (число щенков на самку): 5565564445646646455853655555636464625653763468635 565438475431653456744656465. Для дискретного признака (такова плодовитость) построение вариационного ряда обычно не представляет сложности, достаточно подсчитать встречаемость конкретных значений. Плодовитость, x Частота, a 1 1 2 1 3 8 4 16 5 23 6 21 7 3 8 3
Гистограмма, построенная по данным о плодовитости лисиц (рис. 2.3), сразу же обнаруживает характерное поведение случайной величины – высокие частоты встречаемости значений в центре распределения и низкие по периферии.
Рис. 2.3. Распределение плодовитости лисиц
Если же изучаемый признак непрерывен (таковы размерно-весовые характеристики), то для построения вариационного ряда сначала весь диапазон изменчивости признака разбивается на серию равных интервалов (классов вариант), затем подсчитывают, сколько вариант попало в каждый интервал. Число классов для больших выборок (n>100) должно быть не менее 7 и не более 12, их оптимальное число можно приблизительно определить по эмпирической формуле: k = 1+3.32∙lg(n), где п – объем выборки. Составим для примера вариационный ряд для непрерывного признака – по данным о весе 63 взрослых землероек (г): 9.2 11.6 8.1 9.1 10.1 9.6 9.3 9.7 9.9 9.9 9.6 7.6 10.0 9.7 8.4 8.6 9.0 8.8 8.6 9.3 11.9 9.3 9.2 10.2 11.2 8.1 10.3 9.2 9.8 9.9 9.3 9.1 9.4 9.6 7.3 8.3 8.8 9.2 8.0 8.6 8.8 9.0 9.5 9.1 8.5 8.8 9.7 11.5 10.5 9.8 10.0 9.4 8.7 10.0 7.9 8.6 8.7 9.1 8.2 9.2 9.4 8.8 9.8
1) Все операции могут быть выполнены как вручную, так и с помощью функций Excel. Предвидя расчеты, на листе Excel данные лучше все-го разместить в столбце (на-пример, в блоке A2:A64). Да-лее следует определить объем выборки n, введя формулу в ячейку A1 и задав мышью диапазон: A1 =СЧЁТ(A2:A64).
2) Рассчитаем пределы размаха изменчивости значений, лимит (разность между максимальным и минимальным значением): Lim = Ymax – Ymin = 11.9–7.3 = 4.6, B1 =МАКС(A2:A64)–МИН(A2:A64). 3) Найдем число классов вариационного ряда по формуле: k = 1+3.32*lg(63) = 6.973811 ≈ 7, С1 =1+3.32*LOG10(A1). 4) Найдем длину интервала dx (допустимо округление): dx = Lim/ k = 4.6/ 7 ≈ 0.7, D1 =B1/C1. D2 =ОКРУГЛ(D1,1). 5) Установим границы классов; в качестве первой гра-ницы имеет смысл взять округ-ленное минимальное значение (D3 = 7). Для расчетов на листе Excel удобно к значениям пре-дыдущей границы прибавлять значение ширины интервала: D4 =D3+0.7 (или D4 =D3+$D$2); далее формулу следует ввести еще в семь ячеек, удобнее всего с помощью приема "автозапол-нение": D5 =D4+0.7 … (блок D5:D11). 6) Вычислить центральное значение признака в каждом клас-се. На листе Excel вычисления аналогичны рассмотренным в п. 4; исходным берется значение центра первого интервала: E4 =СРЗНАЧ(D4:D3) , E5 =E4+0.7, …, E10 =E9+0.7. 7) Произвести разноску вариант в соответствующие классы с подсчетом их числа методом конверта (табл. 2.2): 1 2 3 4 5 6 7 8 9 10 .
Для подсчета частот на листе Excel следует вызвать программу (макрос) построения вариационного ряда командой меню Сервис\ Анализ данных\ Гистограмма и заполнить окно. Каждое действие выполняется в два приема. Сначала нужно установить курсор в нужное окошко, щелкнув туда мышкой, затем мышкой же выделять соответствующие диапазоны ячеек листа Excel, нажимая левую кнопку над первой ячейкой диапазона и отпуская над последней (см. руководства к пакету Excel). В качестве "Входного интервала" задать массив ячеек, содержащих исходные значения вариант (A2:A64). "Интервал карманов" – это блок значений правых границ классовых интервалов (D3:D11). Для "Выходного интервала" достаточно указать мышью одну ячейку (F3), это будет верхняя левая ячейка для блока результатов подсчета частот. После этого нажать ОК. Если все сделано правильно, появятся результаты, совпадающие с табл. 2.2. Однако необходимо помнить, что на листе Excel значения частот ставятся в соответствие не центрам классовых интервалов, но их правым (большим) границам.
Рис. 2.4. Построение вариационного ряда в среде Excel
Чтобы в дальнейшем не путаться, можно сразу переместить значения центров интервалов на место соответствующих карманов. Для этого выделим диапазон E3:E11, перетащим на место F3:F11, подтвердив замену содержимого ячеек (рис. 2.4). Пустая ячейка E3 нужна для упрощения операции автоматического построения диаграммы – значения для оси абсцисс (первый столбец) не должны быть подписаны, а ячейка над значениями для оси ординат (второй столбец) должна содержать надпись.
Рис. 2.5. Распределение бурозубок по весу тела Теперь данные можно представить графически, в виде полигона частот (ломаной кривой) или гистограммы (столбиками). Выделим диапазон E3:F10 и с помощью Мастера диаграмм или кнопки Тип диаграммы построим Гистограмму или График (рис. 2.5). Отметим, что шкалирование осей диаграммы прошло автоматически.
Ви переглядаєте статтю (реферат): «Построение вариационного ряда» з дисципліни «Введення в кількісну біологію»