Кореляційно-регресійний аналіз валового збору і врожайності сільськогосподарських культур
Як було згадано вище, вивчення впливу різних факторів на рівень валового збору і врожайності можна здійснити за допомогою методу статистичних групувань. Але цей метод дозволяє лише встановити наявність і напрям зв’язку (впливу) того чи іншого фактора на врожайність і дати певне уявлення про силу цього зв’язку. Порівняльну ж кількісну сторону цього зв’язку, тобто кількісну характеристику впливу різних факторів на зміну рівня врожайності, встановити за допомогою методу групувань не можна. Слід мати на увазі і той факт, що метод статистичних групувань щодо вивчення взаємозв’язків між факторами має досить вузькі межі застосування. Так, комбінаційне аналітичне групування можна, як правило, аналізувати, лише тоді, коли воно побудовано на основі не більше ніж трьох факторів, оскільки побудова комбінаційного аналітичного групування за більшою кількістю ознак призводить, як правило, до швидкого подрібнення сукупності на численні групи, які містять лише кілька одиниць; при цьому навіть деякі виділені групи пустують. Тому поряд з надзвичайно важливим методом групувань виникає нагальна потреба застосовування й інших способів, зокрема кореляційно-регресійного аналізу. Оскільки врожайність є синтетичним показником, рівень якого зумовлений дією багатьох факторів, в аналізі доцільніше використовувати не прості двофакторні, а багатофакторні кореляційно-регресійні моделі, які дають змогу вивчити відразу вплив кількох факторів. Використання в аналізі рівня урожайності багатофакторних кореляційно-регресійних моделей дає можливість розв’язати такі два основні завдання: визначити і кількісно виміряти ступінь впливу як окремих факторів, так і їх сукупності на рівень врожайності і тим самим виділити важливіші фактори, що формують її рівень; на основі побудованих кореляційно-регресійних моделей, що характеризують залежність врожайності від різних факторів, можна робити розрахунки кількісних змін рівня врожайності при зміні на певну величину окремих факторів, що вивчаються, тобто робити розрахунки очікуваного рівня врожайності та здійснювати його прогнозування при заданих значеннях факторних ознак. Відзначимо також, що безперечною перевагою кореляційно-регресійного аналізу порівняно з методом статистичних групувань є не лише їх значні аналітичні можливості, але й більша інформаційна ємність. Кореляційно-регресійний аналіз при обсязі сукупності близько 100 одиниць дає змогу досліджувати 8—10 факторів. Щодо значного обсягу лічильної роботи, пов’язаної із застосуванням кореляційно-регресійного аналізу, то в даний час існує ціла низка пакетів прикладних програм, які дають змогу негайно після введення вхідних даних у персональний комп’ютер і вибору конкретного виду рівняння регресії одержати не лише параметри відповідного рівняння регресії, але й інші статистичні характеристики, що необхідні для його дослідження. Нагадаємо також, що побудові багатофакторних кореляційно-регресійних моделей залежності врожайності від різних факторів повинен передувати теоретичний якісний аналіз, на основі якого, виходячи з цілей і завдань дослідження, відбираються для вивчення фактори, що визначають рівень врожайності. При цьому потрібно мати на увазі, що змістовність результатів аналізу багато в чому визначається ступенем наукової обґрунтованості добору факторів. Одна з основних умов їх відбору — результативна ознака (врожайність) — повинна перебувати в причинному зв’язку з факторними ознаками. По-перше, до багатофакторної кореляційно-регресійної моделі урожайності повинні включатись лише ті фактори, які з точки зору економічної теорії можуть здійснювати вплив на рівень врожайності. По-друге, показники, що характеризують відібрані фактори, повинні мати кількісний вираз. Список цих факторів може бути або досить широким, або обмежуватися лише необхідною вихідною інформацією. Число включених до моделі факторів повинно бути практично доцільним. Ця вимога означає, що при моделюванні економічних показників необхідно прагнути використовувати мінімальну кількість факторів, в основному тих, що визначають коливання, варіацію досліджуваного показника. Включення до моделі великого числа факторів може призвести до того, що модель відобразить не тільки закономірності, притаманні даному явищу на тлі випадкових коливань, але й самі випадкові коливання. До того ж варто мати на увазі, що розроблені багатофакторні кореляційно-регресійні моделі повинні бути зручними для практичного використання і зрозумілі працівникам будь-якого рівня управління. Однак різноманіття факторів, їх взаємозв’язок один з одним і наявність протилежних тенденцій у впливі на рівень досліджуваного показника дуже ускладнює завдання визначення істотних факторів. Через це добір факторів, що включаються до кореляційно-регресійної моделі, доцільно проводити в два етапи. На першому етапі на основі теоретичного аналізу відбираються фактори, що визначають рівень досліджуваного явища і числове значення яких можна визначити за даними офіційної статистичної і бухгалтерської звітності. Потім на другому етапі за допомогою ПЕОМ робиться вибір найбільш значимих з них на основі розрахунку парних коефіцієнтів кореляції. Слід мати на увазі, що включені до моделі фактори не повинні перебувати між собою у функціональному або близькому до нього за змістом зв’язку. Ця вимога випливає з тих розумінь, що наявність функціональних зв’язків між факторами призводить до того, що вони якоюсь мірою дублюють один одного. Крім того, наявність функціональних зв’язків між факторами, що входять до багатофакторної кореляційно-регресійної моделі, призводить до того, що матриця системи нормальних рівнянь виявляється погано зумовленою, тобто визначник системи нормальних рівнянь є числом, що незначно відрізняється від нуля. У цьому разі система нормальних рівнянь або не має рішення, або результати рішення містять грубі помилки, а тому не мають практичного значення. На наявність функціональних зв’язків указують коефіцієнти парної кореляції, якщо їх значення за абсолютною величиною перевищує 0,8. Наявність такого лінійного зв’язку між двома факторами називається колінеарністю, а між кількома факторами — мультиколінеарністю. Необхідно зазначити, що явище мультиколінеарності може мати місце також і в тому випадку, якщо до багатофакторної кореляційно-регресійної моделі буде включена група факторів, лінійна комбінація яких дорівнює сталій величині або близька до неї. Так, включення до моделі всіх структурних елементів собівартості зернових культур у відсотковому нарахуванні викликає явище мультиколінеарності. Якщо в процесі аналізу встановлено наявність мультиколінеарних факторів, то необхідно виключити з розгляду один або кілька лінійно зв’язаних факторів. Питання в тому, який фактор усунути з моделі, а який залишити, повинно вирішуватися, виходячи насамперед з аналізу величини того впливу, що здійснює кожний з факторів на зміну результативної ознаки. Для цього складається матриця парних коефіцієнтів кореляції, що вимірюють щільність зв’язку кожного фактора з результативним ryi, і факторів між собою rij. Потім відбір факторів здійснюється за такими критеріями: . Таким чином, у рівняння багатофакторної кореляційно-регресійної моделі не слід включати фактори, які мають слабкий зв’язок з результативним показником, але щільніший — з іншими факторами. Крім того, з огляду на специфіку сільського господарства для одержання об’єктивних висновків у результаті проведення кореляційно-регресійного аналізу врожайності, як, до речі, й інших синтетичних показників сільськогосподарського виробництва, для яких характерна різноманітність кількісного відображення, необхідно кожний включений до моделі фактор виражати через один кількісно визначений показник, а не кількома, що характеризують ту чи іншу його сторону. Для цього при побудові багатофакторних кореляційно-регресійних моделей рекомендується використовувати агреговані зведені показники (наприклад, від ознак родючості ґрунтів перейти до їх єдиної бальної оцінки; усі добрива виражати у вагових одиницях у перерахунку на 100% поживних речовин і т. д.). Крім того, щоб одержати надійніші і значиміші результати вивчення залежності врожайності від різних чинників, дослідження необхідно проводити не на підставі даних тільки одного якогось довільно взятого року, а за кілька років, щоб усунути вплив метеорологічних умов окремих років, що є однією з основних причин різких коливань як рівня врожайності, так і всіх інших показників сільськогосподарського виробництва в окремі роки. Однак це жодним чином не означає, що побудова багатофакторних кореляційно-регресійних моделей по окремих роках позбавлена змісту. Вивчення залежності в динаміці окремо по кожному року за той або інший період, скажімо, за 3—5 років, дає змогу виявити і вивчити тенденцію зміни впливу окремих чинників на рівень урожайності. Не можна також не відзначити, що однією з передумов застосування кореляційно-регресійного аналізу, яку іноді висувають, є необхідність підпорядкування розподілу одиниць сукупності за результативними і факторними ознаками закону нормального розподілу. Підставою для цього є те, що тільки при нормальному розподілі методу найменших квадратів, що звичайно використовується при розрахунку параметрів рівняння регресії, можна одержати правильну їх оцінку. Практика застосування багатофакторного кореляційно-регресійного аналізу свідчить, що цілком задовільні результати можна одержати, якщо кількісні характеристики включених до моделі факторів не набагато відрізняються від нормального розподілу. При значному відхиленні розподілів ознак від нормального закону оцінка надійності коефіцієнтів кореляції некоректна. Нарешті, при застосуванні багатофакторних кореляційно-регресійних моделей в аналізі факторів урожайності, як і у всіх випадках їх побудови, важливе значення має правильний вибір типу рівняння регресії, здатного найточніше відобразити реально існуючі залежності між урожайністю і визначаючими її рівень факторами, а також достатній обсяг досліджуваної сукупності. Практика багатофакторного кореляційно-регресійного аналізу свідчить про те, що лінійні рівняння найчастіше досить повно відображають закономірності формування рівнів досліджуваних суспільних явищ. Це можна пояснити тим, що у визначеному інтервалі самі складні залежності можуть бути приблизно добре відображені лінійним рівнянням. Крім того, варто мати на увазі, що збільшення числа параметрів рівняння може призвести до помилок значніших, ніж ті, що пов’язані із застосуванням лінійної форми зв’язку, оскільки складні функції можуть спотворити дійсні залежності між явищами, відтворюючи на тлі випадкових коливань не тільки закономірності, властиві досліджуваним явищам, але й самі випадкові коливання. До того ж застосування складних функцій з великим числом ознак створює значні труднощі при розрахунку параметрів рівняння кореляційно-регресійних моделей і особливо їх економічної інтерпретації. Лінійні ж функції відрізняються відносною простотою і меншим обсягом обчислень, а методика їх рішення доступна і досить ґрунтовно розроблена. До того ж лінійна форма побудови багатофакторних моделей передбачена пакетами прикладних програм для ПЕОМ. У зв’язку з цим на даний час при побудові багатофакторних кореляційно-регресійних моделей частіше за все використовуються лінійні функції. У загальному вигляді рівняння багатофакторної регресії в лінійній формі має такий вигляд: , де Y — теоретичне значення результативної ознаки; а0 — вільний член рівняння регресії; аi — часткові коефіцієнти регресії; хi — фактори, що включені до рівняння регресії. Часткові коефіцієнти рівняння багатофакторної регресії (аi) свідчать, на скільки одиниць свого виміру в середньому зміниться рівень результативної ознаки, якщо розмір кожного фактора зміниться на одиницю свого виміру за умови, що всі інші фактори, включені в рівняння, перебуватимуть на незмінному (середньому) рівні. Вільний член рівняння багатофакторної регресії (а0) показує теоретичний рівень результативної ознаки за умови, що всі факторні ознаки (хi), які включені до моделі, дорівнюють нулю. Якщо ж факторні ознаки в досліджуваній сукупності не приймають значень, близьких до нуля, і рівняння регресії при факторах хi = 0 взагалі не існує, то вільний член рівняння багатофакторної регресії не має ніякого реального економічного змісту, а є тільки розрахунковою величиною. Часткові коефіцієнти регресії аi, кількісно виміряючи залежність між результативною ознакою і факторними ознаками, є непридатними для відносного порівняння впливу окремих факторів на результативний показник. Це пов’язано з тим, що часткові коефіцієнти регресії аi є іменованими числами, вираженими в різних одиницях вимірювання. До того ж величина коефіцієнта регресії при хi значною мірою залежить від числового значення факторів, від прийнятої одиниці їх вимірювання. Якщо абсолютне значення фактора велике, то частковий коефіцієнт регресії при цьому факторі виражається відносно невеликим числом. При малому ж числовому значенні фактора величина часткового коефіцієнта регресії при даному факторі зростає. Отже, більш високий коефіцієнт регресії при хi ще не свідчить про сильніший вплив даного фактора на результативну ознаку. Отже, щоб коефіцієнти регресії були порівняні між собою, їх необхідно виразити в однакових одиницях вимірювання. Зіставлення величин коефіцієнтів багатофакторної регресії стає можливим при обчисленні так званих коефіцієнтів еластичності (Еi). Для рівняння лінійної багатофакторної регресії коефіцієнти еластичності обчислюються за формулою:
де аi — коефіцієнт регресії i-го фактора; — середня арифметична i-го фактора; — середня арифметична результативної ознаки. Частковий коефіцієнт еластичності показує, на скільки відсотків у середньому зміниться результативна ознака при зміні даного фактора на один відсоток його середнього розміру при фіксованому (середньому) значенні інших досліджуваних факторів. Однак при визначенні ступеня значимості впливу аналізованих факторів на результативну ознаку явно недостатньо використовувати окремо часткові коефіцієнти регресії і коефіцієнти еластичності, оскільки може виявитися, що фактор, який має найбільший вплив, має незначні резерви зміни. При аналізі ж факторів, що впливають на рівень результативного показника, першорядне значення має виявлення саме тих факторів, у розвитку яких закладено найбільший ріст рівня результативного показника. У зв’язку з цим виникає необхідність мати показник, що давав би можливість визначити ступінь значимості впливу на результативну ознаку аналізованих факторів з урахуванням розбіжностей рівня їх коливання, мінливості. Таким показником є так звані стандартизовані коефіцієнти регресії, або β-коефіцієнти, що обчислюються за формулою:
де аi — коефіцієнт регресії i-го фактора; — середньоквадратичне відхилення i-го фактора; — середньоквадратичне відхилення результативної ознаки. -коефіцієнти свідчать, на яку частину середньоквадратичного відхилення зміниться значення результативної ознаки зі зміною відповідного фактора на одне середньоквадратичне відхилення при фіксованому (середньому) значенні інших досліджуваних факторів. Щодо обсягу одиниць досліджуваної сукупності, то загальноприйнятим є положення, що кількість одиниць сукупності повинна перевищувати кількість включених до моделі факторів щонайменше в 5—6 разів. Крім того, досліджувана сукупність обов’язково має бути достатньо якісно однорідною. Недотримання цієї умови може спотворити результати аналізу. Розглянемо розрахунок і тлумачення статистичних характеристик багатофакторної кореляційно-регресійної моделі врожайності цукрових буряків (фабричних) на прикладі даних 23 колективних сільськогосподарських підприємств Кагарлицького району Київської області. Вихідні дані та результати розрахунків на ПЕОМ за допомогою програми EXCEL 97 відповідних статистичних характеристик багатофакторної кореляційно-регресійної моделі врожайності цукрових буряків (фабричних) подані в табл. 30. Значення всіх щойно вказаних статистичних характеристик наведено в нижній частині таблиці. На основі середніх значень результативного і факторних показників і відповідних значень середнього квадратичного відхилення обчислені значення коефіцієнтів варіації. Дані таблиці показують, що в досліджуваних господарствах Кагарлицького району найбільш різке коливання (коефіцієнт варіації, V) спостерігається по таких показниках, як урожайність цукрових буряків (фабричних) (V = 40,0%), площа сільськогосподарських угідь (V4 = 38,3%), середньорічна чисельність робітників, зайнятих у сільському господарстві (V3 = 34,5%). Приблизно однакові розбіжності між досліджуваними господарствами спостерігаються по показниках середньорічної оплати праці на одного працівника, зайнятого в сільському господарстві (V2 = 28,4%), і питомої ваги цукрових буряків (фабричних) у вартості реалізованої продукції рослинництва (V1 = 30,2%), що вказує на більш-менш однаковий їх рівень у різних господарствах. Таблиця 30 Вихідні дані і статистичні показники багатофакторної кореляційно-регресійної моделі
Аналіз коефіцієнтів асиметрії А та ексцесу Е відібраних у модель показників на відповідність закону нормального розподілу свідчить, що майже всі фактори, крім х1, мають додатне значення, тобто для них характерна правостороння асиметрія, а для фактора х1 — лівостороння асиметрія, причому величина коефіцієнтів асиметрії факторів х4 і х5 менше 0,25, що говорить про їх незначну асиметрію. Фактор х1 має середню асиметрію, оскільки величина його коефіцієнта асиметрії не перевищує 0,5. Решта факторів мають значну асиметрію. Коефіцієнти ексцесу всіх включених до моделі факторів мають від’ємне значення. Отже, для всіх факторів характерним є плосковершинний розподіл. Розподіл господарств за результативним показником є гостровершинним. Оцінка ступеня істотності коефіцієнта асиметрії й ексцесу обчислюється за допомогою середньоквадратичної помилки, розмір якої залежить від обсягу одиниць сукупності n. Середня квадратична помилка коефіцієнта асиметрії σА та ексцесу σЕ визначається за такими формулами: ; . Якщо відношення и , то асиметрія та ексцес не є істотними, тобто досліджуваний розподіл належить до нормального, а якщо и , то асиметрія й ексцес істотні, тобто аналізований розподіл не відповідає закону нормального розподілу. За даними нашого прикладу, середні квадратичні помилки коефіцієнта асиметрії і ексцесу становлять відповідно σА = 0,4494, а σЕ = 0,7436. Порівняння абсолютних розмірів коефіцієнтів асиметрії та ексцесу всіх включених до моделі показників з їх середніми квадратичними помилками показує, що їх відношення становить менше 3. Отже, розподіли всіх включених до моделі показників належать до нормального розподілу. Для виміру тісноти зв’язку між включеними в аналіз факторами, а також для виявлення колінеарності обчислимо парні коефіцієнти кореляції. Аналіз матриці парних коефіцієнтів кореляції свідчить, що між фактором х3 і х4 існує досить тісний зв’язок. Парний коефіцієнт кореляції між цими факторами перевищує 0,8, тобто ці фактори колінеарні. У цей час зв’язок фактора х4 з результативним фактором слабший, ніж фактора х3. Тому фактор х4 не слід включати до багатофакторної моделі. Отже, згідно з величинами, розташованими у першому рядку машинограми, багатофакторне рівняння регресії виглядатиме таким чином: Y = – 16,393 + 2,468х1 + 0,033х2 + 0,297х3. З економічного погляду це означає, що збільшення питомої ваги цукрових буряків (фабричних) у вартості реалізованої продукції рослинництва на 1% призведе до підвищення їх урожайності в середньому на 2,468 ц/га за умови, що всі інші фактори, включені в рівняння, перебуватимуть на незмінному (середньому) рівні. Підвищення оплати праці на 1 грн. сприяє збільшенню їх урожайності в середньому на 0,033 ц/га, а збільшення чисельності робітників, зайнятих у сільському господарстві на 1 особу забезпечують підвищення їх урожайності в середньому на 0,297 ц/га. Щодо вільного члена рівняння регресії, то в даному випадку він не має жодного економічного змісту, оскільки всі включені до моделі фактори за своєю суттю не можуть набувати нульового значення. Проте, тільки на основі часткових коефіцієнтів регресії неможливо визначити, які фактори найбільше впливають на врожайність цукрових буряків (фабричних), а також у розвитку яких закладені значні резерви її росту. Як зазначалося вище, для порівняльної оцінки ступеня впливу окремих факторів на врожайність цукрових буряків (фабричних) необхідно обчислити часткові коефіцієнти еластичності Еi і -коефіцієнти. Значення часткових коефіцієнтів еластичності Еi і -коефіцієнтів наведено в табл. 31, в якій ступінь значущості впливу окремих факторів на рівень врожайності цукрових буряків (фабричних) у досліджуваних господарствах показана цифровими позначеннями I, II, III.
Таблиця 31 Характеристика ступеня впливу досліджуваних факторів на врожайність цукрових буряків (фабричних) Фактори Коефіцієнти регресії, аі Коефіцієнти еластичності, Еi -коефіцієнти х1 2,468 І 0,627 І 0,473 І х2 0,033 ІІІ 0,250 IІІ 0,177 IІІ х3 0,297 IІ 0,302 ІІ 0,260 ІI
Аналіз часткових коефіцієнтів еластичності Еi показує, що за ступенем впливу на формування рівня врожайності цукрових буряків (фабричних) у досліджуваних господарствах найбільший вплив має питома вага цукрових буряків (фабричних) у вартості реалізованої продукції рослинництва. Збільшення рівня цього показника на 1 % дає приріст урожайності цукрових буряків (фабричних) на 0,627 %. На основі аналізу часткових -коефіцієнтів можна дійти висновку, що найбільший вплив на зміну рівня врожайності цукрових буряків (фабричних) має так само питома вага цукрових буряків (фабричних) у вартості реалізованої продукції рослинництва. Варіація цього фактора на сигму (σ) призводить до варіації рівня врожайності цукрових буряків (фабричних) в розмірі 0,473 σ. Це означає, що на врожайність цукрових буряків (фабричних) порівняно з іншими досліджуваними факторами, найбільше впливає спеціалізація господарства по вирощуванню цукрових буряків (фабричних). Отже, найзначніші резерви росту рівня врожайності цукрових буряків (фабричних) у досліджуваних господарствах пов’язані з підвищенням рівня їх спеціалізації по вирощуванню цукрових буряків (фабричних). Сукупний вплив включених до багатофакторної регресійної моделі факторів на зміну врожайності цукрових буряків (фабричних) визначається коефіцієнтом детермінації R2, величина якого згідно з розрахунками становить у даному прикладі 0,408. Отже, 40,8 % варіації врожайності цукрових буряків (фабричних) у досліджуваних господарствах лінійно пов’язано з включеними до моделі факторами. Сукупний коефіцієнт множинної кореляції, який характеризує тісноту зв’язку між урожайністю цукрових буряків (фабричних) у досліджуваних господарствах і включеними до моделі факторами, дорівнює = 0,639, що свідчить про досить тісний зв’язок між урожайністю цукрових буряків (фабричних) і досліджуваними факторами. Для перевірки істотності кореляційного зв’язку визначимо критичне значення F-критерію. У нашому прикладі κ1= 4 – 1 = 3, κ2 = 23 – 4 = 19, тоді згідно із додатком 2 табличне значення F-критерію при імовірності Р = 0,95 становить F0,95 (4, 20 ) = 3,10. Відзначимо, що значення κ2 = 19 у додатку 2 відсутнє, тому взято найближче до нього число κ2 = 20. Оскільки розрахований за даними нашого прикладу F-критерій = 4,362 і перевищує критичне його значення, то є підстави з ймовірністю 0,95 стверджувати про вірогідність впливу всіх досліджуваних факторів на врожайність цукрових буряків (фабричних) у господарствах, що розглядаються.
Ви переглядаєте статтю (реферат): «Кореляційно-регресійний аналіз валового збору і врожайності сільськогосподарських культур» з дисципліни «Основи статистики сільського господарства»