10.3 Кореляційний і регресійний методи аналізу зв’язку


Повернутися на початок книги
1 2 3 4 5 6 7 8 9 10 11 12 13 14 
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 
30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 
60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 
75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 
90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 
105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 
120 121 122 

Загрузка...

Основне завдання кореляційного і регресійного методів заключається в аналізі статистичних даних з метою виявлення залежності між досліджуваними ознаками у вигляді певної математичної формули і встановлення за допомогою коефіцієнта кореляції порівняльної оцінки тісноти взаємозв'язку.

Після того як через економічний аналіз встановлено наявність зв'язку між явищами і загальний характер цього зв'язку, статистика з допомогою кореляційного і регресійного методів надає цим зв'язкам числового виразу.

Кореляційний і регресійний методи аналізу розв'язують два основних завдання:

1)         визначають з допомогою рівнянь регресії аналітичну форму

зв'язку між варіацією ознак X і Y;

2)         встановлюють міру тісноти зв'язку між ознаками.

Найбільш часто зустрічаються наступні типи кореляційних

зв'язків:

1)         факторна ознака безпосередньо зв'язана з результативною;

2)         результативна ознака визначається комплексом діючих

факторів;

3)         дві результативні ознаки викликані дією однієї загальної

причини.

В практиці економіко-статистичних досліджень часто доводиться мати справу з прямолінійною формою зв'язку, яка виражається за допомогою рівняння регресії (мал. 10.3).

 

y A x

 

0          " x

Мал. 10.3. Теоретична лінія регресії.

Ha графіку (мал. 10.3) середню арифметичну результативної ознаки у відображає пряма, паралельна осі абсцис, лінійне кореляційне

рівняння у(х) зображується похилою прямою, а кут нахилу між ними

характеризує тісноту зв'язку.

Рівняння регресії характеризує зміну середнього рівня результативної ознаки (у) в залежності від зміни факторної ознаки (х). Воно визначає математичне сподівання групових середніх результативної ознаки під впливом різних значень факторної ознаки.

У випадку лінійної форми зв'язку, результативна ознаки змінюється під впливом факторної ознаки рівномірно. Така форма зв'язку виражається рівнянням прямої:

ух =а0 +а1х!

де Ух — вирівняне середнє значення результативної ознаки; х - значення факторної ознаки; а0 і aj - параметри рівняння; а0 - значення у при х — 0; аі - коефіцієнт регресії.

Коефіцієнт регресії аі показує на скільки зміниться результативна ознака (у) при зміні факторної ознаки (х) на одиницю.

Якщо аі має позитивний знак, то зв'язок прямий, якщо від'ємний - то зв'язок обернений.

Параметри рівняння зв'язку визначаються способом найменших квадратів складеної і розв'язаної системи двох рівнянь з двома невідомими:

 

[ Zy=nao+aiZx'

|іуХ = а0Хх + аіХХ2, де n - число членів в кожному з двох порівнювальних рядів;

сума значень факторної ознаки;

сума квадратів значень факторної ознаки; сума значень результативної ознаки;

X*

I*2

ІУ ІуХ

сума добутків значень факторної ознаки на значення результативної ознаки.

Розв'язавши дану систему рівнянь, отримаємо такі значення параметрів:

_І*2ІУ-І*ІУ*  ПХХУ-ХХХУ

ао= n2>2 -2>2> ; аі = п2>2 -2>2У

Вирахувавши за фактичними даними всі записані вище суми і підставивши їх у наведені формули, знайдемо параметри шуканої прямої.

Покажемо розрахунок параметрів лінійного рівняння зв'язку між вартістю основних виробничих фондів і випуском продукції за даними десяти однорідних підприємств (табл. 10.9).

Таблиця 10.9

 

            Вартість                                                                   

Номер

заводу основних       Випуск                                                         

 

            виробничих фондів, продукци, млн. грн.  х2        ху        у2                    = 0,167 + 0,421х

            млн. грн.

X         У                                                       

1

4

6

2

1          12        5,6       144      67,2     31,36   5,2

2          8          4,0       64        32,0     16,00   3,5

3          10        4,0       100      40,0     16,00   4,4

4          6          2,4       36        14,4     5,76     2,7

5          9          3,6       81        32,4     12,96   4,0

6          15        5,0       225      75,0     25,00   6,5

7          11        4,6       121      50,6     21,16   4,8

8          13        6,5       169      84,5     42,25   5,6

9          14        7,0       196      98,0     49,00   6Д

10        10        4,5       100      45,0     20,25   4,4

 

1          2          3          4          5          6          7

Разом  108      47,2     1236    539,1   239,74 47,2

В середньому на один завод           10,8     4,72     123,6   53,91   23,974 X

0,167 ;

 

10 1236 -108 108   12360-11664 696,0

10539,1-10847,2 5391,0-5097,6 293,4

За способом найменших квадратів визначимо параметри: 123647,2-108539,1 58339,2-58222,8 116,4

 

аі

 

0,421.

696,0   696,0   696,0

Тоді лінійне рівняння регресії зв'язку між вартістю основних виробничих фондів і випуском продукції матиме вигляд:

?х=0,167 + 0,421х.

Таким чином, при збільшенні вартості основних виробничих фондів на 1 млн. грн. випуск продукції зросте на 0,421 млн. грн.

Підставляючи в дане рівняння послідовно значення факторної ознаки (х), отримаємо вирівняні значення результативної ознаки (Ух),

які показують, яким теоретично повинен бути середній розмір випуску продукції при даному розмірі основних виробничих фондів (за інших рівних умов).

Вирівняні (теоретичні) значення (із заокругленням до десятих) наведені в останній графі таблиці 10.9. Якщо параметри рівняння визначені правильно, то

^у =^УХ =47,2.

Побудуємо графік, який покаже вирівнювання емпіричних даних рівнянням прямої.

у .

/*Ук= 0,167 + 0,421х

1 У

у = 4,72

х

6

0

5 7 9

11 13 15 17

Мал. 10.4. Емпіричні і вирівняні рівні ряду.

 

Для економічної інтерпретації лінійних і нелінійних зв'язків між двома досліджуваними явищами часто використовують розраховані на основі рівнянь регресії коефіцієнти еластичності.

Коефіцієнт еластичності показує, на скільки відсотків зміниться в середньому результативна ознака (у) при зміні факторної ознаки (х) на 1 %.

Для лінійної залежності коефіцієнт еластичності визначається за формулою:

х          х

Є = а1 — , або Є = aj —,

V         У

де Є - коефіцієнт еластичності.

Підставляючи в дану формулу різні значення х, будемо отримувати різні значення є. В нашому прикладі коефіцієнт еластичності на першому підприємстві при х — 12 буде дорівнювати:

X         12

Є1 =а1— = 0,421      = 0,97%. Отже, на 1 % приросту вартості

Ух       5,2

основних виробничих фондів, випуск продукції зросте на 0,97 %. На

 9 п ятому підприємстві при х — 9 є5 = 0,421 • — = 0,95 %, на десятому при х — 10 Є10 = 0,96 %.

Для всіх підприємств разом коефіцієнт еластичності буде

дорівнювати:

х 10,8

Є = aj — = 0,421       = 0,963 %.

У         4,72

Це означає, що при збільшенні середньої вартості основних виробничих фондів на 1 % випуск продукції зросте в середньому на 0,963 %.

Якщо залежність між ознаками представлена за даними, вирівняними за параболою другого порядку, то коефіцієнт еластичності матиме вигляд:

Є = (aj +а2х)— . У Визначення тісноти зв'язку в кореляційно-регресійному аналізі ґрунтується на правилі складання дисперсій як і в методі аналітичного групування. Але на відміну від нього, де для оцінки лінії регресії застосовують групові середні результативної ознаки, в кореляційно-регресійному аналізі для цієї мети використовують теоретичні значення результативної ознаки.

 

Для наочної уяви і обґрунтування кореляційно-регресійного аналізу звернемось до графіка (мал. 10.4). На цьому графіку нами проведені три лінії:

1)         у - ламана лінія фактичних даних;

2)         ух — пряма похила лінія теоретичних значень (у) при

абстрагуванні від впливу всіх факторів, крім фактора (х) (змінна середня);

3)         у-пряма горизонтальна лінія, з середнього значення якої

виключено вплив на (у) всіх без винятку факторів (постійна середня). Неспівпадання лінії змінної середньої ух з лінією постійної середньої у пояснюється впливом факторної ознаки х, що, в свою

чергу, свідчить про існування між ознаками у і х неповного, нефункціонального зв'язку. Для визначення тісноти цього зв'язку потрібно вирахувати дисперсію відхилень у і ух, тобто залишкову

дисперсію, яка зумовлена впливом всіх факторів, крім фактора х. Різниця між загальною і залишковою дисперсіями дає нам теоретичну (факторну) дисперсію, яка вимірює варіацію, зумовлену фактором х. На порівнянні цієї різниці із загальною дисперсією побудований індекс кореляції, або теоретичне кореляційне відношення, які визначаються за такими формулами:

_2

~2 „2

 

R

 

\

1          1-, або R

о

де R - індекс кореляції (теоретичне кореляційне відношення); 03 - загальна дисперсія;

<Зе - залишкова дисперсія;

Оу — факторна (теоретична) дисперсія.

Факторну дисперсію з теоретичних значень обчислюють за формулою:

пг Х(Ух-У)2

П

або за формулою без теоретичних значень

(а0ХУ + а1ХхУ)-(У)2

о =       .

п

 

Залишкову дисперсію визначають або за формулою

2          У(У-?х)2         2          2          2

О =      * , або заправилом складання дисперсій С =С —С~.

П У наведеному прикладі (за даними розрахунків в табл. 10.9) факторна дисперсія дорівнює:

^_(M87-47j+H«1-53W)-4,72-

10 Загальну дисперсію обчислимо за формулою:

о3 = у — (у) =23,974-22,278 = 1,696.

Залишкову дисперсію визначимо як різницю між загальною і факторною дисперсіями:

о2е = <з\ - Cj = 1,696 -1,206 = 0,490.

Таким чином, індекс кореляції за вище наведеними формулами буде становити:

R

<з,-ае /1,696 — 0,490

\ 1,696

- = 0,843, або

о

 

R

ое I, 0,490

1          т- = 1  = 0,843 , або

a \ 1,696

^у        11,206 /^77

- =       = д/0,711 = 0,843.

\11R9R

а? А11,696

R

Індекс кореляції показує тісну залежність випуску продукції від вартості основних виробничих фондів.

Коефіцієнт детермінації (R2) характеризує ту частину варіації результативної ознаки (у), яка відповідає лінійному рівнянню регресії:

2 Оу 1206

R =—^ =         = 0,711.

Оз 1,696

Отже, в обстеженій сукупності заводів 71,1 % варіації випуску продукції пояснюється різними рівнями оснащеності заводів основними виробничими фондами.

Індекс кореляції приймає значення від 0 до 1. Коли R — 0, то зв'язку між варіацією ознак у і х немає. Залишкова дисперсія дорівнює

загальній (оє =03)> а теоретична дисперсія дорівнює нулю (О. =0). Всі теоретичні значення Ух збігаються з середніми значеннями у,

 

лінія Ух на графіку співпадає з лінією у, тобто приймає горизонтальне положення.

При R — 1 теоретична дисперсія дорівнює загальній (σу = σ3), a

залишкова - σє = 0 . Фактичні значення у збігаються з теоретичними Ух, зв'язок між досліджуваними ознаками лінійно-функціональний.

Індекс кореляції придатний для вимірювання тісноти зв'язку при любій її формі. Він, як і емпіричне кореляційне відношення вимірює лише тісноту зв'язку і не показує її напрямок.

Для вимірювання тісноти зв'язку і визначення його напрямку

при лінійній залежності використовують лінійний коефіцієнт кореляції.

який визначається за формулою:

ху-ху

г =       .

Значення г коливається в межах від -1 до +1. Додатнє значення г означає прямий зв'язок між ознаками, а від'ємне - зворотній.

Оцінка тісноти зв'язку проводиться за наступною приблизною схемою (табл. 10.10).

Таблиця 10.10 Для оцінки тісноти зв'язку

 

Сила зв'язку   Величина лінійного коефіцієнта кореляції при наявності:

 

            прямого зв'язку оберненого зв'язку

Слабка

Середня

Тісна   0,1 - 0,30 0,3 - 0,70 0,7 - 0,99          (-0,1) - (-0,30) (-0,3) - (-0,70) (-0,7) - (-0,99)

Всі дані для обчислення лінійного коефіцієнта кореляції в нашому прикладі є в таблиці 10.9.

σх = -у/х - (х) = д/123,6 -10,8 =-у/6,96 = 2,638 ;

σу =-у у - (у) =-\/23,974 - 4,72 =1,302;

ху-ху 53,91-10,84,72 2,9340

г =       =          =          = 0,854 .

σхσ    2,6381,302    3,4349

Скористаємось для знаходження лінійного коефіцієнта кореляції іншою формулою:

σх        2,638

r = aj —— = 0,421     = 0,853,

σ          1,302

 

тобто відповідь отримана така сама. Це означає, що зв'язок між вартістю основних виробничих фондів і випуском продукції сильний (тісний) і прямий.

Абсолютна величина лінійного коефіцієнта кореляції збігається з індексом кореляції (відхилення в 0,01).

Із наведених формул коефіцієнта кореляції можна визначити коефіцієнт регресії, не вираховуючи рівняння зв'язку. ху-ху 2,934

аі =      т          =          = 0,421, або

             =        

а2        6,960

°у         1,302

aj =г— = 0,853           = 0,421.

Ох       2,638

Перевірку істотності зв'язку в кореляційно-регресійному аналізі здійснюють за допомогою тих самих критеріїв і процедур, що і в аналітичному групуванні. Ступені вільності залежать від числа параметрів рівняння регресії кі — m - 1 і кількості одиниць досліджуваної сукупності к2 — n - т.

ІСТОТНІСТЬ зв'язку коефіцієнта детермінації R2 перевіряють за допомогою таблиці критерію F для 5 %-ного рівня значимості. Так, при ki= m -l= 2 -l = l (для лінійної моделі) ik2 = n - m = 10 - 2 = 8. Фактичне значення F-критерію для нашого прикладу визначають за формулою:

R к7 0,711 8

Гф =    ~          — =     = 19,68 .

1-R kj 1-0,711 1

Критичне значення FT(0j95) = 5,32 значно менше від фактичного FT(O,95) < Рф (5,32 < 19,68), що підтверджує істотність кореляційного зв'язку між досліджуваними ознаками.

Для встановлення достовірності обчисленого нами лінійного коефіцієнта кореляції використовують критерій Стьюдента (t-критерій):

г

t = ^

де Ц,- - середня помилка коефіцієнта кореляції, яку визначають за формулою:

цг

1-г2

При достатньо великому числі спостережень (п > 50) коефіцієнт кореляції можна вважати достовірним, якщо він перевищує свою

 

помилку в 3 і більше раз, а якщо він менше 3, то зв'язок між досліджуваними ознаками у і х не доведений.

В нашому прикладі середня помилка коефіцієнта кореляції дорівнює:

1-0,853 1-0,723 0,277

Цг =    т=        =          =          = 0,092 .

V9       3          3

Відношення коефіцієнта кореляції до його середньої помилки

становить:

0,853

tr =      = 9,27 .

0,092

Це дає нам право вважати, що обчислений лінійний коефіцієнт кореляції достатньо точно характеризує силу зв'язку між досліджуваними ознаками.