14.4. Перевірка статистичних гіпотез відносно середніх величин


Повернутися на початок книги
1 2 3 4 5 6 7 8 9 10 11 12 13 14 
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 
30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 
60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 
75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 
90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 
105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 
120 121 122 

Загрузка...

Середня величина є однією з найважливіших узагальнюючих характеристик відносно яких найчастіше висуваються статистичні гіпотези.

 

При формулюванні нульової гіпотези про рівність середніх у генеральній сукупності виходять з припущення, що обидві вибірки взяті з нормально розподіленої генеральної сукупності з математичним сподіванням, рівним х і з дисперсією 0„. За цим припущенням

Xj = х2 = х . Однак, фактичні вибіркові середні Xj і х2 ніколи не

можуть бути рівними через випадковий метод відбору досліджуваних одиниць з генеральної сукупності. В цьому випадку перевіряють

істотність розбіжності між х3 і х4 і з'ясовують, в яких межах

знаходиться їх різниця ( у межах можливої випадкової варіації, або за цими межами). Задача перевірити гіпотези заключається у перевірці істотності різниці:

XI -х

Х2 -X

XI -Х2

Помилки вибіркових середніх (jU) визначають за формулами:

S

.

S

jU2

A

Vni       vn2

де скореговані середні квадратичні відхилення:

Ex

■Xl

Ex

■X2

,або

 

Ex,2

П, X2

Ex

~2 П2Х2

 

-1

■1

Середню помилку різниці двох вибіркових середніх визначають за формулою:

//1_2=>12+//22

Фактичне значення t - критерію визначають за формулою:

ІХ -ХІ Д

/*1-2   /*1-2

Таблиця значення t-критерію при певному рівні значущості і числі ступенів волі варіації для великих вибірок (п > 30) визначають за таблицею для t-критерію нормального розподілу, а для малих вибірок (п < 30) - за спеціальною таблицею для t-критерію Стьюдента.

 

Якщо вибіркове значення t-критерію потрапляє в область допустимих значень (t$ < tT), нульова гіпотеза про рівність середніх приймається, а якщо вибіркове значення t-критерію потрапляє в критичну область (t^ < tT), нульова гіпотеза відхиляється.

Розглядаємо приклад перевірки статистичної гіпотези для оцінки достовірності різниці середніх при малій виборці ( вибірки незалежні).

Маємо данні про живу вагу телят дослідної і контрольної групи у 3-х місячному віці (табл. 14.1):

Таблиця 14.1

Розрахункова таблиця

            Жива вага телят, кг   Розрахункові дані

Спостереження         дослідна група           контрольна група      х?

1          х'

2

            Хі        х2                   

1          95        65        9025    4225

2          98        75        9604    5625

3          105      73        11025  5329

4          112      67        12544  4489

5          100      70        10000  4900

6          99        64        9801    4096

7          111      74        12321  5476

8          115      72        13225  5184

9          125      69        15625  4761

10        90        71        8100    5041

Разом: 1050    700      111270            49126

Порівняння живої ваги телят по двох групах показує, що більш висока вага телят у дослідній групі в якій у раціон годівлі входили крім незбираного молока ще й концентрати. Але, так як чисельність вибірки невелика, не виключається можливість, що розбіжність між живою вагою телят отримані в результаті дії випадкових причин.

Потрібно статистично оцінити різницю між двома середніми живої ваги телят у дослідній і контрольній групах і в якості міри ця різниця викликана згодовуванням в дослідній групі крім незбираного молока ще й концентратів.

Після перевірки гіпотези зможемо зробити висновок про те, що різниця між середніми лежить в межах випадкових коливань, або ж ця різниця досить суттєва, що не узгоджується з нульовою гіпотезою про випадковий характер відмінностей між середніми.

 

Довівши друге припущення зможемо відхшшти перше і зробити висновок про те, що раціон кормів суттєво впливає на живу вагу телят.

Умовою задачі передбачено, що обидві групи телят відібрані із нормально розподіленої генеральної сукупності, формування груп випадкове, а тому оцінювати будемо різницю між середніми.

Визначимо середню вагу телят по групах:

~і = Ех,= 1050            х2=^ = ^ = 70к,

Знайдемо фактичну різницю між середнім двох вибірок:

Дф=хі-х2 =105-70 = 35 кг. Формулюємо нульову і альтернативних гіпотези:

Ho:Xl=x2;        На:Хі^х2.

Приймемо рівень значущості a — 0,05, гарантуючи прийняття або відхилення нульової гіпотези із ймовірністю помилки в 5 випадках із 100.

Виберемо найпотужніший t-критерій Стьюдента для перевірки нашої гіпотези.

Так як за альтернативною гіпотезою хі може бути більшим або

меншим за Х2, то критична область повинна бути встановлена з двох сторін (двостороння критична область), яка при a — 0,05 буде знаходитись в межах - всі значення вище, ніж верхня 2,5 % і нижче 2,5 % точки розподілу t-критерію Стьюдента.

Отже, нульова гіпотеза буде відхилена, якщо фактичне значення t-критерію буде більшим за табличне (t^> > tT), або прийнята, якщо (t^> < tT).

Вирахуємо середнє квадратичне відхилення ваги для повної групи телят:

S

Exf -ПХ2

L11270-10-1052

10-1

|і1270-110250 =7Ш^ = щ6кг

 

~2

Ix -nx2 49126-10-702

n2-l V  10-1

/49126-49000 r——

= J       = л/14,00 = 3,7 кг.

Обчислимо середні помилки вибіркових середніх по кожній групі:

S, 10,6 10,64  S? 3,742 11П

/Ux= ,— = ,— =         = 3,37; jU2 = ,— =     = ІДо.

A/«J vlO 3,162            J«2 3,162

Середню помилку різниці двох вибіркових середніх визначемо за формулою:

Д1-2 =^jU,f + jU-2 =д/3,372 +1,182 =л/і2,7493 =3,57.

Число ступенів вільності двох вибірок буде становити:

к = [пх -\)+{п2 —1) = 9 + 9 = 18.

При рівні значущості a — 0,05 і ступенях вільності к=18

tT=2,1009~ 2,1. Розрахуємо фактичне значення t-критерій Стьюдента:

Аф 35  п

t, = _ =            = 9,о.

//j_2 3,57

Співставимо фактичне і табличне значення t-критерій Стюдента Іф > tT; 9,8>2,1.

Оскільки Ц > tT (Вибіркове значення критерію попадає в критичну область), нульова гіпотеза про рівність середніх у генеральних сукупностях відхиляється.

В нашому прикладі фактичне нормоване відхилення значно перевищує табличне, а тому можна зробити висновок, що різниця ваги двох середніх є не випадковою, а цілком достовірна.

До такого самого висновку можна прийти зіставивши фактичну різницю між обома середніми з граничною помилкою.

Гранична помилка для двох вибіркових середніх буде дорівнювати:

А0 05 = t ■ JLX_2 = 2,1 • 3,57 = 7,497 ~ 7,50кг.

Порівнявши фактичну різницю між обома середніми

Аф = 3,5кг., з граничною помилкою А0 05 = 7,5кг., бачимо, що

 

перша значно перевищує другу. Це свідчить про те, що різниця у середній вазі телят в дослідній і контрольній групах зумовлена дією досліджуваного чинника.

Для оцінки відмінності двох залежних вибіркових середніх застосовується середня різниця.

Розглянемо приклад. При порівнянні врожайності двох сортів озимої пшениці отримані наступні дані (табл. 14.2):

Таблиця 14.2

Розрахункова таблиця         

№:

повторностей

(п)       Урожайність, ц/га     Різниця

врожайності

d=A-B Квадрат

різниці

врожайності

d2

 

            Сорт

„А"      Сорт „Б"        

           

 

1

2 3 4

5          38,5 39,9 46,0 44,5 41,1        33,2 34,8 41,0 39,6 31,4        5,3 5Д 5,0 4,9 9,7       28,09 26,01 25,00 24,01 94,09

Суми   210,0   180,0   30,0     197,20

Середні          42,0     36,0     6,0       X

Потрібно дати статистичну оцінку результатам досліду, тобто встановити істотність різниці врожайності озимої пшениці між середніми двох сортів, при рівні значущості а=0,05, використавши найпотужніший критерій перевірки нульової гіпотези t-критерій Стьюдента. Врожайність обох сортів можна порівняти попарно в межах кожної повторності.

Сформулюємо нульову і альтернативну гіпотези:

Н0 : d = 0;       На : d Ф 0;

Вирахуємо середню різницю врожайності обох сортів:

-7 Td 30

a =       = — = 6 ц/га,

п 5

або d = X, - Х2 = 42 - 36 = 6 ц/га.

Знайдемо скореговане середнє квадратичне відхилення окремих

різниць d від середньої різниці d :

 

= М- ^ = /197,2-5-6- = /197,2-180,0 = ^- =

d V n-1            V 5-1   V         4          У

Визначимо середню помилку середньої різниці:

S~j 2,074 2,074

//^ = —j= =1= =         = 0,927.

\п V5 2,236

Обчислимо фактичне значення t-критерію Стьюдента:

6,4690.

t = —

jU~ 0,927

Встановимо число ступенів вільності, виходячи з числа пар взаємопов'язаних різниць:

k= n-l=5-l=4. За таблицею Стьюдента значення t-критерію при кількості ступенів вільності k=4 і з прийнятою значущістю а= 0,05 становитиме:

tT(o,o5) =2,7764. Перевіряємо фактичне і табличне значення t-критеріїв:

Ц > tT(o,o5>; 6,4690 > 2,7764. Оскільки, фактичне значення критерію значно вище за табличне, а величина середньої різниці між урожайністю двох сортів озимої пшениці істотна, то нульова гіпотеза відхиляється.

Аналітичні висновки отримаємо, порівнявши можливу граничну помилку з фактичною середньою різницею.

Гранична помилка середньої різниці складає:

Аот =t-fi-u=2,7764• 0,927 = 2,6 ц/га.

Таким чином, фактична середня різниця складає 6 ц/га, а різниця між середніми в результаті випадкового коливання складає 2,6 ц/га,

тобто Аф > Аг(0 05) (6,0 >2,6), це означає, що різниця між урожайністю

окремих сортів озимої пшениці вірогідна.

Серед завдань, які пов'язані з оцінкою гіпотез про середні величини, виділяють також дві групи, коли: а) дисперсія генеральної сукупності відома; б) дисперсія генеральної сукупності невідома і її потрібно замінити на дисперсію вибіркових даних.

Гіпотези щодо середніх величин перевіряють відповідно до логічних принципів у викладеній вище послідовності.

 

Розглянемо розв'язок цих завдань на конкретних прикладах.

Спочатку звернемось до прикладу коли дисперсія відома.

При вибірковому обстеженні 25 абонементів встановлено, що середньодобова тривалість розмова одного абонемента по телефону складає 18 хвилин (х). Припустимо, що данні про тривалість розмови

розподіляється нормально з дисперсією S = 25 .

Перевіримо на рівні значущості а=0,05 нульову гіпотезу Н0 : Хн„ = 20 хв., проти альтернативної гіпотези На : Хн, Ф 20 хв.

Так, як дисперсія відома, визначимо фактичне значення t-

критерію:

Іх-хН„| г- І18-20І ,— І2І

t A=J   ^■Vn = ,_ -V25 =J-L-5 = 2.

Ф         S          V25     5

Оскільки альтернативна гіпотеза Ha: Хн, Ф 20, вибираємо двосторонню критичну область з межами f (t) =1-а — 1-0,05=0,95.

3a стандартною таблицею значень функції нормованого відхилення Лапласа знаходимо, що рівню ймовірності р — 0,95 відповідає табличне значення tT — 1,96.

Якщо t^ > tT (2>1,96), нульова гіпотеза відхиляється і робиться висновок про те, що середньодобова тривалість розмови одного абонемента суттєво відрізняється від показника 20 хв.

Тепер розглянемо приклад, коли дисперсія невідома.

При вибірковому обстеженні 10 абонементів встановлено, що середньодобова тривалість їхньої розмови по телефону відповідно становила, хв: 15; 19; 17; 22; 20; 16; 25; 19; 18; 23. Припустивши, що дані середньодобової тривалості одного абонемента розподілені нормально, перевіримо на рівні значущості a — 0,05 нульову гіпотезу Н0 : Хн„ =18 хв. при альтернативній гіпотезі На : Хн, =19 хв.

Обчислимо вибіркові середню арифметичну Н0 : Хн = 18 х і дисперсію S ( табл. 14.3):

 

Таблиця 14.3

Розрахункова таблиця

Номер                       

            X;                   

спостереження                                

1          15        - 4,4    19,36

2          19        - 0,4    0,16

3          17        - 2,4    5,76

4          22        2,6       6,76

5          20        0,6       0,36

6          16        - 3,4    11,56

7          25        5,6       31,36

8          19        - 0,4    0,16

9          18        - 1,4    1,96

10        23        3,6       12,96

Суми   194      X         90,40

Середні          19,4     X         9,04

Іх 194

19,4 хв.;

 

Х(х(-х)2 90,4

п 10     п          10

SB = д/Sj = л/9,04 = 3,0066 ~ 3 хв.

Оскільки дисперсія генеральної сукупності невідома, число ступенів вільності дорівнює к= п-1, скористаємось дисперсією

вибіркової сукупності Se =9 ( a Sв =3) і визначимо фактичне значення нормованого відхилення:

•^/n-ї

х-х ,     19,4-1F

Ф

•3 = 1,4.

Sb        3

У зв'язку з тим, що На: Хн, = 19 > Хн0рівно як і для На: Хн, < Хнвибираємо односторонню критичну область, межі якої S(t)=l-2 a =1-2-0,05=0,9.

За стандартною таблицею t-розподілу Стьюдента, при числі ступенів вільності к=10-1=9 і рівні значущості a — 0,1 (2 . 0,05) знаходимо, що tT= 1,83.

ОСКІЛЬКИ t^ < tT ( 1,4 < 1,83), то нульова гіпотеза не відхиляється тобто вона не протирічить вибірковим даним. Отже, середньодобова тривалість розмови по телефону одного абонементу суттєво не відрізняється від 18 хв.

 

Якщо гіпотеза про величину центру розподілу перевіряється за результатами малої вибірки, то відношення різниці середніх до стандартної помилки вибірки підпадає під розподіл Стьюдента з ступенями вільності к= п-1 (як у попередньому прикладі), тобто

 

t

fh

■у/ї-

Vn-I

Розглянемо приклад. За результатами вибіркової перевірки 17 виробів встановлено, що собівартість одного виробу за традиційною технологією становила (х = 25грн.), а за прогресивною (х = 20грн.),

дисперсія - S* = 9, SB = 3 грн.

Визначимо фактичну величину t-критерію:

t

Ф

20-25

л/17-1

•4 = 6,67.

УІї-

За таблицею Стьюдента значення t-критерію для числа ступенів вільності k — п-1=17-1=16, і рівні значущості 0,05 становить tT — 2,12. Так як фактичне значення t-критерію значно перевищує табличне

(Іф—6,67 > tT( о,о5)~2,12), то нульова гіпотеза відхиляється, тобто

прогресивна технологія веде до суттєвого зниження собівартості виробів.

Перевірку гіпотези про суттєвість розбіжностей двох вибіркових

часток покажемо на такому прикладі. Нехай, за результатами

вибіркового обстеження сімей двох областей України були отримані

дані про їх забезпеченість основними товарами культурно-побутового

призначення в залежності від середньодушових доходів сімей

(табл. 14.4):

            Таблиця 14.4

                        Забезпеченість сімей

            Кількість обстежених           товарами культурно-

Область          сімеи, тис.      побутового призначення,

%

W;

A         12        75

Б          10        80

Різниця двох вибіркових часток складає 5 % (80-75). Потрібно переконатись, чи можна вважати несуттєвими розбіжності в частці

 

забезпеченості сімей товарами культурно-побутового призначення в

залежності від їх середньодушового доходу. Нульова гіпотеза

заключається в тому, що немає суттєвих розбіжностей у забезпеченості

сімей цими товарами в залежності від середньодушових доходів.

Для оцінки генеральної частки використаємо середню зважену із

часток, отриманих за результатами вибіркового обстеження сімей в

кожній області.

_ Zw.ii, 0,75-12 + 0,80-10 17

Р =      —- =   = — = 0,7727,

En,       12 + 10           22

тобто, оцінка частки забезпеченості сімей товарами культурно-побутового призначення в залежності від середньодушового доходу в генеральній сукупності становить 77,3 %.

Середню помилку різниці двох часток при справедливості нульової гіпотези обчислимо за формулою:

V п,     п,         V         п, п,

0,7727 • 0,0073 • (—*— + —*—) 18000 10000

= -у/0,1756347 0,0000833 = ^0,0000146 = 0,00382.

Таким чином, середня помилка різниці двох вибіркових часток складає 0,382 %.

Оскільки обидві вибірки досить великого обсягу, потрібно скористатись таблицею нормованої функції Лапласа для знаходження значення коефіцієнта довір'я t при ймовірності 0,95 або 0,99. Цим значенням ймовірності відповідають табличні значення: t(095)= 1,96; t(o,99)= 2,58.

Визначимо фактичне значення t-критерію:

Iw.-wJ І0,75-0,80І І0,05І

t =        =         =         = 13,089.

/ZWi_W2        0,00382 0,00382

Оскільки фактичне значення t-критерію значно більше

теоретичних tф> 17(0,99^ їт(о,95) (13,089 > 2,58 > 1,96) нульова гіпотеза

відхиляється і робиться висновок про суттєвість розбіжностей частки забезпеченості сімей товарами культурно-побутового призначення в залежності від їх середньодушового грошового доходу.

Можна також визначити максимально можливу величину розбіжностей двох вибіркових часток із заданою ймовірністю за формулою:

 

При ймовірностір=0,95: tS.w_w =1,96 0,00382=0,00749.

При ймовірностір=0,99: tS.w_w =2,58'0,00382=0,00985.

Оскільки фактична розбіжність двох вибіркових часток 0,05 більша визначених граничних помилок, нульову гіпотезу потрібно відхилити.

Таким чином, обидва варіанти перевірки гіпотези про суттєвість відмінностей частки забезпеченості сімей товарами культурно-побутового призначення в залежності від середньодушових доходів за результатами вибіркових обстежень в двох областях показали однаковий результат.