Eroarea de eșantionare în estimarea unei valorii medii

Atunci când sondăm un eșantion dintr-o populație și nu întreaga populație, ne dorim ca valoarea măsurată în eșantion să fie cât mai aproape de adevăr, de valoarea în populație. Când spunem valoare, ne referim fie la o medie (spre exemplu înălțimea medie a indivizilor din populație), fie la o proporție (spre exemplu proporția celor care beau zilnic cafea). Diferența dintre valoarea măsurată în eșantion, să spunem X’, și valoarea în populație, să spunem X, reprezintă eroarea de eșantionare.

Unele eșantioane pot avea proprietatea de a reflecta mai bine datele din populația din care provin, altele pot fi mai slabe. Asta ne duce cu gândul la reprezentativitate.

Să ne imaginăm că dintr-o anumită populație de mărime N extragem consecutiv eșantioane diferite, să spune într-un număr de k, fiecare de mărime n, până când epuizăm toți indivizii din populație. În fiecare eșantion, pentru variabila pe care o măsurăm vom obține o medie x1, x2... xk. Dacă după extragerea fiecărui eșantion calculăm o medie a valorilor mediilor din fiecare eșantion extras, vom vedea că, pe măsură ce adăugăm la calcul valori rezultate din eșantion, ne apropiem tot mai mult de valoarea din populație.

În cazul eșantionării simple aleatorii, abaterea standard a valorii x’ (media obținută în eșantion), sau eroarea standard așa cum i se mai spune, este de [rădăcină pătrată din mărimea eșantionului] ori mai mică decât abaterea standard a valorii x (media în populație), așa cum arătăm în formula de mai jos:

Eroarea ne arată cu cât se abate, în medie, valoarea x’ obținută în eșantion de la valoarea medie reală, cea din populația din care eșantionul este extras. Ne spune la ce eroare probabilă să ne așteptăm atunci când estimăm media din populație (x) cu cea din eșantion (x’). Cum se întâmplă frecvent să nu se cunoască date reale despre o populație întreagă, înseamnă că abaterea standard în populație nu este cunoscută. Pentru a calcula totuși eroarea de eșantionare, ne asumăm niște ipoteze.

1/ Se lucrează cu eșantioane care au o distribuție normală

Revenind la exercițiul imaginativ de extragere a celor k eșantioane, ipoteza de lucru în eșantionare este că dacă așezăm într-un grafic toate mediile obținute în aceste eșantioane pentru variabila x, distribuția acestora urmează o curbă normală.  Altfel spus, când extragem cele k eșantioane, valorile obținute pentru media variabilei pe care o măsurăm sunt așezate simetric în jurul mediei din populație (x), cu frecvențe mai mari în jurul valorii x, și mai mici pe măsură ce ne apropiem de cozile distribuției (asemenea formei unui clopot, sau o pălărie privită din lateral).

2/ Cum citim/ interpretăm distanța/ intervalul de pe curba normală/ clopot dintre valoarea din eșantion și valoarea din populație.

Probabilitatea ca media reală din populație să se plaseze pe un anumit interval depinde doar de lungimea intervalului t, măsurată în abateri standard. În exemplul nostru – distribuția mediilor obținute după extragerea a k număr de eșantioane, abaterea standard este eroarea standard. Așadar noi vom urmări să stabilim un interval pe care se plasează media obținută dintr-un eșantion oarecare (să îi spunem x13, rezultată din cel de-al 13-lea eșantion extras) cu o probabilitate suficient de mare că avem o eroare mai mică decât lungimea intervalului.

Sursă imagine: https://analystnotes.com/cfa-study-notes-the-standard-normal-distribution.html

În experiența practică, cea mai mică probabilitate acceptată este P= 95%, adică există cel puțin 95% șanse ca, selectând un eșantion oarecare, valoarea medie să se încadreze în intervalul respectiv. Complementar, valoarea p (calculată ca 1-P) ne arată ce șanse avem să greșim.

Cum interpretăm datele?

Există 95% șanse ca o valoare rezultată dintr-un eșantion să se abată cu mai puțin de 2 erori standard (1,96 mai precis) de la valoarea medie reală a populației. Sunt 99% șanse ca ea să fie mai mică de 2,6 erori standard, și 90% șanse ca ea să fie mai mică decât 1,65 erori standard.

Cum calculăm în practică eroarea standard?

Bazându-ne însă pe principiile deja enunțate, putem înlocui abaterea standard a mediei x din populație cu cea rezultată din eșantion, x’.

Spre exemplu, ne interesează să estimăm înălțimea medie a populației. Realizăm un sondaj pe un eșantion de 800 de persoane, și aflăm că înălțimea medie a participanților la studiu este de 176 de cm, cu o abatere standard a acestei medii de 17cm.

Înlocuim în formula de mai sus:

Ne întoarcem la tabelul afișat și vedem că pentru P=95%, t=1,96, valoarea reală în populație se află în intervalul 176cm – 1,96*0,60cm - 176cm + 1,96*0,60cm, adică suntem 95% siguri că în populație înălțimea medie reală este undeva în intervalul 174,8cm – 177,2cm.

Dacă vrem să raportăm datele la un prag de încredere și mai mare, de 99%, înlocuim în formulă și spunem că pentru P=99%, t=2,6, valoarea reală în populație se află în intervalul 176cm – 2,6*0,60cm - 176cm + 2,6*0,60cm, adică suntem 99% siguri că în populație, înălțimea medie reală este undeva în intervalul 174,4cm – 177,6cm. Eroarea maximă așadar crește – de la 1,96*0,60 (1,2cm) la 2,6*0,60 (1,56cm).

De asemenea, ne putem juca și cu volumul eșantionului. Din formulă deducem deja că pe măsură ce creștem mărimea eșantionului, reducem eroarea e.

Presupunând că obținem aceeași medie a înălțimii participanților la sondaj, și aceeași abatere standard, dar de data aceasta am sondat 2000 de persoane, eroarea e va fi:

Raportând datele la un prag de încredere de 95%, t=1,96, putem spune că suntem 95% siguri că valoarea reală în populație (înălțimea medie) este undeva în intervalul 175,3cm – 176,7cm. Eroarea maximă de data aceasta este 1,96*0,38=0,74cm.

Adesea în practică este necesar să cântărim situația și să decidem dacă reducerea erorii (în cazul nostru de la 1,2cm la 0,74 centimetri) justifică suplimentarea eșantionului cu 1200 de persoane.

Sigur că răspunsul poate fi afirmativ, dacă ne propunem să estimăm mediile în rândul sub-populațiilor (de femei și bărbați, spre exemplu). În această situație, volumul eșantionului nu va mai fi de 2000 de persoane, ci va fi dat de numărul de femei, respectiv bărbați incluși în eșantion (să zicem că avem o distribuție egală, 1000 de femei și 1000 de bărbați).

Dacă media înălțimii în rândul femeilor intervievate este de 1,65cm, cu o abatere standard de 15cm, eroarea va fi:

Putem așadar raporta că suntem 95% siguri că în rândul populației de femei, înălțimea medie a acestora se va afla în intervalul 164,1cm – 165,9cm. Eroarea maximă de eșantionare în acest caz este 1,96*0,47=0,92cm.

Bibliografie: Rotariu, T. (coord.), Bădescu, G., Culic, I., Mezei, E., Mureşan, C., Metode statistice aplicate în ştiinţele sociale, Iaşi, Polirom, 1999.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram