Eșantionarea - De ce să faci eșantionare multi-stratificată combinată cu cluster în România? Partea II

Pentru partea I click aici.

Acum, după ce am creat un context, simt că pot să reiau subiectul despre multi-stratificare. Stratificarea se întâmplă atunci când poți să împarți populația în sub-populații și grupele acestea sunt eterogene, disjunctive. Nu se suprapun deloc. Este foarte clară această împărțire. Cumva te ajută să împarți o populație sau arie mare în părți mai mici care devin accesibile. Regiunea este o variabilă foarte bună care reușește să împartă populația în bucăți mai mici și sigur total diferite între ele. Regiunile sunt gândite pe componența județelor.

Exemplu, județul Tulcea intră în Dobrogea, ca regiune istorică, alături de Constanța. Doar aceste 2 județe compun Dobrogea. Ei, și mai există o variabilă frumoasă care reușește să împartă populația în sub-populații disjuncte. Este ușor de dibuit dacă vă aduceți aminte că am vorbit că sunt anumite localități, preponderent satele, care sunt arondate ușor orașe, respectiv comune. Doar termenii municipii, orașe, sate induc o diferență bazată pe numărul de locuitori cu care se mândrește fiecare localitate. Vorbim, în fapt, de variabila <mărime de localitate>, care este definită prin straturile rural, oraș mare, mediu, mic. Capitala, București, este în sine o regiune (istorică) și un strat independent deoarece adună undeva spre 2 mil. de locuitori. Următorul oraș mare este Cluj-Napoca cu puțin peste 300 de mii de locuitori. Fiind o diferență foarte mare de mărime/ număr locuitori între București și următorul oraș, da, București merită să “aibă” propriul strat. Un oraș mic poate să aibă și 3000 de locuitori, așa cum și un sat, poate să aibă același număr de locuitori. Cu toate acestea, încadrarea în UA sau strat, dacă ne referim la mărimea de localitate, este făcută de oficialități/ administrația națională pe baza unor criterii.

De aceea sunt importante codurile SIRUTA și tipul de încadrare administrativ teritorială făcută de autorități. Voi da mai jos mai multe detalii pentru numărul de straturi ale variabilei <mărime de localitate>. Oricum, straturile de mărime de localitate (sau urbanizare sau de mediu) pot fi gândite să răspundă nevoilor pe care le ai pe fiecare studiu, atât timp cât ai o bază cu toate localitățile din RO și numărul de locuitori/ populație totală la nivel de localitate.

Ce credeți, straturile sau sub-populațiile acestea atât de diferite în funcție de încadrarea UA, respectiv numărul de locuitori, se regăsesc în toate regiunile sau putem vorbi despre orașe, comune doar într-o anumită regiune?

Tabel nr. 1 - Distribuția populației la nivel de regiune și mărime de localitate – număr locuitori *

Cum citim Tabel nr. 1 (Regiunea pe coloane X Mărimea localității pe linii/ strat):

Celula B2 ne spune că în Ardeal, în stratul Urban mare, locuiesc aproape 600.000 locuitori. Celula G5 ne arată câte persoane locuiesc în Dobrogea în localități rurale. Coloana H indică numărul total de locuitori la nivel de fiecare strat, iar linia 6 arată total locuitori la nivel de fiecare regiune.

*Notă: fac observația că datele din tabel sunt destul de vechi, sursa fiind INSSE, 2015. Vă recomand să priviți aceste date ca pe un exercițiu de exemplificare a modului în care lucrăm cu datele astfel încât să generăm un eșantion reprezentativ.

Acum să vedem care sunt proporțiile fiecărei celule din Tabel nr. 1, distribuția populației la nivel de regiune & mărime de localitate. Urmăriți Tabel nr. 2, unde % sunt calculate din populația totală, 20 mil. locuitori.

Tabel nr. 2 - Distribuția populației la nivel de regiune și mărime de localitate – % din total

București, coloana A, are o pondere de 9% în populația totală. În aria rurală locuiește 46% din populația țării. Cel mai mare strat urban este Urban mic și reprezintă 18% din total populație. Există 2 regiuni care acoperă foarte bine acest strat, Moldova și Muntenia. Dobrogea are cei mai puțini locuitori care trăiesc în urban mic.

Deja v-am dat multe informații și avem 2 variabile care pot să segmenteze/ stratifice foarte bine populația României. Cum știu unde găsesc respondentul? Sau, altfel pusă întrebarea, avem 100 de operatori (ideal ;-)) și unde îi trimitem, în ce localitate, pe ce stradă din localitate? În câte localități din cele în jur de 13 mii este nevoie să mergem? Vorbesc acum de un studiu care se va face F2F, această metodă fiind cea mai complexă. Am să povestesc ce se întâmplă și în situația de studiu pe panel online sau CATI. Stratificarea se păstrează și pe aceste ultimele 2 metode, doar că sunt mai puțini pași de parcurs.

Tabel nr. 3 – Distribuția localităților la nivel de regiune și mărime de localitate – număr localități *

*Notă: luați datele ca exercițiu de demonstrație, sursa INSSE 2015.

Se observă că odată ce am intrat pe stratul 4, urban mic, numărul de localități la nivel de celulă crește semnificativ. Evident, atunci când proiectăm eșantioanele, iese din discuție să mergem în toate localitățile. Noi vom extrage un eșantion, însă se pot produce/ realiza o infinitate.

Soluția este de a face o extragere de eșantion pe bază de cluster – grup de locuitori dintr-o populație omogenă, care împărtășesc aceleași caracteristici de regiune și mărimea de localitate. Bingo, ajungem să extragem cluster-e de populații la nivel de fiecare celulă din tabelul de mai sus. Probabil vă întrebați câte persoane trebuie/ poate să includă acest cluster.

Înainte de a răspunde la această întrebare, hai să vedem cum arată distribuția numărului de chestionare/ respondenți la nivel de regiune și mărimea de localitate pentru un eșantion de 1000.

Tabel nr. 4.1. - Distribuția numărului de respondenți la nivel de regiune și mărime de localitate, N=1000

Tabelul 4.1. spune că avem de recrutat 93 de respondenți în București, 126 în mediul rural din Muntenia. Dacă în București putem recruta 93 de respondenți, având grijă să mergem în fiecare din cele 6 sectoare, este imposibil să recrutăm 126 de respondenți dintr-un singur sat din regiunea Muntenia. Dacă ne uităm în Tabel nr. 3, în Muntenia sunt peste 2 mii de localități cu titlul de sat (unele vor avea rol de comune, altele vor fi sate apărținătoare). A selecta un singur sat din 2600, înseamnă să acoperim doar 0,04% din potențialul maxim al regiunii. Eșantionul își păstrează calitatea de reprezentativ dacă asigurăm răspândire bună în toată țara (este chiar necesar/ de dorit să acoperim toate județele) și dacă metodele pe care le folosim pentru selecția respondenților vor avea un caracter aleator. Cred că v-ați prins, noi încă nu am ajuns la selecția respondentului, parcurgem primul pas, selecția punctelor de eșantionare (și implicit a localităților) în fiecare strat/ celulă de stratificare.

Aici intervine metoda de eșantionare pe cluster, în determinarea numărului de puncte de eșantionare, respectiv localități, apoi implicit în selecția respondenților în fiecare punct. Într-o localitate putem avea un singur punct de eșantionare sau mai multe. Depinde mult de câte localități există în fiecare strat/ celulă. Pentru o înțelegere mai bună, punem egalitate între punct de eșantionare și adresa/ punctul de start. La o adresă fixă veți trimite operatorul de teren să înceapă recrutarea, cu un set de reguli în mână!

Hai să luăm ca exemplu regiunea Dobrogea – care are o singură localitate de Urban mare (Constanța) și una singură de Urban mediu (Tulcea) și 15 localități de Urban mic. Este clar că vom merge să realizăm chestionare în Constanța și Tulcea, pentru că sunt singurele opțiuni. În Contanța avem de recrutat 14 respondenți. Îi recrutăm dintr-un singur punct de eșantionare sau mai multe? Ca să asigurăm o calitate bună a eșantionului, este clar nevoie de mai mult de un punct de eșantionare. Dacă vom considera un cluster de 7 respondenți, atunci ar fi 2 puncte de eșantionare. Dacă am considera un cluster de 10 respondenți, atunci am avea 1 cluster jumătate... cam dificil de acomodat, e bine de lucrat cu clustere egale. În Urbanul mic, ziceam că sunt 15 localități și avem de recrutat 11 respondenți. Aici am putea să avem 1 minim și maxim 2 puncte de eșantionare. Aș alege să facem 2 puncte de eșantionare în 2 localități diferite.

Ce înseamnă, în fond, cluster de x respondenți? Că pornind de la adresa de start, operatorul de teren aplică o regulă de selecție aleatorie a gospodăriei și apoi o regulă de selecție aleatorie a respondentului până strânge un număr de contacte/ selecții egale cu mărimea cluster-ului. Contact/ selecție nu înseamnă obligatoriu și chestionar complet/ interviu realizat. Dar lăsăm aceste detalii pentru o altă ocazie.

Tabel nr. 4.2. - Distribuția punctelor de eșantionare la nivel de regiune și mărime de localitate, pentru cluster = 7 respondenți, N=1000

Pentru un eșantion de 1000 respondenți și un cluster de 7 rezultă că vom lucra cu 143 puncte de eșantionare. Dacă am considera un cluster de 10, atunci vorbim de 100 de puncte de eșantionare. O diferență cam mare. Probabil vă gândiți care din cele două ar fi cea mai bună abordare. Un teoretician ar spune că este bine să aveți multe puncte de eșantionare, adică un cluster de mărime mai mica, 7 în cazul experimentului nostru, pentru că asiguri o răspândire bună, ai șanse mari să acoperi toate județele și mai multe localități. O persoană orientată pe reducerea costurilor (mai puține localități rurale în eșantion care să necesite deplasări) și păstrarea calității în limite normale/ acceptate, ar alege o varianta de cluster cu 10 respondenți. Am putea merge și pe o variantă de cluster cu 8 respondenți și vom avea 125 puncte de eșantionare. Pare o variantă de mijloc, oricum, pentru un eșantion de 100 de respondenți nu recomand un cluster mai mic de 7 sau mai mare de 10.

Concluzie

Este foarte important să cunoști specificul tării unde faci studiul și să înțelegi forma/ ele de organizare administrativ – teritorială.

Suprafața de întindere a țării este iar important și densitatea/ răspândirea așezărilor omenești.

Eșantionarea stratificată combinată cu cea cluster este varianta ideală care pentru orice eșantion aleator/ probabilistic, indiferent de sursa/ cadrul de eșantionare. Te ajută mult în segmentarea/ stratificarea unei populații în grupe mai mici, gestionabile și la care poți ajunge mai ușor.


linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram