Eșantionarea - De ce să faci eșantionare multi-stratificată combinată cu cluster în România? Partea I

Eșantionarea stratificată și cea cluster sunt două din cele 4 tipuri de eșantionări probabilistice. Eu propun să le și combinăm... lucru curios, dar care ajută mult în gestionarea eșantioanelor aleatorii.

Un lucru este cert privind România și administrarea datelor de evidență a populației – nu există posibilitatea unei extrageri aleatorii dintr-o bază care să conțină contactele rezidenților din RO (România) și astfel să poți spune că faci eșantionare probabilistică, fiecare persoană din populație are aceeași șansă de a fi selectată în eșantion sau măcar să poți calcula probabilitatea de selecție la nivel de fiecare individ care intră în eșantionul extras. Personal, am avut șansa să experimentez varianta colaborării cu D.E.P.A.B.D. (Direcția pentru Evidența Populației și Administrarea Bazelor de Date) care a făcut extragerea aleatorie de adrese după un algoritm dat de mine. Aveam nevoie de extragerea a 5000 de adrese ale persoanelor de 50 și peste din RO. Chiar și așa, a trebuit să gândesc eșantion multi-stratificat pe cluster și să extrag localitățile în eșantion, respectiv să spun de câte adrese am nevoie la nivel de fiecare localitate. Colaborarea a fost una oarecum bună, lăsând la o parte că a durat foarte mult. Surpriza a fost să aflu, după multe săptămâni de așteptare, când am primit baza de adrese, că pe anumite localități rurale, unde nu exista noțiunea/ unitatea de stradă ca organizare administrativă, nu au putut face extragerea. A fost panică... am găsit soluția de a menține condițiile unui eșantion probabilistic și pe aceste localități, dar ne-a întârziat 2 săptămâni.

Acum, înainte de a intra în detaliu pe multi-stratificare, vreau să vă arăt câteva curiozități despre România și modul cum este administrată și organizată teritorial. Mă voi folosi de datele existente deja și publicate de diferite autorități. Am și eu câteva date și am observat că sunt diferențe față de ce găsești la INSSE, cu condiția să ai răbdare să și prelucrezi fișierele lor. Apropos, INSSE stă foarte prost la organizarea fișierelor care conțin detalii despre populație la nivel de localitate. Nu am înțeles niciodată de ce codurile SIRUTA (cod unic alocat fiecărei localități din România), de altfel administrate de o entitate responsabilă cu organizarea administrativ teritorială a țării, nu se regăsesc în toate fișierele INSSE, iar aceștia din urmă preferă să scrie documente text. Iar dacă ai bafta de fișiere Excel, fii sigur că vei găsi localitatea scrisă ba cu diacritice, ba fără, iar pe partea de rural vei găsi date doar la nivel de comună. O minunăție... de aceea îmi rezerv răbdarea pentru datele de la recensământul abia început (cu titlu de 1 Dec 2021) și trăiesc cu speranța că au învățat să facă fișiere smart.

Câteva date despre România

Populație: undeva la 20 mil

Suprafață 238,397 km2

Densitate: 84,4 loc/km²

41 de județe

7 regiuni istorice (București, Ardeal, Banat/ Crișana/ Maramureș, Moldova, Muntenia, Oltenia, Dobrogea) sau 8 micro-regiuni (NUTS 2) stabilite de INSSE, ceva mai echilibrate, (Bucuresti – Ilfov, Nord-Vest, Centru, Nord – Est, Sud – Est, Sud – Muntenia, Sud - Vest Oltenia, Vest).

Regiuni istorice
Regiuni INSSE

În 2016 existau 3181 de unități administrativ teritoriale (un fișier publicat de autorități pe eurostat), numite LAU în terminologia Europeană. Aceste UA, pe scurt unități administrative, au rolul de a administra mai multe localități. Aceste UA pot avea rol de municipiu, oraș sau comună. Nu există sate care să se administreze singure. Satele, care sunt undeva la peste 10 mii în total, sunt alocate administrativ – teritorial unor orașe sau unor sate, acestea din urmă având rol de comune. În cele 3181 de unități administrativ – teritoriale, se regăsesc doar satele cu rol de comună. Pe lângă acestea, spuneam, scuze că mă repet, sunt undeva spre 10 mii de sate mici sau mari, care sunt subordonate administrativ fie unui oraș, fie unei comune.

Vă mai rețin puțin atenția despre densitatea populației. Am dat o măsură mai sus, dar dacă nu vă arăt statistici și din alte țări, nu veți putea evalua dacă suntem o țară aglomerată sau rarefiată.

Pun mai jos o hartă pe care am găsit-o pe eurostat.ro. Zonele albastre au densitate mică, locuitorii au mult spațiu la dispoziție și trăiesc în/ cu lărgimea spațiului, iar zonele portocalii sunt aglomerate. Deci, în RO nu ne călcăm pe picioare. Localitățile sunt răsfirate.

Pentru partea a II-a click aici.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram