Skip to content

Czyszczenie danych

Mateusz Żółtak edited this page Nov 23, 2018 · 6 revisions

Czyszczenie danych realizowane jest przez funkcje przygotuj_*().

Czyszczenie danych obejmuje:

  • Standaryzację nazw zmiennych (w szczególności zawierających identyfikatory, na podstawie których następują złączanie danych z różnych zbiorów).
  • Usunięcie niepotrzebnych zmiennych.
  • Konwersję dat na liczbę miesięcy.

Dodatkowo w wypadku:

  • Zbioru opisującego powiaty
    • jest on konwertowany z postaci szerokiej (kombinacja kodu pocztowego i kodu TERYT powiatu w wierszach, wartości wskaźników GUS w poszczególnych miesiącach/latach w kolumnach) na długą (kombinacja kodu pocztowego i kodu TERYT powiatu oraz daty wyrażonej jako rok i miesiąc w wierszach, poszczególne wskaźniki GUS w kolumnach);
    • a następnie agregowany do poziomu agreagacji trzy pierwsze cyfry kodu pocztowego w danym miesiącu (trzy pierwsze cyfry kodu pocztowego to identyfikator lokalizacji przekazywany w zbiorach ZUS).
  • Zbiorów ZUS
    • Dane o zamieszkaniu (zbiór danych wejściowych ZDU2) są uzgadniane pomiędzy dostępnymi źródłami (informacja o adresie zameldowania, zamieszkania i adresie do korespondencji - za najbardziej wiarygodny przyjmowany jest adres do korespondencji, następnie adres zamieszkania, a za najmniej wiarygodny adres zameldowania).
    • Z czterech możliwych wysokości podstaw składki (zbiór ZDU3) - na podstawie ubezpieczenia chorobowego, wypadkowego, zdrowotnego lub emerytalnego - wyliczana jest jedna podstawa używana w dalszych analizach, będąca największą wartością spośród rozważanych podstaw.
    • Wszystkie zbiory wejściowe ZUS (patrz dane wejściowe) są łączone w jeden zbiór poprzez proste złączenie po wartościach wspólnych zmiennych.
    • W wypadku istnienia więcej niż jednego adresu zamieszkania dla danego rekordu opisującego składkę (wyznaczanego przez rekordy zbioru ZDU3) arbitralnie wybierany jest jeden adres. Aby zapewnić powtarzalność wyników (w szczególności niezależność wyniku od posortowania zbioru danych wejściowych) jako metodę arbitrażu wybrano kod pocztowy o najmniejszej wartości, w oczywisty sposób jest to jednak zasada techniczna (zapewnia stabilne wyjście), a nie metodologiczna (nie ma podstaw by sądzić, że to właśnie ten adres jest właściwy).
      • Przyczyną występowanie tego typu problemów jest konstrukcja zbioru ZDU2 (wywodząca się zapewne ze struktur danych systemów informatycznych ZUS), w której zamieszkanie opisywane jest rekordami id_osoby, data_od, data_do, miejsce_zamieszkania. Struktura taka nie zapewnia możliwości łatwej weryfikacji, czy rekordy opisujące tą samą osobę nie są ze sobą sprzeczne (np. osoba 1, 2014-01, 2014-06, kod pocztowy 00-367 oraz osoba 1, 2014-04, 2014-10, kod pocztowy 02-132) i w rzeczy samej konflikty takie, w niewielkim nasileniu, występują.
    • Istniejące w danych ZUS kody pocztowe weryfikowane są względem bazy znanych kodów pocztowych.
Clone this wiki locally