Home

MLAKdane wiki

Pakiet MLAKdane przygotowuje dane wykorzystywane do generowania raportów ELA - http://ela.nauka.gov.pl/.

Sekwencję wywołan funkcji pakieru MLAKdane prowadzącą do wygenerowania danych używanych w raportach ELA zawiera plik Generowanie_danych.R
Aktualna lista wyliczanych wskaźników wraz ze wskazaniem funkcji, w której są wyliczane, znajduje się w arkuszu kalkulacyjnym w pliku vignettes/definicje_zmiennych.xlsx

Schemat przetwarzania danych

W ogólnym zarysie przygotowanie danych składa się z następujących kroków:

Wyczyszczenia czyszczenie danych.
Złączenia danych wejściowych w zdenormalizowany zbiór na poziomie jednostkowym (tytuł ubezpieczenia ZUS od danego płatnika składek w danym miesiącu kalendarzowym dla absolwenta danego kierunku studiów).
Agregowania zbioru danych jednostkowych (np. do poziomu absolwent danego kierunku studiów w danym miesiącu kalendarzowym albo absolwent danego kierunku studiów w pierwszym roku po uzyskaniu dyplomu, itd.) połączonego z wyliczaniem wskaźników właściwych dla danego poziomu agregacji - patrz rodzaje wyliczanych wskaźników.
Połączenia wyliczonych wskaźników w kilka zbiorów danych ze względu na poziom agregacji i ich eksportu do plików wynikowych - patrz dane wyjściowe.

Dokładny przepływ danych opisany został na stronie przepływ danych.

Technologia

Pakiet MLAKdane napisany jest w R, jako backend obliczeniowy wykorzystywany jest jednak Spark.

Wykorzystanie Sparka zapewnia możliwość efektywnego zrównoleglania przeprowadzanych obliczeń, co znakomicie skraca czas ich przeprowadzania. Przy tym R zapewnia bardzo dobrą i łatwą integrację ze Sparkiem poprzez pakiety dplyr i sparklyr

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Home

MLAKdane wiki

Schemat przetwarzania danych

Technologia

Clone this wiki locally