Skip to content

1.3 Pliki danych

Mateusz Żółtak edited this page Jan 24, 2017 · 5 revisions

Pliki danych (jeden lub wiele) zawierają informacje o analizowanych w raporcie jednostkach obserwacji (typowo studentach).

Aby pliki danych mogły być wykorzystane do wygenerowania danego raportu, każda zmienna wykorzystywana w szablonie danego raportu (patrz rozdział 1.5.), która nie została wczytana z pliku definicji odbiorców (patrz rozdział 1.6), musi znajdować się w którymś z plików danych.

Wiele plików danych

Może się zdarzyć, że do wygenerowania raportów potrzebne będzie wykorzystanie wielu plików danych. Przykładem mogą być analizy na danych o różnych poziomach agregacji.

W takim wypadku sprowadzenie wszystkich danych do bardziej szczegółowego poziomu agregacji wielokrotnie zwiększyłoby ich rozmiar i skomplikowało zapis formuł w szablonie raportu (np. przy obliczeniu liczebności grup).

Wygodniejszym rozwiązaniem może być skorzystanie z dwóch (lub nawet więcej) plików danych.

Funkcje wczytajOdbiorce() i generujRaporty() dają możliwość wczytania dowolnej liczby plików danych, w zależności od potrzeb.

Oprogramowaniu, z którego korzystamy nie przeszkadza w żaden sposób to, że zbiory mają różną długość, a kolejne wiersze w zbiorach opisują różne obserwacje (co może nie być intuicyjne dla osób przyzwyczajonych do pracy z programami statystycznymi SPSS czy Stata).

Uwaga! W wypadku wykorzystania dwóch wielu danych, nazwy zmiennych we wszystkich plikach muszą być rozłączne (inaczej zmienne z pliku wczytanego później nadpiszą zmienne z pliku wczytanego wcześniej).

Formaty danych

Wspierane są dwa formaty danych:

  • CSV
    Jest to format właściwy przy imporcie danych z zewnętrznych programów – praktycznie każdy program statystyczny i arkusz kalkulacyjny obsługuje eksport do formatu CSV,.
    Plik powinien być zapisany w sposób zgodny z Ms Excel przy polskich ustawieniach językowych:
    • separator pola: średnik,
    • separator dziesiętny: przecinek,
    • separator tekstu: cudzysłów,
    • kodowanie znaków: Windows-1250.
  • RData (format zapisu danych programu R) z zapisaną dokładnie jedną ramką danych.
    Jest to format właściwy do przygotowania większych zbiorów danych, które mają być wykorzystywane w raportach interaktywnych WWW (Rozdział 7). Dane zapisane w tym formacie wczytują się znacznie szybciej niż z formatu CSV, co wymiernie skraca czas potrzebny na odświeżenie raportu.
    Aby skonwertować dane z formatu CSV do RData, należy w konsoli (dolna część lewej szpalty okna RStudio) wydać komendy:
    library(MLAK)
    dane = wczytajCSV(‘ścieżkaDoPliku.csv’)
    save(dane, file = ‘ścieżkaZapisuPliku.RData’)

Ograniczenia nazw zmiennych (kolumn)

Aby nie kolidować z dozwolonymi nazwami zmiennych w R nazwy zmiennych (nagłówki kolumn w pliku CSV) powinny zawierać jedynie:

  • małe i duże litery alfabetu łacińskiego (bez polskich znaków);
  • cyfry (z wyjątkiem pierwszego znaku);
  • podkreślenia i kropki.

Uwaga! R rozróżnia wielkość liter, a więc np. jeśli zmienna w pliku danych nosi nazwę MojaZmienna, to w szablonie raportu odwoływać się do niej trzeba przez MojaZmienna, a odwołania MOJAZMIENNA, mojazmienna, itp. nie będą poprawne.

Wczytywanie plików danych w szablonie raportu

Najłatwiejszym sposobem załadowania danych w szablonie raportu (patrz rozdział 1.5) jest wywołanie w umieszczonej na samym początku szablonu raportu wstawce R funkcji wczytajOdbiorce(), np.:

---
title: "Mój raport"
output:
  pdf_document
---
```{r}
library(MLAK)
wczytajOdbiorce('mójPlikOdbiorcow.csv', 'mójPlikDanych.csv')
```

lub, jeśli korzystamy z dwóch plików danych:

---
title: "Mój raport"
output:
  pdf_document
---
```{r}
library(MLAK)
wczytajOdbiorce('mójPlikOdbiorcow.csv', c('mójPlikDanych.csv', 'mójDrugiPlikDanych.csv'))
```

W wypadku korzystania z większej liczby plików danych, należy wymienić je po przecinku, analogicznie, jak wyżej wymieniony został mójDrugiPlikDanych.csv.

Wszystkie zmienne (kolumny) z załadowanych w ten sposób zbiorów danych staną się dostępne w szablonie raportu. Jeśli np. któryś zbiór danych zawierał zmienne (kolumny) ERASMUS i DATADYP, to będzie się teraz można do nich odwołać wprost przez te nazwy.