-
Notifications
You must be signed in to change notification settings - Fork 1
1.3 Pliki danych
Pliki danych (jeden lub wiele) zawierają informacje o analizowanych w raporcie jednostkach obserwacji (typowo studentach).
Aby pliki danych mogły być wykorzystane do wygenerowania danego raportu, każda zmienna wykorzystywana w szablonie danego raportu (patrz rozdział 1.5.), która nie została wczytana z pliku definicji odbiorców (patrz rozdział 1.6), musi znajdować się w którymś z plików danych.
Może się zdarzyć, że do wygenerowania raportów potrzebne będzie wykorzystanie wielu plików danych. Przykładem mogą być analizy na danych o różnych poziomach agregacji.
W takim wypadku sprowadzenie wszystkich danych do bardziej szczegółowego poziomu agregacji wielokrotnie zwiększyłoby ich rozmiar i skomplikowało zapis formuł w szablonie raportu (np. przy obliczeniu liczebności grup).
Wygodniejszym rozwiązaniem może być skorzystanie z dwóch (lub nawet więcej) plików danych.
Funkcje wczytajOdbiorce()
i generujRaporty()
dają możliwość wczytania dowolnej liczby plików danych, w zależności od potrzeb.
Oprogramowaniu, z którego korzystamy nie przeszkadza w żaden sposób to, że zbiory mają różną długość, a kolejne wiersze w zbiorach opisują różne obserwacje (co może nie być intuicyjne dla osób przyzwyczajonych do pracy z programami statystycznymi SPSS czy Stata).
Uwaga! W wypadku wykorzystania dwóch wielu danych, nazwy zmiennych we wszystkich plikach muszą być rozłączne (inaczej zmienne z pliku wczytanego później nadpiszą zmienne z pliku wczytanego wcześniej).
Wspierane są dwa formaty danych:
-
CSV
Jest to format właściwy przy imporcie danych z zewnętrznych programów – praktycznie każdy program statystyczny i arkusz kalkulacyjny obsługuje eksport do formatu CSV,.
Plik powinien być zapisany w sposób zgodny z Ms Excel przy polskich ustawieniach językowych:- separator pola: średnik,
- separator dziesiętny: przecinek,
- separator tekstu: cudzysłów,
- kodowanie znaków: Windows-1250.
-
RData (format zapisu danych programu R) z zapisaną dokładnie jedną ramką danych.
Jest to format właściwy do przygotowania większych zbiorów danych, które mają być wykorzystywane w raportach interaktywnych WWW (Rozdział 7). Dane zapisane w tym formacie wczytują się znacznie szybciej niż z formatu CSV, co wymiernie skraca czas potrzebny na odświeżenie raportu.
Aby skonwertować dane z formatu CSV do RData, należy w konsoli (dolna część lewej szpalty okna RStudio) wydać komendy:library(MLAK) dane = wczytajCSV(‘ścieżkaDoPliku.csv’) save(dane, file = ‘ścieżkaZapisuPliku.RData’)
Aby nie kolidować z dozwolonymi nazwami zmiennych w R nazwy zmiennych (nagłówki kolumn w pliku CSV) powinny zawierać jedynie:
- małe i duże litery alfabetu łacińskiego (bez polskich znaków);
- cyfry (z wyjątkiem pierwszego znaku);
- podkreślenia i kropki.
Uwaga! R rozróżnia wielkość liter, a więc np. jeśli zmienna w pliku danych nosi nazwę MojaZmienna
, to w szablonie raportu odwoływać się do niej trzeba przez MojaZmienna
, a odwołania MOJAZMIENNA
, mojazmienna
, itp. nie będą poprawne.
Najłatwiejszym sposobem załadowania danych w szablonie raportu (patrz rozdział 1.5) jest wywołanie w umieszczonej na samym początku szablonu raportu wstawce R funkcji wczytajOdbiorce()
, np.:
---
title: "Mój raport"
output:
pdf_document
---
```{r}
library(MLAK)
wczytajOdbiorce('mójPlikOdbiorcow.csv', 'mójPlikDanych.csv')
```
lub, jeśli korzystamy z dwóch plików danych:
---
title: "Mój raport"
output:
pdf_document
---
```{r}
library(MLAK)
wczytajOdbiorce('mójPlikOdbiorcow.csv', c('mójPlikDanych.csv', 'mójDrugiPlikDanych.csv'))
```
W wypadku korzystania z większej liczby plików danych, należy wymienić je po przecinku, analogicznie, jak wyżej wymieniony został mójDrugiPlikDanych.csv.
Wszystkie zmienne (kolumny) z załadowanych w ten sposób zbiorów danych staną się dostępne w szablonie raportu. Jeśli np. któryś zbiór danych zawierał zmienne (kolumny) ERASMUS
i DATADYP
, to będzie się teraz można do nich odwołać wprost przez te nazwy.