-
Notifications
You must be signed in to change notification settings - Fork 0
/
checkpoint4.Rmd
115 lines (82 loc) · 5.42 KB
/
checkpoint4.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
---
title: "Problema 1"
output: html_document
date: "July 18, 2016"
---
```{r, message=FALSE, warning=FALSE}
library(ggplot2)
library(dplyr)
ano.atual <- read.csv("~/Documents/workspace/AD1/problema1/dados/ano-atual.csv")
cota.estado <- read.csv("~/Documents/workspace/AD1/problema1/dados/valor-cota-por-estado.csv")
names(cota.estado) <- c("sgUF", "sum")
```
## Introdu????o
No problema 1 da disciplina An??lise de Dados 1 pede para ser feita uma an??lise sobre os dados coletados do site de transpar??ncia da c??mara dos deputados. Esses dados cont??m todos os gastos de nossos deputados em 2016 usando a sua cota para exerc??cio da atividade parlamentar.
Nesse trabalho pretendo responder duas perguntar iniciais que levar??o ?? formula????o de mais duas perguntas.
##Pergunta 1: Levando em conta os gastos de janeiro a maio h?? alguma despesa que teve um aumento ou redu????o de gastos consider??vel durante esse per??odo?
####Entendendo os dados
Os dados que iremos precisar aqui s??o os equivalentes aos 5 primeiros meses do ano, trabalhar s?? com esses meses ?? melhor pois ?? esperado que os valores declarados para esses meses, em sua maioria, j?? foram computados.
```{r, fig.width=10, fig.height=5}
##filtrando para ter s?? os 5 primeiros meses
trimestre1 = ano.atual %>% filter(numMes < 6)
## Agrupando por mes e por tipo de despesa, e somando todos os gastos.
tri.sum = trimestre1 %>% group_by(numMes, txtDescricao) %>% summarize(sum = sum(vlrDocumento))
##Mapeando os n??meros para o tipo de M??s.
tri.sum$numMes <- as.factor(tri.sum$numMes)
levels(tri.sum$numMes) <- c("Janeiro", "Fevereiro", "Marco", "Abril", "Maio")
ggplot(tri.sum,aes(x=factor(txtDescricao),y=sum/1000000, fill = factor(numMes))) +
ylab("Gastos em Milhoes") + labs(x = "Tipo de gasto", fill = "Mes/2016") +
geom_bar(position = "dodge", stat = "identity") +
coord_flip()
```
Como pode ser visto h?? crescimento em todas as despesas at?? mar??o, depois n??o h?? uma uniformidade no comportamento das despesas em rela????o aos meses, mas todos tiveram redu????o em Abril e no m??s de Maio em alguns h?? redu????o enquanto em outros h?? aumento.
Uma poss??vel explica????o para isso ?? que h?? algum tipo de gasto trismestral para a maioria dos deputados.
Para investigarmos melhor vamos ver como a distribui????o Emiss??es de bilhetes a??reos, que teve muita redu????o, de Mar??o para Abril se comporta.
```{r, echo=TRUE, fig.width=0.01, fig.height=.01}
gastosabrilmaio = ano.atual %>% filter((numMes == 4 | numMes == 3)
& txtDescricao == "Emiss??o Bilhete A??reo")
medias = gastosabrilmaio %>%
group_by(numMes) %>%
summarise(vlrDocumento = mean(vlrDocumento))
ggplot(gastosabrilmaio, mapping = aes(x = as.factor(numMes), y = vlrDocumento) ) +
labs( y ="Preco do Bilhete Aereo", x= "Mes",
title = "Gastos com passagens aereas em abril e maio") +
geom_boxplot() +
geom_point(position = position_jitter(width = 0.3), alpha = 0.03) +
geom_point(data = medias, colour = "red", size = 1.5)
```
![](plot45.png)
Como podemos ver, ?? muito semelhante a distribui????o dos valores nos dois meses e a m??dia e mediana encontram-se muito perto uma da outra o que faz nos constatar uma simetria nos dados, logo vamo ver a quantidade de emiss??es nos dois meses. Vamos ent??o ver a quantidade de bilhetes emitidos em cada um dos meses.
```{r}
trimestre1 %>% count(numMes)
```
Como imaginado, a quantidade de bilhetes emitidos em mar??o foi aproximadamente 16.6% maior que em fevereiro e abril. Mas porque tantas emiss??es de bilhetes? Talvez o n??mero de sess??es nesse m??s foi maior.
##Pergunta 2: Qual estado economiza mais em rela????o a sua cota?
Ainda considerando os primeiros 5 meses do ano, aqui est??o a m??dia de gastos dos primeiros 5 meses onde cada ponto representa 1 deputados e o ponto vermelho ?? a cota daquele deputado no m??s.
```{r}
## pergunta 2 Qual estado economiza mais em rela????o as cotas?
deputados = ano.atual %>% filter(numMes<6) %>%
group_by(sgUF, txNomeParlamentar) %>% summarize(sum = sum(vlrDocumento)/5)
estados = deputados %>% group_by(sgUF) %>% summarise(mean = mean(sum))
ggplot(deputados, mapping = aes(x = sgUF, y = sum))+
geom_point(position = position_jitter(width = 0.2), alpha = 0.5, na.rm = TRUE)+
geom_point(data = cota.estado, colour = "red", size = 1.5)+
labs( y ="media de gasto mensal", x= "Estado")
```
Algo interessante ?? que vemos alguns deputados que gastam mais que suas cotas mensais, isso ?? poss??vel? Mas enfim, vamos ver qual estado economiza mais, pegando a m??dia dos gastos dos deputados vamos ver qual est?? mais abaixo da cota
```{r}
estados = deputados %>% group_by(sgUF) %>% summarise(sum = mean(sum))
estados = estados %>% filter(sgUF != "")
ggplot(estados, mapping = aes(x = sgUF, y = sum))+
geom_point(position = position_jitter(width = 0.2), alpha = 0.5, na.rm = TRUE)+
geom_point(data = cota.estado, colour = "red", size = 1.5)+
labs( y ="Media de gasto mensal de todos os deputados", x= "Estado")
```
Olhando assim, vemos que Rio de Janeiro, Alagoas e Piau?? s??o os que mais economizam, agora vamos ver em porcentagem em rela????o as cotas de cada estado.
```{r}
estados$pc = estados$sum/cota.estado$sum*100
ggplot(estados, mapping = aes(x = sgUF, y = pc))+
geom_bar(position = "dodge", stat = "identity")+
labs( y ="Percentagem de cota gasta em m??dia", x= "Estado")
```
Assim vemos que Alagoas ?? o estado que tem os deputados que economizam mais. Ou ser?? os que trabalham menos?