-
Notifications
You must be signed in to change notification settings - Fork 0
/
exploracion_datos.Rmd
192 lines (147 loc) · 5 KB
/
exploracion_datos.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
---
title: "dataset_mujeres"
author: "Azalea"
date: "2/18/2020"
output: html_document
---
Lo primero, cargamos libreria(s)
```{r setup, include=FALSE}
library(tidyverse)
```
Ahora importamos los datos.
```{r}
capitulos_rladies <- readr::read_csv("https://raw.githubusercontent.com/cienciadedatos/datos-de-miercoles/master/datos/2019/2019-06-26/capitulos_rladies.csv")
eventos_rladies <- readr::read_csv("https://raw.githubusercontent.com/cienciadedatos/datos-de-miercoles/master/datos/2019/2019-06-26/eventos_rladies.csv")
```
Una vez que se hayan leído los datos, lo que sigue es explorarlos.
Vamos a revisar las variables vs observaciones del primer dataset: R-Ladies
```{r}
names(capitulos_rladies)
str(capitulos_rladies)
names(eventos_rladies)
str(eventos_rladies)
```
Quiero saber cuáles son los capítulos de MX
```{r}
capitulos_rladies %>%
filter(pais == "MX")
```
Cuáles son los capítulos con más miembros?
```{r}
capitulos_rladies %>%
arrange(desc(miembros))
```
Cuáles son los capítulos con más de mil miembros?
```{r}
capitulos_rladies %>%
arrange(desc(miembros)) %>%
filter(miembros > 1000)
```
Capitulo con más de 500 miebros, pero menos de mil.
```{r}
capitulos_rladies %>%
arrange(desc(miembros)) %>%
filter(between(miembros, 500, 1000))
```
La cantidad de miembros está relacionado con la fecha de creación del capítulo?
```{r}
capitulos_rladies %>%
arrange(creacion)
```
Los capítulos de MX
```{r}
capitulos_rladies %>%
filter(pais == "MX") %>%
arrange(miembros)
capitulos_rladies %>%
filter(pais == "MX") %>%
arrange(desc(miembros))
```
Vamos a explorar LOS EVENTOS de los Capítulos de MX, ahora con `eventos_rladies`:
```{r}
eventos_rladies %>%
filter(capitulo == "R-Ladies Queretaro")
eventos_rladies %>%
filter(capitulo == "R-Ladies CDMX")
eventos_rladies %>%
filter(capitulo == "R-Ladies Xalapa")
```
```{r}
eventos_rladies %>%
filter(capitulo == "R-Ladies San Francisco")
```
## GENERA UNA PREGUNTA QUE TE GUSTARÍA CONTESTAR CON LAS BASES DE DATOS DE R-LADIES
# Ahora con el otro set de datos:
Otra vez, comenzamos por cargar la base de datos que se componen de tres conjuntos de datos (dataset):
```{r}
jobs_gender <- readr::read_csv("https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2019/2019-03-05/jobs_gender.csv")
earnings_female <- readr::read_csv("https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2019/2019-03-05/earnings_female.csv")
employed_gender <- readr::read_csv("https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2019/2019-03-05/employed_gender.csv")
```
Vamos a explorar los datos
```{r}
names(jobs_gender)
summary(jobs_gender$total_earnings)
summary(jobs_gender$total_earnings_male)
summary(jobs_gender$total_earnings_female)
```
Ahora vamos a ver qué tipo de trabajo o profesiones hay en la base de datos
```{r}
unique(jobs_gender$occupation)
unique(jobs_gender$major_category)
unique(jobs_gender$minor_category)
#ggplot(jobs_gender, aes(workers_male, workers_female, color = major_category)) +
# geom_point(alpha = 0.5)
```
Nos quedamos con __major_category__ como factor.
```{r}
jobs_gender$major_category <- as.factor(jobs_gender$major_category)
```
Graficamos la proporción de mujeres (female) para cada categoría y después lo mismo para los hombres (male)
```{r}
w_female <- ggplot(jobs_gender, aes(x = 1, y = workers_female, fill = major_category)) +
# Use a column geometry.
geom_col() +
# Change coordinate system to polar and set theta to 'y'.
coord_polar(theta = 'y')
w_male <- ggplot(jobs_gender, aes(x = 1, y = workers_male, fill = major_category)) +
# Use a column geometry.
geom_col() +
# Change coordinate system to polar and set theta to 'y'.
coord_polar(theta = 'y')
```
Juntamos las dos graficas para poder compararlas
```{r}
library(patchwork)
w_female + w_male
```
Ahora vamos a explorar cuántos trabajadores de cada sexo se desempeñan en cada __major_category__ por año de la encuesta.
```{r}
library(cowplot)
bw_female <- ggplot(jobs_gender, aes(year, workers_female, fill = major_category)) +
geom_bar(stat="identity") +
ylim(0, 60000000)
bw_male <- ggplot(jobs_gender, aes(year, workers_male, fill = major_category)) +
geom_bar(stat="identity") +
ylim(0, 60000000)
plot_grid(bw_female, bw_male, labels = "AUTO")
```
EL porcentaje de mujeres para cada __major category__
```{r}
ggplot(jobs_gender, aes(major_category, percent_female, fill = major_category)) +
geom_boxplot()
```
Revisemos rápido las ganancias de acuerdo a mujeres y hombres
*Mejora estas gráficas para poder comparar las ganancias de las mujeres vs hombres*
```{r}
ggplot(jobs_gender, aes(major_category, total_earnings, fill = major_category)) +
geom_boxplot()
ggplot(jobs_gender, aes(major_category, total_earnings_female, fill = major_category)) +
geom_boxplot()
ggplot(jobs_gender, aes(major_category, total_earnings_male, fill = major_category)) +
geom_boxplot()
```
También están los datos `earnings_female` y `employed_gender`
```{r}
# vamos explorarlos ...
```