-
Notifications
You must be signed in to change notification settings - Fork 16
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Merge pull request #4 from mini-pw/main
update
- Loading branch information
Showing
124 changed files
with
108,254 additions
and
23,225 deletions.
There are no files selected for viewing
Large diffs are not rendered by default.
Oops, something went wrong.
226 changes: 114 additions & 112 deletions
226
.../chylak_maciej/Chylak_Maciej_diamonds.Rmd → ...1/ChylakMaciej/Chylak_Maciej_diamonds.Rmd
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,112 +1,114 @@ | ||
--- | ||
title: "Untitled" | ||
output: | ||
pdf_document: default | ||
--- | ||
|
||
```{r setup, include=FALSE} | ||
knitr::opts_chunk$set(echo = TRUE) | ||
library(dplyr) | ||
library(ggplot2) | ||
library(data.table) | ||
library(gridExtra) | ||
library(DALEX) | ||
library(DALEXtra) | ||
``` | ||
|
||
##### Wczytanie zbioru danych | ||
|
||
```{r } | ||
df <- OpenML::getOMLDataSet(data.id = 42225) | ||
df <- df$data | ||
df | ||
``` | ||
|
||
|
||
##### Dane: | ||
|
||
|
||
|
||
##### Przygotowanie naszego zbioru danych do dalszej analizy. Zamienienie kolumny cut na wartosci numeryczne, skala oceny ciecia | ||
|
||
```{r} | ||
df <- df[, c(1, 2, 3, 4, 5, 6, 8, 9, 10, 7)] | ||
df$cut <- ifelse(df$cut=="Fair", 0, ifelse(df$cut=="Good", 1, | ||
ifelse(df$cut=="Very Good", 2, | ||
ifelse(df$cut=="Premium", 4, 5)))) | ||
colnames(df) <- c(colnames(df[1:6]), "x_mes", "y_mes", "z_mes", "price") | ||
df | ||
``` | ||
|
||
|
||
##### Podzielenie naszego zbioru danych na zbiór treninigowy i walidacyjny | ||
|
||
```{r} | ||
dt <- sort(sample(nrow(df), nrow(df)*.7)) | ||
Train <- df[dt, ] | ||
Valid <- df[-dt, ] | ||
``` | ||
|
||
##### Stworzenie modelu na zbiorze treningowym | ||
|
||
```{r} | ||
model <- ranger::ranger(price~., data=Train) | ||
model | ||
``` | ||
|
||
##### Stworzenie explainera, który posluzy nam pozniej do wyjasnienia modelu | ||
|
||
```{r} | ||
explainer <- explain(model = model, | ||
data = Train[, -10], | ||
y = Train$price) | ||
``` | ||
|
||
|
||
|
||
##### Wyjasnienie przy pomocy metody break down i shap dwoch dowolnych wierszy | ||
|
||
```{r} | ||
df_bd_0 <- predict_parts(explainer, new_observation = Valid[1, ], type="break_down") | ||
plot(df_bd_0) | ||
``` | ||
|
||
```{r} | ||
df_shap_0 <- predict_parts(explainer, new_observation = Valid[2,], type = "shap", B = 10) | ||
plot(df_shap_0) | ||
``` | ||
|
||
|
||
|
||
|
||
##### Dwie obserwacje ze zbioru danych, które maja inne najważniejsze zmienne: | ||
|
||
```{r} | ||
df_bd_1 <- predict_parts(explainer, new_observation = Valid[2000, ], type="break_down") | ||
plot(df_bd_1) | ||
``` | ||
|
||
```{r} | ||
df_bd_2 <- predict_parts(explainer, new_observation = Valid[30, ], type="break_down") | ||
plot(df_bd_2) | ||
``` | ||
|
||
W przypadku pierwszej obserwacji do najwazniejszych zmiennych naleza carat oraz color, natomiast w przypadku drugiej obserwacji jest to carat oraz y_mes. Przegladajac wieksza liczbe obserwacji mozemy zauwazyc, ze te trzy zmienne w glownej mierze definiuja ostateczna cene diamentu. Reszta parametrow z reguly ma duzo mniejsze znaczenie. | ||
|
||
|
||
|
||
##### Dwie obserwacje które dla tych samych zmiennych maja inne efekty (carat) | ||
|
||
```{r} | ||
df_bd_3 <- predict_parts(explainer, new_observation = Valid[1, ], type="break_down") | ||
plot(df_bd_3) | ||
``` | ||
|
||
```{r} | ||
df_bd_4 <- predict_parts(explainer, new_observation = Valid[2000, ], type="break_down") | ||
plot(df_bd_4) | ||
``` | ||
|
||
Oczywiscie rezultat jest taki, poniewaz w przypadku pierwszej obserwacji cena diamentu byla duzo mniejsza niz srednia, natomiast w przypadku drugim duzo wieksza | ||
--- | ||
title: "Untitled" | ||
output: | ||
html_document: | ||
df_print: paged | ||
|
||
--- | ||
|
||
```{r setup, include=FALSE} | ||
knitr::opts_chunk$set(echo = TRUE) | ||
library(dplyr) | ||
library(ggplot2) | ||
library(data.table) | ||
library(gridExtra) | ||
library(DALEX) | ||
library(DALEXtra) | ||
``` | ||
|
||
##### Wczytanie zbioru danych | ||
|
||
```{r } | ||
df <- OpenML::getOMLDataSet(data.id = 42225) | ||
df <- df$data | ||
df | ||
``` | ||
|
||
|
||
##### Dane: | ||
|
||
|
||
|
||
##### Przygotowanie naszego zbioru danych do dalszej analizy. Zamienienie kolumny cut na wartosci numeryczne, skala oceny ciecia | ||
|
||
```{r} | ||
df <- df[, c(1, 2, 3, 4, 5, 6, 8, 9, 10, 7)] | ||
df$cut <- ifelse(df$cut=="Fair", 0, ifelse(df$cut=="Good", 1, | ||
ifelse(df$cut=="Very Good", 2, | ||
ifelse(df$cut=="Premium", 4, 5)))) | ||
colnames(df) <- c(colnames(df[1:6]), "x_mes", "y_mes", "z_mes", "price") | ||
df | ||
``` | ||
|
||
|
||
##### Podzielenie naszego zbioru danych na zbiór treninigowy i walidacyjny | ||
|
||
```{r} | ||
dt <- sort(sample(nrow(df), nrow(df)*.7)) | ||
Train <- df[dt, ] | ||
Valid <- df[-dt, ] | ||
``` | ||
|
||
##### Stworzenie modelu na zbiorze treningowym | ||
|
||
```{r} | ||
model <- ranger::ranger(price~., data=Train) | ||
model | ||
``` | ||
|
||
##### Stworzenie explainera, który posluzy nam pozniej do wyjasnienia modelu | ||
|
||
```{r} | ||
explainer <- explain(model = model, | ||
data = Train[, -10], | ||
y = Train$price) | ||
``` | ||
|
||
|
||
|
||
##### Wyjasnienie przy pomocy metody break down i shap dwoch dowolnych wierszy | ||
|
||
```{r} | ||
df_bd_0 <- predict_parts(explainer, new_observation = Valid[1, ], type="break_down") | ||
plot(df_bd_0) | ||
``` | ||
|
||
```{r} | ||
df_shap_0 <- predict_parts(explainer, new_observation = Valid[2,], type = "shap", B = 10) | ||
plot(df_shap_0) | ||
``` | ||
|
||
|
||
|
||
|
||
##### Dwie obserwacje ze zbioru danych, które maja inne najważniejsze zmienne: | ||
|
||
```{r} | ||
df_bd_1 <- predict_parts(explainer, new_observation = Valid[2000, ], type="break_down") | ||
plot(df_bd_1) | ||
``` | ||
|
||
```{r} | ||
df_bd_2 <- predict_parts(explainer, new_observation = Valid[30, ], type="break_down") | ||
plot(df_bd_2) | ||
``` | ||
|
||
W przypadku pierwszej obserwacji do najwazniejszych zmiennych naleza carat oraz color, natomiast w przypadku drugiej obserwacji jest to carat oraz y_mes. Przegladajac wieksza liczbe obserwacji mozemy zauwazyc, ze te trzy zmienne w glownej mierze definiuja ostateczna cene diamentu. Reszta parametrow z reguly ma duzo mniejsze znaczenie. | ||
|
||
|
||
|
||
##### Dwie obserwacje które dla tych samych zmiennych maja inne efekty (carat) | ||
|
||
```{r} | ||
df_bd_3 <- predict_parts(explainer, new_observation = Valid[1, ], type="break_down") | ||
plot(df_bd_3) | ||
``` | ||
|
||
```{r} | ||
df_bd_4 <- predict_parts(explainer, new_observation = Valid[2000, ], type="break_down") | ||
plot(df_bd_4) | ||
``` | ||
|
||
Oczywiscie rezultat jest taki, poniewaz w przypadku pierwszej obserwacji cena diamentu byla duzo mniejsza niz srednia, natomiast w przypadku drugim duzo wieksza |
1,789 changes: 1,789 additions & 0 deletions
1,789
PraceDomowe/PracaDomowa1/ChylakMaciej/Chylak_Maciej_diamonds.html
Large diffs are not rendered by default.
Oops, something went wrong.
Oops, something went wrong.