diff --git a/figures/schema_pour_H_mathian3.png b/figures/schema_pour_H_mathian3.png new file mode 100644 index 0000000..4862648 Binary files /dev/null and b/figures/schema_pour_H_mathian3.png differ diff --git a/figures/xuenylom.jpg b/figures/xuenylom.jpg deleted file mode 100644 index 92e6647..0000000 Binary files a/figures/xuenylom.jpg and /dev/null differ diff --git a/gwr_rzine.Rmd b/gwr_rzine.Rmd index a623c31..ad8b5c2 100644 --- a/gwr_rzine.Rmd +++ b/gwr_rzine.Rmd @@ -69,7 +69,7 @@ Lorsque l'on souhaite dépasser la simple caractérisation d'attributs liés à Le principe de la régression linéaire est de modéliser la variable que nous souhaitons étudier (aussi appelée variable dépendante, VD) comme une fonction linéaire des variables que nous aurons définies comme explicatives de la VD (aussi appelées variables indépendantes, VI). Lorsque l'on s'intéresse à un phénomène social observé sur une maille territoriale, la régression linéaire pose plusieurs problèmes : -Le premier est empirique. La régression linéaire nous permet d'obtenir des coefficients (appelés betas **β**) et des résidus (notés epsilon **ε**). Ces **β** représentent l'effet des VI sur la VD. Ces **β** sont considérés comme globaux, sans variation. Autrement dit, les modèles de régression linéaire considèrent que les VI interviennent de la même manière et avec la même importance sur l'ensemble de notre jeu de données. Si cette hypothèse peut être validée sur des populations statistiques définies aléatoirement et sans effet de structure *a priori* des VI ou de la VD, elle n'est que rarement vérifiée sur des données spatiales. En effet, les caractéristiques propres de chaque territoire (l'unicité de chaque lieu) impliquent que l'effet constaté en un lieu n'est pas forcément valable en un autre lieu de l'espace. +Le premier est empirique. La régression linéaire nous permet d'obtenir des coefficients (appelés betas **β**) et des résidus (notés epsilon **ε**). Ces **β** représentent l'effet des VI sur la VD. Ces **β** sont considérés comme globaux, sans variation. Autrement dit, les modèles de régression linéaire considèrent que les VI interviennent de la même manière et avec la même importance sur l'ensemble de notre jeu de données. Si cette hypothèse peut être validée sur des populations statistiques définies aléatoirement et sans effet de structure *a priori* des VI ou de la VD, elle n'est que rarement vérifiée sur des données spatiales (note de bas de page chapitre 8 livre Feuillet & co). En effet, les caractéristiques propres de chaque territoire (l'unicité de chaque lieu) impliquent que l'effet de structure constaté en un lieu n'est pas forcément valable en un autre lieu de l'espace. Les données sont ainsi structurées : @@ -80,11 +80,12 @@ Les individus statistiques, représentés par des unités spatiales ne peuvent p Concernant les prix des valeurs foncières que nous détaillerons par la suite dans cette fiche, on peut comprendre que la proximité au littoral, très prégnante en certains points de l'espace, ne joue absolument aucun rôle dans d'autres lieux. De même, certaines caractérisations du monde rural n'interviennent plus lorsqu'on se situe dans des milieux fortement urbanisés. Ainsi, les données spatialisées sont soumises à l'hétérogénéité spatiale : l'effet des VI va varier en fonction de l'espace. Un coefficient qui serait global et uniforme pour mesurer un effet paraît plus simple et donc tentant, mais non pertinent en géographie ; sur ce point nous pouvons nous référer à l'article de Brunsdon, Fotheringham et Charlton [@Brundson_1996]. **Ce concept d'hétérogénéité dans l'espace se traduit en statistique par celui de non stationnarité**. -Le deuxième problème est statistique : chaque méthode statistique doit répondre à un certain nombre de conditions de validité. La régression linéaire ne fait pas exception. Trois conditions doivent être validées pour qu'une régression linéaire puisse être effectuée sans que l'interprétation des résultats ne conduise à des raisonnements fallacieux : +Le deuxième problème est statistique : chaque méthode statistique doit répondre à un certain nombre de conditions de validité. La régression linéaire ne fait pas exception. Trois conditions doivent être validées pour qu'une régression linéaire puisse être effectuée sans que l'interprétation des résultats ne conduise à des raisonnements fallacieux dus à des estimateurs qui seraient biaisés : - Les individus statistiques doivent être indépendants - Les résidus doivent suivre une distribution normale - Il ne peut pas y avoir plus de VI que d'individus statistiques +- Les estimateurs doivent présenter une multicolinéarité limitée Si les deux dernières conditions ne trouvent pas de matérialisation spécifique sur des données spatiales, la première quant à elle concrétise un problème récurrent sur les données en géographie. Par leur nature même, les données spatiales ne peuvent pas remplir cette condition fondamentale pour une régression classique. La première loi de la géographie de Tobler : *"everything is related to everything else, but near things are more related than distant things"* en est une traduction tout à fait parlante. @@ -94,6 +95,11 @@ Le quatrième problème est lié à la problématique du MAUP (Modifiable Area U La GWR ne répond pas à l'ensemble de ces problèmes mais va nous permettre de résoudre les deux premiers en intégrant la dimension spatiale des données tout en tenant compte de l'hétérogénéité (ou non stationnarité) de leur effet. +Il existe d'autres méthodes en statistiques spatiales comme les régressions spatiales par exemple. Elles permettent de traiter entre autres les problèmes d'autocorrélation spatiale. Le schéma 1 permet de voir à quelles questions et quelle utilisation nous pouvons faire de ces différentes méthodes et leur combinaison éventuelle. Nous ne présentons dans cet article qu'un seul chemin dans ce continuum méthodologique : le but est de présenter ici uniquement la GWR. D'autres méthodes peuvent cependant y être associées. + +![Naviguer à vue dans le continuum statistique spatial](figures/schema_pour_H_mathian3.png) + + # Les packages {-} Voici les packages que nous utiliserons : @@ -159,11 +165,6 @@ lapply(my_packages, library, character.only = TRUE) ``` -# Cheminement {-} - -Le schéma ci-dessous (Frédéric Audard, 2024) représente les différents cheminements possibles pour expliquer les variations de Y. Les étapes suivies ici sont représentées en bleu. - -![Naviguer à vue dans le continuum statistique spatial](figures/xuenylom.jpg) # Présentation et préparation des données @@ -475,11 +476,11 @@ La conception d'un modèle statistique doit absolument être le fruit d'une réf L'étude des corrélations peut donc apporter une aide précieuse dans cette réflexion. Elle pourra nous aider dans le choix des variables à intégrer au modèle mais dans le même temps de vérifier certaines des conditions de réalisation de notre régression. -Ainsi, une analyse des corrélation pourra vérifier : +Ainsi, une analyse des corrélations pourra vérifier : - l'existence d'un lien entre les variables indépendantes et la variable à étudier. En effet dans une régression linéaire, il est nécessaire d'avoir une relation linéaire entre la VD et les différentes VI. - la multicolinéarité des variables indépendantes. Les corrélations ne doivent pas être trop fortes entre les VI. Un coefficient > 0.7 en valeurs absolues doit entraîner la suppression des variables concernées. Cela peut aussi être vérifié très efficacement avec le VIF (Variance Inflation Factor) mais peut se faire seulement après avoir lancé le modèle. -- L'absence de corrélation entre les variables explicatives du modèle et les variables externes. En effet, les variables d'influence doivent être incluses dans le modèle (sauf dans le cas où cela induirait une trop grande multicolinéarité). +- que toutes les variables d'intérêt sont bien présentes dans le modèle (sauf dans le cas où cela induirait une trop grande multicolinéarité). Pour calculer une matrice de corrélation : @@ -892,7 +893,7 @@ mf_credits("Sources: Notaires de France 2018, INSEE 2019, IGN Admin Express 2021 mf_theme("default") ``` -Sur cette carte on voit très clairement une spatialisation des résidus, sans même faire les tests nous aurions pu voir que la dimension spatiale jouait bien un rôle. Sans autocorrélation nous aurions eu une répartition aléatoire des résidus. +La dimension spatiale semble jouer un rôle ; sans autocorrélation nous aurions eu une répartition aléatoire des résidus. Notre hypothèse repose sur l'existence d'une structure spatiale avec à la fois des effets des effets de situation (Île-de-France par exemple) et des effets de sites (les littoraux). Certains écarts relèvent d'une réalité certainement plus complexe, comme les zones de montagne (Alpes et Pyrénées) qui correspondent à la fois d'un effet de situation et de site. # Analyse de l'autocorrélation spatiale @@ -1041,7 +1042,7 @@ L'idée est de faire appel ici au LISA pour compléter la compréhension du nive Le logiciel [GeoDa](http://geodacenter.github.io/){target="_blank"}, développé par Luc Anselin et son équipe pour étudier l'autocorrélation spatiale et les LISA, constitue une bonne solution logicielle en clic-boutons, avec une [documentation](http://geodacenter.github.io/documentation.html){target="_blank"} riche [@geoda]. -Nous allons calculer le I de Moran local sur nos données, grâce au package `rgeoda` développé également par Luc Anselin pour réaliser sur R les traitements de GeoDa : +Nous allons calculer le I de Moran local sur nos données, grâce au package `rgeoda` développé également par Luc Anselin pour réaliser sur R les traitements de GeoDa. ```{r} # calcul moran local @@ -1592,8 +1593,7 @@ mf_title("Nombre de variables expliquant significativement la variabilité des p mf_credits("Sources: Notaires de France 2018, INSEE 2019, IGN Admin Express 2021") ``` -Il se peut que cela soit plus intéressant d'utiliser les p-value, notamment si vous avez moins de 200 individus. - +Il se peut que cela soit plus intéressant d'utiliser les p-value, notamment si vous avez moins de 200 individus. Dans le cas présent, les 2 cartes sont identiques puisque nous avons 1223 individus. ```{r} # Les p-value ne sont pas fournis dans le modèle de la GWR @@ -1716,10 +1716,13 @@ Cette méthode présente également certaines faiblesses, qui constituent souven - La non-stationnarité n'est prise en compte que partiellement pour l'instant par les méthodes existantes ou les packages déjà élaborés. Une méthode redéfinissant pour chaque point de l'espace un groupe de variables explicatives différent garantirait certainement à la fois une meilleure explication (un $R^2$ plus élevé) et une meilleure sobriété du modèle (un AIC plus faible). - La structure de la dépendance spatiale peut également être sujette à discussion : on peut imaginer que chaque point de l'espace présente une structure de la dépendance différente et qu'il soit pertinent de redéfinir, pour chaque point de l'espace, une forme de noyau et une bande passante différente [@comber_2022]. +- L'autocorrélation spatiale n'est pour le moment pas prise en compte de manière concomitante avec la GWR. Il conviendrait de pouvoir coupler ces méthodes pour régler dans le même temps les différents problèmes liées aux structures spatiales des données (Schéma 1). Une des solutions pour répondre à ce problème serait de réaliser une GWR / MGWR de type SAR, SLX ou SDM en chaque point de l'espace. Cela permet d'associer les effets de dépendance spatiale à l'étude des effets de non-stationnarité. Ces méthodes ne sont pas encore implémentées et mériteraient de nouvelles investigations. Les solutions qui permettraient de limiter les faiblesses de cette méthode nécessitent certainement de grosses capacités de calcul qui alourdiraient fortement la mise en œuvre des traitements statistiques. -La GWR n'est bien sur pas la seule approche existante pour s'intéresser à l'aspect spatial de phénomènes et variables sociales, il existe des modèle de régressions spatiales (SDEM, SDM, SAR...) mais également d'autres méthode comme l'[analyse territoriale multiscalaire (MTA)](https://rzine.fr/docs/20211101_ysebaert_grasland_MTA/index.html#content){target="_blank"} ou la MGWR [@Lu_2014] qui peuvent également s'avérer extrêmement intéressantes et riches. +La GWR n'est bien sur pas la seule approche existante pour s'intéresser à l'aspect spatial de phénomènes et variables sociales. Il existe également d'autres méthodes telles que la GWR Lasso (ref) ou la GWR Multiscalaire (MGWR) (ref). + +Dans un autre registre l'[analyse territoriale multiscalaire (MTA)](https://rzine.fr/docs/20211101_ysebaert_grasland_MTA/index.html#content){target="_blank"} ou la MGWR [@Lu_2014] peuvent également s'avérer extrêmement intéressantes et riches. # Bibliographie {-} diff --git a/gwr_rzine.html b/gwr_rzine.html index a8601e0..fbcdffe 100644 --- a/gwr_rzine.html +++ b/gwr_rzine.html @@ -6,7 +6,7 @@ - +
Les données sont ainsi structurées :
Si les deux dernières conditions ne trouvent pas de matérialisation spécifique sur des données spatiales, la première quant à elle @@ -5357,6 +5358,19 @@
Il existe d’autres méthodes en statistiques spatiales comme les +régressions spatiales par exemple. Elles permettent de traiter entre +autres les problèmes d’autocorrélation spatiale. Le schéma 1 permet de +voir à quelles questions et quelle utilisation nous pouvons faire de ces +différentes méthodes et leur combinaison éventuelle. Nous ne présentons +dans cet article qu’un seul chemin dans ce continuum méthodologique : le +but est de présenter ici uniquement la GWR. D’autres méthodes peuvent +cependant y être associées.
+Le schéma ci-dessous (Frédéric Audard, 2024) représente les -différents cheminements possibles pour expliquer les variations de Y. -Les étapes suivies ici sont représentées en bleu.
-Ce fichier est composé des 10 variables suivantes (les données datent de 2019 sauf prix médian 2018) :
Nous allons également charger une couche de régions qui nous servira d’habillage pour les cartes :
shp_path <- here("data", "REGION.shp")
@@ -5573,8 +5576,8 @@ 1.3 Jointure des données
## [1] 1242
# filtre des données de la jointure pour ne voir que les epci sans correspondance dans immo_df
datatable(data_immo[is.na(data_immo$prix_med),])
Cependant, la VD étant prix_med
les lignes vides ne nous
@@ -5796,8 +5799,8 @@
Il est important de réaliser également pour les VI cet histogramme que nous venons de faire pour la VD :
# Distribution des variables indépendantes :
@@ -5811,8 +5814,8 @@ 3.1 Exploration des
h <- add_histogram(plot_ly(data_immo, x = ~(part_cadre_profintellec_nbemploi), name = "part_cadre_profintellec_nbemploi"))
fig = subplot(a, b, c, d, e, f, g, h, nrows = 2)
fig
Ainsi, une analyse des corrélation pourra vérifier :
+Ainsi, une analyse des corrélations pourra vérifier :
Pour calculer une matrice de corrélation :
# on commence par créer un dataframe identique à immo_df mais sans la colonne SIREN
@@ -5997,20 +5999,20 @@ 3.3.1 Principe et
gtsummary
:
-
-
@@ -6538,20 +6540,20 @@ 3.4.1
obtenus avec gtsummary :
-
-
-
@@ -7667,8 +7669,8 @@ 3.4.3 Analyser les
-
-
+
+
On peut également les visualiser :
par(mfrow=c(1,3))
# diagramme quantile-quantile qui permet de vérifier l'ajustement
@@ -7679,7 +7681,7 @@ 3.4.3 Analyser les
hist(rstudent(mod.lm), breaks = 50, col="darkblue", border="white", main="Analyse visuelle des résidus")
# un graphique pour visualiser l'homoscédasticité des résidus
plot(rstudent(mod.lm))
-
+
Si la voie graphique ne vous inspire pas il existe des tests
statistiques qui permettent de vérifier la normalité des résidus ou bien
leur homoscédasticité.
@@ -7711,8 +7713,8 @@ 3.4.3 Analyser les
supprimer ces individus et voir comment réagit le modèle.
-
-
+
+
# Pour relancer un nouveau modèle sans l'individu le plus extrême
# Notez que l'on peut en supprimer plusieurs d'un coup avec subset=-c(36,266)
mod.lmx <- update(mod.lm, subset=-266)
@@ -7758,7 +7760,7 @@ 3.4.3 Analyser les
-
+
## [1] 36 180
# Il est possible de comparer les deux modèles et les coefficients
car::compareCoefs(mod.lm, mod.lmx, pvals = TRUE)
@@ -7949,10 +7951,14 @@ 3.4.5 Cartographie des
-Sur cette carte on voit très clairement une spatialisation des
-résidus, sans même faire les tests nous aurions pu voir que la dimension
-spatiale jouait bien un rôle. Sans autocorrélation nous aurions eu une
-répartition aléatoire des résidus.
+La dimension spatiale semble jouer un rôle ; sans autocorrélation
+nous aurions eu une répartition aléatoire des résidus. Notre hypothèse
+repose sur l’existence d’une structure spatiale avec à la fois des
+effets des effets de situation (Île-de-France par exemple) et des effets
+de sites (les littoraux). Certains écarts relèvent d’une réalité
+certainement plus complexe, comme les zones de montagne (Alpes et
+Pyrénées) qui correspondent à la fois d’un effet de situation et de
+site.
@@ -8213,7 +8219,7 @@ 4.2 Niveau local
Nous allons calculer le I de Moran local sur nos données, grâce au
package rgeoda
développé également par Luc Anselin pour
-réaliser sur R les traitements de GeoDa :
# calcul moran local
# Pour utiliser la fonction local_moran du package rgeoda 2 pré-requis:
@@ -8589,7 +8595,7 @@ 5.4 Interprétation des
## ***********************************************************************
## * Package GWmodel *
## ***********************************************************************
-## Program starts at: 2024-07-30 12:21:01.349434
+## Program starts at: 2024-08-01 13:14:20.876007
## Call:
## gwr.basic(formula = formula, data = data, bw = bw, kernel = kernel,
## adaptive = adaptive, p = p, theta = theta, longlat = longlat,
@@ -8677,7 +8683,7 @@ 5.4 Interprétation des
## Adjusted R-square value: 0.9084372
##
## ***********************************************************************
-## Program stops at: 2024-07-30 12:21:44.204707
+## Program stops at: 2024-08-01 13:15:00.441401
Cette visualisation des résultats nous propose d’abord un rappel complet du modèle linéaire classique. Puis viennent ensuite les informations concernant la GWR. Le premier indicateur à analyser est le @@ -8744,8 +8750,8 @@
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html
-
-
+
+
## [1] "Intercept" "perc_log_vac"
@@ -9019,7 +9025,8 @@ 5.4.2 Étude des
mf_credits("Sources: Notaires de France 2018, INSEE 2019, IGN Admin Express 2021")
Il se peut que cela soit plus intéressant d’utiliser les p-value, -notamment si vous avez moins de 200 individus.
+notamment si vous avez moins de 200 individus. Dans le cas présent, les +2 cartes sont identiques puisque nous avons 1223 individus.# Les p-value ne sont pas fournis dans le modèle de la GWR
# on pourrait les calculer à partir de t-value et de l'erreur standard
# mais le package GWmodel propose une fonction pour les obtenir
@@ -9173,16 +9180,26 @@ Conclusion
structure de la dépendance différente et qu’il soit pertinent de
redéfinir, pour chaque point de l’espace, une forme de noyau et une
bande passante différente (Comber et al. 2022).
+- L’autocorrélation spatiale n’est pour le moment pas prise en compte
+de manière concomitante avec la GWR. Il conviendrait de pouvoir coupler
+ces méthodes pour régler dans le même temps les différents problèmes
+liées aux structures spatiales des données (Schéma 1). Une des solutions
+pour répondre à ce problème serait de réaliser une GWR / MGWR de type
+SAR, SLX ou SDM en chaque point de l’espace. Cela permet d’associer les
+effets de dépendance spatiale à l’étude des effets de non-stationnarité.
+Ces méthodes ne sont pas encore implémentées et mériteraient de
+nouvelles investigations.
Les solutions qui permettraient de limiter les faiblesses de cette
méthode nécessitent certainement de grosses capacités de calcul qui
alourdiraient fortement la mise en œuvre des traitements
statistiques.
La GWR n’est bien sur pas la seule approche existante pour
-s’intéresser à l’aspect spatial de phénomènes et variables sociales, il
-existe des modèle de régressions spatiales (SDEM, SDM, SAR…) mais
-également d’autres méthode comme l’analyse territoriale multiscalaire (MTA) ou la MGWR
-(Lu 2014) qui
+s’intéresser à l’aspect spatial de phénomènes et variables sociales. Il
+existe également d’autres méthodes telles que la GWR Lasso (ref) ou la
+GWR Multiscalaire (MGWR) (ref).
+Dans un autre registre l’analyse territoriale multiscalaire (MTA) ou la MGWR
+(Lu 2014)
peuvent également s’avérer extrêmement intéressantes et riches.