La documentation liée au projet se trouve ici :
notion.so/clinia/Text-mining-project
Les analyses ont été principalement développées sous la forme de Notebooks dans l'environnement Jupyter. Le nommage des dossiers et des scripts inclus dans cette archive sont organisés selon les différentes étapes d'une méthodologie en fouille de textes :
- Constitution d'un corpus (crawling / scraping)
- Prétraitement (nettoyage, segmentation, filtrage, POS tagging, extraction de collocations significatives, etc.)
- Pondération statistique (TF-IDF, OKapiBM25)
- Fouille (Clustering)
Les différents dossiers de ce répertoire sont organisés selon la structure des corpus, c'est-à-dire par acteur dans l'organigramme du système de santé :
- Centres hospitaliers universitaires / Instituts universitaires
- CISSS / CIUSSS
- INESSS
- INSPQ
- OPHQ
- MSSS
- RAMQ
- Santé Montréal
- Urgence Santé
- Gouv Québec > Santé