Skip to content

clinia/text-mining-project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 

Repository files navigation

Text Mining Project

La documentation liée au projet se trouve ici :
notion.so/clinia/Text-mining-project

Scripts

Les analyses ont été principalement développées sous la forme de Notebooks dans l'environnement Jupyter. Le nommage des dossiers et des scripts inclus dans cette archive sont organisés selon les différentes étapes d'une méthodologie en fouille de textes :

  1. Constitution d'un corpus (crawling / scraping)
  2. Prétraitement (nettoyage, segmentation, filtrage, POS tagging, extraction de collocations significatives, etc.)
  3. Pondération statistique (TF-IDF, OKapiBM25)
  4. Fouille (Clustering)

Organisation des corpus

Les différents dossiers de ce répertoire sont organisés selon la structure des corpus, c'est-à-dire par acteur dans l'organigramme du système de santé :

  • Centres hospitaliers universitaires / Instituts universitaires
  • CISSS / CIUSSS
  • INESSS
  • INSPQ
  • OPHQ
  • MSSS
  • RAMQ
  • Santé Montréal
  • Urgence Santé
  • Gouv Québec > Santé

About

Jupyter Notebooks used for web scraping and NLP

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published