Text Mining Project

La documentation liée au projet se trouve ici :
notion.so/clinia/Text-mining-project

Scripts

Les analyses ont été principalement développées sous la forme de Notebooks dans l'environnement Jupyter. Le nommage des dossiers et des scripts inclus dans cette archive sont organisés selon les différentes étapes d'une méthodologie en fouille de textes :

Constitution d'un corpus (crawling / scraping)
Prétraitement (nettoyage, segmentation, filtrage, POS tagging, extraction de collocations significatives, etc.)
Pondération statistique (TF-IDF, OKapiBM25)
Fouille (Clustering)

Organisation des corpus

Les différents dossiers de ce répertoire sont organisés selon la structure des corpus, c'est-à-dire par acteur dans l'organigramme du système de santé :

Centres hospitaliers universitaires / Instituts universitaires
CISSS / CIUSSS
INESSS
INSPQ
OPHQ
MSSS
RAMQ
Santé Montréal
Urgence Santé
Gouv Québec > Santé

Name		Name	Last commit message	Last commit date
Latest commit History 218 Commits
00-Scripts		00-Scripts
02-filtrage		02-filtrage
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Text Mining Project

Scripts

Organisation des corpus

About

Releases

Packages

Languages

clinia/text-mining-project

Folders and files

Latest commit

History

Repository files navigation

Text Mining Project

Scripts

Organisation des corpus

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages