teaching_nlp

The following content was used as pedagogical material for natural language processing assignments in the Master Info Parcours Apprentissage et Traitement Automatique des Langues 2022-2023

Chapitre 1 (Pré-)-Traitement Automatique des Langues

NLP (python) Libraries
Analyses linguistiques du français
- Tokénisation
- Analyse lexicale (lemmatisation, morphologie flexionnelle et dérivationnelle mais pas compositionnelle..., CoNLL)
- Analyse syntaxique (constituants et dépendance)
- Reconnaissance d'entités nommées
Analyse de textes de genres différents
Multilinguisme (couverture, qualité et temps de traitemen)
Benchmark NLP libs

Chapitre 2 Normalisation des textes

Mots vides
Opérations de normalisation
Taille du texte vs. taille de vocabulaire
Mots pleins (statistique et sens, loi de Zipf)

Chapitre 3 Représentation des textes "traditionnelles" à l'aide du vocabulaire ou des thèmes

Modèle "sac de mots" (bag of words)
Vectorisation avec occurrences
Vectorisation avec TF-IDF
Matrice creuse
Partitionnement sur la base d'une représentation bow des documents avec la méthode des k-moyennes
Similarité entre documents
Partitionnement hiérarchique des documents sur la base de la matrice de similarités inter-documents
Partitionnement des documents sur la base de la matrice de similarités inter-documents avec la méthode des k-moyennes
Topic modeling with LDA's gensim
Partitionnement des documents sur la base de la matrice document-topic avec la méthode des k-moyennes

Chapitre 4 Représentation vectorielle continue des mots et des documents

Plongement de mots (word embeddings avec word2vec approches skipgram et cbow, fasttext)
Charger un modèle existant à l'aide de gensim et réaliser des opérations de similarités
Visualiser les plongements lexicaux dans un graph en 2D
Visualiser les plongements lexicaux en 3D dynamique à l'aide du projector de tensorflow
Construire un modèle word2vec et fasttext avec gensim
Comparer et évaluer deux modèles
Construire une représentation continue de document
Partitionnement sur la base d'une représentation document-embeddings
L'approche TextRank pour le résumé automatique (Nicolas Dugué)

Chapitre 5 Classification de textes : tâches d'analyse de sentiment

Allociné dataset
Utilisation d'une bibliothèque de haut niveau, ktrain
Entraînement (fine-tuning) de différents modèles fasttext, nbsvm, BERT et d'autres issus d'HuggingFace
Recherche de taux d'apprentissage (learning rate)
Comparaison de performance d'inférence
Data augmentation par adversarial learning et model ensembling

Name		Name	Last commit message	Last commit date
Latest commit History 134 Commits
archives		archives
data		data
01_Analyse_linguistique.ipynb		01_Analyse_linguistique.ipynb
02_Normalisation_des_textes.ipynb		02_Normalisation_des_textes.ipynb
03_Représentation_des_textes_à_l'aide_du_vocabulaire_ou_des_thèmes_.ipynb		03_Représentation_des_textes_à_l'aide_du_vocabulaire_ou_des_thèmes_.ipynb
04_représentation_vectorielle_continue.ipynb		04_représentation_vectorielle_continue.ipynb
05_Classification_de_textes.ipynb		05_Classification_de_textes.ipynb
06_biasandethics.ipynb		06_biasandethics.ipynb
README.md		README.md
performances spacy oct 2021.ods		performances spacy oct 2021.ods

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

teaching_nlp

References

About

Releases

Packages

Languages

nicolashernandez/teaching_nlp

Folders and files

Latest commit

History

Repository files navigation

teaching_nlp

References

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages