Lecture de données
Nous allons dans cet exemple, extraire 10 textes pour des raisons de rapidité :
-import json
import numpy as np
import pandas as pd
@@ -445,7 +445,7 @@ Lecture de données
Vectoriser nos textes avec ChromaDB
Pour vectoriser nos textes, nous utilisons ChromaDB qui s’intègre avec Langchain. Nous allons découper en morceau des 3000 caractères à chaque saut à ligne, ce qui correspond à un paragraphe. Les morceaux de textes, ici paragraphes, sont stockés dans une boutique de vecteur avec le numéro de dossier et le numéro de paragraphe en métadonnées.
-
+
= CharacterTextSplitter(
text_splitter ="\n\n",
separator=3000,
@@ -472,7 +472,7 @@ chunk_sizeVector
Interroger un LLM en mode API
Pour interroger le LLM, nous construisons une classe qui permet de générer les requêtes et de traiter les réponses :
-
+
="llama3.1"
MODEL
@@ -493,7 +493,7 @@ Interroger u
= LocalOllamaLLM(api_url="http://127.0.0.1:11434") llm
Nous définissons également un prompt de base, améliorable par la suite, et une chaîne LangChain entre le prompt et le LLM :
-
+
= (
system_prompt " Répondez à la question posée "
" Utilisez le contexte (sélection des meilleurs paragraphes liés à la question) donné pour répondre à la question "
@@ -510,7 +510,7 @@ Interroger u
= create_stuff_documents_chain(llm, prompt) question_answer_chain
Nous définissons une fonction pour effectuer le RAG, avec à la fois la recherche de similarité par rapport à la question, et la soumission augmentée pour une réponse du LLM :
-
+
def search_and_invoke_llm(vector_store,index,query,k=5):
if k==0:
print(f"bug with {index}")
@@ -535,7 +535,7 @@ Interroger u
Automatiser la classification sur l’ensemble des thématiques
Nous automatisons ici la classification sous forme de classification binaire pour chaque thématique, en posant une question “oui ou non” et en inférant oui si la réponse commence par oui, non sinon.
-
+
={
THEMATIQUES"accord_methode_penibilite":"Accords de méthode (pénibilité)",
"accord_methode_pse":"Accords de méthode (PSE)",
@@ -626,7 +626,7 @@
Evaluation
Nous évaluons les performances de cette solution simple, en affichant la matrice de confusion et les différentes métriques, pour chaque thématique :
-
+
import numpy as np
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report
diff --git a/search.json b/search.json
index 3c9a4dd..ca50dfb 100644
--- a/search.json
+++ b/search.json
@@ -419,7 +419,7 @@
"href": "I-Accompagnement/1_cas_usage.html#a.-cas-dusage",
"title": "PARTIE I. Accompagnement au changement",
"section": "A. Cas d’usage",
- "text": "A. Cas d’usage\nDes LLM peuvent être utilisés pour :\n\nLabelliser / classifier les textes d’un corpus traitant d’un sujet, selon certaines catégories. Des LLMS peuvent être utilisés pour labelliser des articles de presse traitant de décisions de politique monétaire, selon les catégories « décision attendue », « décision surprenante », « ne sait pas ». Ils peuvent également classer des documents de recherche clinique selon différentes thématiques et disciplines, tout en permettant une recherche sémantique avancée. Ils peuvent aussi permettre de classer des accords d’entreprise, publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion).Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail.Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nMinistère en charge de la santé\nSIRANo\ndgos-sirano@sante.gouv.fr\nExpérimentation\n\n\nBanque de France\nÉtude de l’impact des surprises monétaires sur les taux de change\njean-charles.bricongne@banque-france.fr\nRecherche\n\n\nBanque de France\nAnticipation d’inflation\njean-charles.bricongne@banque-france.fr olivier.debandt@banque-france.fr Thomas.RENAULT.external@banque-france.fr\nRecherche\n\n\nDares - Ministère du Travail\nAcccords d’entreprise\nTHIOUNN, Conrad (DARES) conrad.thiounn@travail.gouv.fr\n\n\n\n\n\nIdentifier les thématiques traitées dans un corpus. Par exemple, des LLMs peuvent être utilisés pour identifier les thématiques développées dans le champ Commentaire d’une enquête.\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nEnquête sur les Tendances régionales\nFarid.OUKACI@banque-france.fr Olivier.LANTRAN@banque-france.fr\nExpérimentation\n\n\nLabIA DNUM\nLLamandement : LLM finetuné permettant d’accélerer le traitement d’amendements et projets de loi (notamment via la synthétisation des textes).\nFarid.OUKACI@banque-france.fr Olivier.LANTRAN@banque-france.fr\nExpérimentation\n\n\n\n\nFaire une analyse de sentiment d’un corpus traitant d’une thématique. Par exemple, des LLMs peuvent être utilisés pour faire une analyse de sentiment (ex : positif, négatif ou neutre) d’une thématique émergeant d’un champ « Commentaire » d’une enquête et traitant d’une perception du climat des affaires.\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nEnquête sur les Tendances régionales\nFarid.OUKACI@banque-france.fr Olivier.LANTRAN@banque-france.fr\nExpérimentation\n\n\n\n\nInterroger une base de documents textuels (pdf, code, etc…) (retrieval augmented generation). Les documents sont découpés en paragraphes (chunks). Les réponses aux questions posées sont générées sur la base de paragraphes idoines existant dans la base. Les paragraphes qui ont servi à l’élaboration de la réponse sont indiqués en regard de celle-ci, et peuvent être consultés.\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nChatbdf\nNicolas.THOMAZO@banque-france.fr Guillaume.LOMBARDO@banque-france.fr Alix.DECREMOUX@banque-france.fr\nPassage en production prévu en décembre 2025\n\n\nANFSI\nIAccueil\n daphne.pertsekos@gendarmerie.interieur.gouv.fr jerome.laporte@gendarmerie.interieur.gouv.fr jean-baptiste.delfau@gendarmerie.interieur.gouv.fr malo.adler@gendarmerie.interieur.gouv.fr\nExpérimentation depuis Octobre 2024\n\n\n\n\nRequêter sur des bases de données codées en SQL : à une interrogation exprimée en langage naturel sur une base en SQL, un code en SQL servant à la requête est renvoyé. Par exemple, à l’interrogation « trouve-moi la date de naissance de l’individu I », un code SQL est renvoyé permettant d’effectuer la requête\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nText2SQL\nGuillaume.LOMBARDO@banque-france.fr\nPassage en production par la BCE en décembre 2024\n\n\n\n\nExtraire des données à partir de documents textuels Par exemple, à partir de documents réglementaires extraire 15 informations-clés et stocker celles-ci dans une base de données\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nVeridic\nGuillaume.LOMBARDO@banque-france.fr\nPassage en production prévu fin 2025\n\n\n\n\nAgent conversationnel\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\n\n\n\n\n\n\n\nProjet mené par le LabIA de la DINUM - Albert github : Outils de déploiements des modèles Albert - Modèles Albert - Albert France Services : Projet à destination de France Service et visant à appuyer ses conseillers dans la réalisation de leurs missions. Ce projet se base principalement Albert github Albert hugging face\n\nPour plus de projets IA (au sens large) dans l’administration se référer au lien : https://grist.numerique.gouv.fr/o/beta-gouv-ia/9wTgwEbwqmwW/Ressources/p/1",
+ "text": "A. Cas d’usage\nDes LLM peuvent être utilisés pour :\n\nLabelliser / classifier les textes d’un corpus traitant d’un sujet, selon certaines catégories. Des LLMS peuvent être utilisés pour labelliser des articles de presse traitant de décisions de politique monétaire, selon les catégories « décision attendue », « décision surprenante », « ne sait pas ». Ils peuvent également classer des documents de recherche clinique selon différentes thématiques et disciplines, tout en permettant une recherche sémantique avancée. Ils peuvent aussi permettre de classer des accords d’entreprise, publiés sur LégiFrance. Ces accords peuvent concerner plusieurs thématiques (télétravail, compte épargne temps, droit à la deconnexion).Ces thématiques sont déclarés par les entreprises et sont éventuellement corrigées par la Direction Générale du Travail.Le besoin est alors de détecter automatiquement les thématiques à la lecture de l’accord. Un jeu de données est disponible à l’adresse suivante : accords_publics_xx_to_2022_themes_et_texte.parquet\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nMinistère en charge de la santé\nSIRANo\ndgos-sirano@sante.gouv.fr\nExpérimentation\n\n\nBanque de France\nÉtude de l’impact des surprises monétaires sur les taux de change\njean-charles.bricongne@banque-france.fr\nRecherche\n\n\nBanque de France\nAnticipation d’inflation\njean-charles.bricongne@banque-france.fr olivier.debandt@banque-france.fr Thomas.RENAULT.external@banque-france.fr\nRecherche\n\n\nDares - Ministère du Travail\nAcccords d’entreprise\nTHIOUNN, Conrad (DARES) conrad.thiounn@travail.gouv.fr\n\n\n\n\n\nIdentifier les thématiques traitées dans un corpus. Par exemple, des LLMs peuvent être utilisés pour identifier les thématiques développées dans le champ Commentaire d’une enquête.\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nEnquête sur les Tendances régionales\nFarid.OUKACI@banque-france.fr Olivier.LANTRAN@banque-france.fr\nExpérimentation\n\n\nLabIA DNUM\nLLamandement : LLM finetuné permettant d’accélerer le traitement d’amendements et projets de loi (notamment via la synthétisation des textes).\nFarid.OUKACI@banque-france.fr Olivier.LANTRAN@banque-france.fr\nExpérimentation\n\n\n\n\nFaire une analyse de sentiment d’un corpus traitant d’une thématique. Par exemple, des LLMs peuvent être utilisés pour faire une analyse de sentiment (ex : positif, négatif ou neutre) d’une thématique émergeant d’un champ « Commentaire » d’une enquête et traitant d’une perception du climat des affaires.\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nEnquête sur les Tendances régionales\nFarid.OUKACI@banque-france.fr Olivier.LANTRAN@banque-france.fr\nExpérimentation\n\n\n\n\nInterroger une base de documents textuels (pdf, code, etc…) (retrieval augmented generation). Les documents sont découpés en paragraphes (chunks). Les réponses aux questions posées sont générées sur la base de paragraphes idoines existant dans la base. Les paragraphes qui ont servi à l’élaboration de la réponse sont indiqués en regard de celle-ci, et peuvent être consultés.\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nChatbdf\nNicolas.THOMAZO@banque-france.fr Guillaume.LOMBARDO@banque-france.fr Alix.DECREMOUX@banque-france.fr\nPassage en production prévu en décembre 2025\n\n\nANFSI\nIAccueil\n daphne.pertsekos@gendarmerie.interieur.gouv.fr jerome.laporte@gendarmerie.interieur.gouv.fr jean-baptiste.delfau@gendarmerie.interieur.gouv.fr malo.adler@gendarmerie.interieur.gouv.fr\nExpérimentation depuis Octobre 2024\n\n\n\n\nRequêter sur des bases de données codées en SQL : à une interrogation exprimée en langage naturel sur une base en SQL, un code en SQL servant à la requête est renvoyé. Par exemple, à l’interrogation « trouve-moi la date de naissance de l’individu I », un code SQL est renvoyé permettant d’effectuer la requête\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nText2SQL\nGuillaume.LOMBARDO@banque-france.fr\nPassage en production par la BCE en décembre 2024\n\n\n\n\nExtraire des données à partir de documents textuels Par exemple, à partir de documents réglementaires extraire 15 informations-clés et stocker celles-ci dans une base de données\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nBanque de France\nVeridic\nGuillaume.LOMBARDO@banque-france.fr\nPassage en production prévu fin 2025\n\n\n\n\nEffectuer des synthèses de documents textuels\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nANFSI\nSynthèse de procédures judiciaires\nmalo.adler@gendarmerie.interieur.gouv.fr\nRecherche\n\n\n\n\nAider à vérifier la conformité légale de procédures administratives\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\nANFSI\nConformité des procédures\nmalo.adler@gendarmerie.interieur.gouv.fr\nRecherche\n\n\n\n\nAgent conversationnel\n\n\n\n\n\n\n\n\n\n\nInstitution\nNom du Projet\nContact\nExpérimentation/Production/Recherche\n\n\n\n\n\n\n\n\n\n\n\nProjet mené par le LabIA de la DINUM - Albert github : Outils de déploiements des modèles Albert - Modèles Albert - Albert France Services : Projet à destination de France Service et visant à appuyer ses conseillers dans la réalisation de leurs missions. Ce projet se base principalement Albert github Albert hugging face\n\nPour plus de projets IA (au sens large) dans l’administration se référer au lien : https://grist.numerique.gouv.fr/o/beta-gouv-ia/9wTgwEbwqmwW/Ressources/p/1",
"crumbs": [
"I-Accompagnement",
"Cas d'usage"
diff --git a/sitemap.xml b/sitemap.xml
index 8576116..8b160ec 100644
--- a/sitemap.xml
+++ b/sitemap.xml
@@ -2,78 +2,78 @@
https://etalab.github.io/programme10pourcent-kallm/IV-Exemples/2_Classification_accords_entreprise.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/2_Acculturation.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/3_Impacts.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/II-Developpements/4_Evaluations.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/II-Developpements/0_Introduction.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/II-Developpements/3_RAG.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/notebooks/10p_RAG_OLLAMA.html
- 2024-11-19T11:59:17.250Z
+ 2024-11-19T12:03:27.156Z
https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/1_Socle_minimal.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/3_Socle_Production.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/Reste_a_faire.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/2_Socle_avance.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/III-Deploiements/4_Infras_administrations.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/Bibliographie.html
- 2024-11-19T11:59:17.230Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/notebooks/autres/parse_llama31_results.html
- 2024-11-19T11:59:17.250Z
+ 2024-11-19T12:03:27.156Z
https://etalab.github.io/programme10pourcent-kallm/II-Developpements/1_Anatomie_LLM.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/II-Developpements/2_Utilisation_LLM.html
- 2024-11-19T11:59:17.234Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/index.html
- 2024-11-19T11:59:17.250Z
+ 2024-11-19T12:03:27.156Z
https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/1_cas_usage.html
- 2024-11-19T11:59:17.230Z
+ 2024-11-19T12:03:27.140Z
https://etalab.github.io/programme10pourcent-kallm/I-Accompagnement/0_Intro.html
- 2024-11-19T11:59:17.230Z
+ 2024-11-19T12:03:27.140Z