Restrictions de téléchargement des jeux de données volumineux depuis les actions Github ? #1361
-
Bonjour à tous, Dans un cours de Python pour la data science que je donne à l'ENSAE (cours et dépôt Gitub), je propose de nombreux exemples s'appuyant sur les données de datagouv (merci pour ce super boulot 🙏). J'ai l'impression que pour certains d'entre eux (les plus volumineux) j'ai une nouvelle erreur lorsque je teste les exemples par le biais des actions Github. Je mets ces éléments dans l'espace Discussion mais n'hésitez pas à me rediriger vers un autre espace si je ne suis pas au bon endroit ExempleCet exemple DVF fonctionne bien sur un python du sspcloud: import duckdb
url = "https://www.data.gouv.fr/fr/datasets/r/56bde1e9-e214-408b-888d-34c57ff005c4"
xvars = [
"Date mutation", "Valeur fonciere",
'Nombre de lots', 'Code type local',
'Nombre pieces principales'
]
xvars = ", ".join([f'"{s}"' for s in xvars])
duckdb.sql(f'CREATE OR REPLACE VIEW dvf AS SELECT * FROM read_parquet("{url}")')
mutations = duckdb.sql(
f'''
SELECT
date_part('month', "Date mutation") AS month,
substring("Code postal", 1, 2) AS dep,
{xvars},
COLUMNS('Surface Carrez.*')
FROM dvf
'''
).to_df()
colonnes_surface = mutations.columns[mutations.columns.str.startswith('Surface Carrez')]
mutations.loc[:, colonnes_surface] = mutations.loc[:, colonnes_surface].replace({',': '.'}, regex=True).astype(float).fillna(0) Mais il provoque l'erreur suivante dans mon action J'ai rencontré ce même problème sur un autre fichier (les données Sirene au format Parquet). J'essayais de même de lire ce fichier via DuckDB par le biais d'un Python lancé dans une action Github. Le même fichier sur le S3 du SSPCloud ne provoque pas l'erreur Fonctionne dans une action Github: import duckdb
coiffeurs = duckdb.sql("""
SELECT
siren, siret, dateDebut, enseigne1Etablissement, activitePrincipaleEtablissement, denominationUsuelleEtablissement
FROM
read_parquet('https://minio.lab.sspcloud.fr/lgaliana/data/sirene2024.parquet')
WHERE
activitePrincipaleEtablissement == '96.02A'
AND
denominationUsuelleEtablissement IS NOT NULL
""")
coiffeurs = coiffeurs.df() Ne fonctionnait pas ce matin (mais fonctionnait il y a encore quelques jours) : import duckdb
coiffeurs = duckdb.sql("""
SELECT
siren, siret, dateDebut, enseigne1Etablissement, activitePrincipaleEtablissement, denominationUsuelleEtablissement
FROM
read_parquet('https://www.data.gouv.fr/fr/datasets/r/c67d4fb4-dc56-491f-83e4-cde858f6cdf5')
WHERE
activitePrincipaleEtablissement == '96.02A'
AND
denominationUsuelleEtablissement IS NOT NULL
""")
coiffeurs = coiffeurs.df() Est-ce que c'est un problème qui a déjà été rencontré ? J'ai l'impression que le blocage ne vient pas en soi de Github puisque le même fichier hébergé hors de datagouv ne pose pas problème mais je me trompe peut-être et que l'erreur 500 suggère que l'erreur vient du côté serveur mais je ne sis pas spécialiste |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment 1 reply
-
Bonjour, Cela peut avoir été lié à une charge un peu trop conséquente de manière temporaire par exemple et c'est probablement lié à la taille des fichiers cibles. Nous privilégions plutôt https://github.com/datagouv/data.gouv.fr/issues pour la création d'issues en général. |
Beta Was this translation helpful? Give feedback.
Bonjour,
Merci pour ce ticket détaillé ! En regardant rapidement les statuts des requêtes sur ces ressources, on voit en effet que le serveur a retourné des 500 récemment. Il ne s'agit pas d'une restriction, et je pense qu'on est bien sur un problème côté data.gouv.fr.
Cela peut avoir été lié à une charge un peu trop conséquente de manière temporaire par exemple et c'est probablement lié à la taille des fichiers cibles.
Je vous inviterai à nous dire si le soucis se reproduit dans les jours qui viennent pour qu'on enquête plus en détail le cas échéant.
Nous privilégions plutôt https://github.com/datagouv/data.gouv.fr/issues pour la création d'issues en général.