Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ajout d'identifiants Wikidata #33

Open
wants to merge 1 commit into
base: master
Choose a base branch
from

Conversation

johanricher
Copy link

@johanricher johanricher commented Apr 26, 2020

Bonjour,

Cela fait un moment que cela me trottait dans la tête (et je ne suis pas le seul semble-t-il ! pas mal d'issues l'ont déjà évoqué) et j'ai profité d'un dimanche confiné parmi d'autres pour m'y mettre. :)

Voici donc une proposition d'ajout d'identifiants Wikidata. Concrètement j'ai ajouté une colonne "wikidata_id" contenant les identifiants Wikidata pour les médias référencés dans medias_francais.tsv.

Plus de 80 % des identifiants ont été ajoutés. Ce n'est pas encore complet, notamment parce qu'il manque des éléments Wikidata. Par exemple : pour différencier "La Voix du Nord" (le journal), de "La Voix du Nord" (l'entreprise qui détient le journal parmi d'autres choses), comme vous le faites judicieusement. Il y a par ailleurs encore quelques ambiguités voire des erreurs dans les données (par exemple "Groupe L’Opinon") : les données bénéfieront largement de ce croisement avec Wikidata pour être améliorées et enrichies. Je reviendrais éventuellement dessus là aussi.

Côté Wikidata, ces données seraient très utiles et cette première réconciliation rendra l'import plus facile. J'ai déjà commencé à modéliser certaines relations avec "owner of", "owned by" et "proportion" (exemple plus parlant), à termes Wikidata pourrait être la source de vérité de votre travail plutôt que l'inverse. A condition bien sûr que la licence soit compatible...

Personnes que cela devrait intéresser : @taniki @maxlath @wetneb

Note : vous pouvez utiliser l'outil daff pour faciliter la comparaison (diff) sur ces données tabulaires.

@maxlath
Copy link

maxlath commented Apr 26, 2020

je ne pense pas qu'il soit recommandable de stocker les données d'origine dans Wikidata : ce dernier étant un wiki ouvert, ces données perdraient de leur caractères d’autorités, n'importe qui pourait venir modifier celles-ci (pas nécessairement par vandalisme, plus probablement par méthode de calcul ou source divergente). Il me semble donc préférable de garder des données distinctes, mais facile à recroiser grâce aux ids Wikidata

@johanricher
Copy link
Author

johanricher commented Apr 26, 2020

Sur un projet de cet ampleur je pense que l'avantage est plutôt du côté de la communauté que du comité. Je ne suis pas sûr que les responsables de ce dépôt aient beaucoup le temps de le maintenir à jour, ni d'accepter les contributions extérieures. A l'occasion de ce rapprochement j'ai pu déjà remarquer des erreurs et des éléments qui ne sont plus à jour. Wikidata le sera toujours davantage.

De plus, il n'y a pas d'autorité en la matière (à part peut-être les registres de greffe, l'INPI ou la base Sirene de l'INSEE) : le Monde diplo n'est pas la source primaire de ces informations. Les sources sont publiques, lesquelles ont vocation à être référencées par les déclarations Wikidata de toute façon.

adipasquale added a commit to adipasquale/Medias_francais that referenced this pull request Jul 4, 2023
based on the work of Johan Richer cf mdiplo#33
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants