Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
Bonjour,
Cela fait un moment que cela me trottait dans la tête (et je ne suis pas le seul semble-t-il ! pas mal d'issues l'ont déjà évoqué) et j'ai profité d'un dimanche confiné parmi d'autres pour m'y mettre. :)
Voici donc une proposition d'ajout d'identifiants Wikidata. Concrètement j'ai ajouté une colonne "wikidata_id" contenant les identifiants Wikidata pour les médias référencés dans
medias_francais.tsv
.Plus de 80 % des identifiants ont été ajoutés. Ce n'est pas encore complet, notamment parce qu'il manque des éléments Wikidata. Par exemple : pour différencier "La Voix du Nord" (le journal), de "La Voix du Nord" (l'entreprise qui détient le journal parmi d'autres choses), comme vous le faites judicieusement. Il y a par ailleurs encore quelques ambiguités voire des erreurs dans les données (par exemple "Groupe L’Opinon") : les données bénéfieront largement de ce croisement avec Wikidata pour être améliorées et enrichies. Je reviendrais éventuellement dessus là aussi.
Côté Wikidata, ces données seraient très utiles et cette première réconciliation rendra l'import plus facile. J'ai déjà commencé à modéliser certaines relations avec "owner of", "owned by" et "proportion" (exemple plus parlant), à termes Wikidata pourrait être la source de vérité de votre travail plutôt que l'inverse. A condition bien sûr que la licence soit compatible...
Personnes que cela devrait intéresser : @taniki @maxlath @wetneb
Note : vous pouvez utiliser l'outil daff pour faciliter la comparaison (diff) sur ces données tabulaires.