Programme qui donne l’identifiant Wikidata du nom d’article Wiki *

Nicolas Raoul

Programme qui donne l’identifiant Wikidata du nom d’article Wiki *


Obtenir l’ID Wikidata d’un article Wikipédia / Wikivoyage / Wiktionnaire (dans une langue particulière) est facile à faire en utilisant l’API Wikidata, mais prend trop de temps lorsque vous avez des milliers d’ID à trouver.

Existe-t-il un programme qui pourrait faire le travail difficile pour moi et être efficace pour de gros volumes?

Cela pourrait éventuellement fonctionner en téléchargeant http://dumps.wikimedia.org/wikidatawiki/latest/wikidatawiki-latest-wb_items_per_site.sql.gz ou similaire et dépérir l’analyser directement ou le charger dans une base de données.

Exigences:

  • Fonctionne pour toutes les langues / projets (par exemple Wikivoyage italien, Wiktionnaire japonais, etc.)
  • Open source
  • Ligne de commande
  • Répond à chaque demande en moins de 100 ms (sauf la première, qui télécharge les données)
  • Possibilité de réinitialiser les données (quand je pense qu’elles sont obsolètes)
svick

BTW, en utilisant l’API, vous pouvez obtenir jusqu’à 50 articles en utilisant une seule demande (ou 500, si vous avez un compte bot sur Wikidata).

Nicolas Raoul ♦

@svick: Je pourrais finir par le faire, car wikidatawiki-latest-wb_items_per_site.sql prend des jours pour se charger dans MySQL.

Réponses


 Nemo

La solution a été fournie cette semaine dans un fil Wikidata-l: utilisez les éléments liés de Magnus ou Wikidata Reconcile pour OpenRefine.

Éléments liés: utilisation

Entrez [[Paris]] [[Rome]] [[Sofia]] , appuyez sur le bouton, et vous obtenez Q90 Q220 Q472 .

Nicolas Raoul ♦

Les éléments liés sont excellents, mais êtes-vous sûr que Wikidata Reconcile peut être utilisé pour cela? https://tools.wmflabs.org/wikidata-reconcile/?queries={"query"%3A"Rome"%2C"query"%3A"Paris"} ne semble pas fonctionner.

Nemo

Merci d’avoir ajouté un exemple plus spécifique, désolé d’être flou. Quant à Wikidata Reconcile, il doit être utilisé depuis OpenRefine AFAIK; n’a pas encore testé.

 

*, d’article, donné, du, l’identifiant, nom, Programme, qui, Wiki, Wikidata

 

wiki

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *