Usuari:ESM/Wikimedia Public (Research) Resources/report

De Amical Wikimedia
Dreceres ràpides: navegació, cerca

A mitjan març en Toni Hermoso va enviar un correu a la llista amb l'anunci que el 8 d'abril se celebrava una jornada titulada "Wikimedia Public (Research) Resources" a la UPF. La sessió era a càrrec d'en Diego Sáez Trumper, del research team de la WMF i, veient els temes que es tocarien i que aquest és un àmbit que em crida molt l'atenció però al que no puc dedicar tots els esforços que voldria, vaig decidir apuntar-m'hi.

En essència, la xerrada va ser una introducció a les dades que es poden obtenir i les eines que es poden utilitzar per fer recerca sobre la Viquipèdia i els seus projectes germans. El públic eren essencialment investigadors i investigadors en formació. Val a dir que no érem gaire gent. Les diapositives, aquí.

Durant la introducció de la xerraada, en diego va comentar que a un 20% de les sessions que es fan a la viquipèdia hi intervé més d'un idioma, i va fer un shoutout a Amical però va dir que hi havia poca connexió amb la població investigadora i que un dels objectius del research team era fer créixer la comunitat d'investigadors al voltant de cada Viquipèdia. A partir d'aquí es va dedicar a resseguir diverses eines i recursos per extreure dades de la Viquipèdia i altres projectes per tal de poder realitzar diverso tipus d'anàlisis. Algunes les coneixia, d'altres no, i val a dir que va remarcar que des de la WMF es feia una recopilació de dades molt minsa i controlada (els historials de revisions són públics, no es comparteixen dades amb 3rd parties i les dades que poden vincular-se a usuaris s'esborren al cap de 90 dies).

Què es pot fer amb les (relativament poques) dades que es poden aplegar des de la Viquipèdia i projectes germans?

  • Models temàtics
  • Word embeddings
  • Valoracions qualitatives
  • Gràfics
  • Treballar amb dades geolocalitzades
  • Estudis sociotècnics (influència d'usuaris, diferències culturals, particularitats del debat en línia, popularitat d'articles, etc)
  • Anàlisi d'elements multimedia
  • Etc

De quins datasets va parlar?[modifica]

  • Les dades estadístiques que es poden extreure directament dels articles via expressions regulars contra el codi wiki, per exemple (freqüències de paraules, freqüències de referències, etc)
  • Dumps https://dumps.wikimedia.org
    • XML dumps -> permeten descarregar la Viquipèdia sencera i fer anàlisis a la brava. Pel que es veu el format XML és una mica antic
    • mediawiki API -> la recomanava per tasques concretes
    • SQL repicas -> dades estructurades, es poden extreure a través de quarry https://quarry.wmflabs.org
  • mediawiki utilities -> contingut anotat i amb dades estructurades de Commons, per exemple
  • Wikimedia API
  • https://stats.wikimedia.org -> La interfície ara és més user friendly del que la recordava. Hi ha un servei concret per les visites a cada pàgina, i una eina per comparar visites a pàgines en diversos idiomes, que es diu langviews analysis.
  • Wiki atlas https://wiki-atlas.org -> Pots creuar articles geolocalitzats i número de visites, i pots navegar per un mapa on se t'indica quins elements tenen més visites. Es pot canviar entre idiomes.
  • Pageviews by country -> Quina versió de la Viquipèdia és més utilitzada segons el territori, per saber d'on provenen els lectors i les visites. Les dades que proporciona són agregades
  • clickstream dataset -> Com la gent entra a Viquipèdia i es mou d'una pàgina a l'altra. Ho tenen disponible només per les top 10 wikipedias, potser estaria bé demanar que ho activin a la Viquipèdia en català. De moment no permet veure salts entre idiomes, però aviat es proporcionaran dades estimades al respecte per poder començar a analitzar-ne els motius i comportaments.
  • ORES http://ores.wikimedia.org
  • Toolforge
  • PAWS https://paws.wmflabs.org -> llibretes públiques de Jupyter customitzades per facilitar la interacció amb els wikis de Viquipèdia
  • Event stream -> dades continuades d'esdeveniments als diversos projectes Wikimedia. El projecte "listen to wikipedia" de Hatnote es basa en aquest recurs
  • Wikidata i les seves queries. Interessant: si fas ctrl+espai a la caixa de text de les queries pots teclejar text i et busca la Q
  • Wikidata graph builder -> eina que et permet construir diagrames de xarxes de relacions a partir de les dades de Wikidata.

Aquí es poden trobar exemples de bona part del que va presentar: http://paws-public.wmflabs.org/paws-public/User:Diego_(WMF)/WikiMediaPublicTools.ipynb

Al torn de preguntes van sortir els dubtes sobre la completesa dels datasets que s'oferien, i també hi va haver interès al voltant de la política de persones vives quan es tracten temes com malalties o orientacions religioses i sexuals.

Finalment, també va parlar del section recommendation: https://secrec.wmflabs.org -> eina que mapeja seccions d'un mateix article en diverses llengües per fomentar-ne traduccions i incorporar coses que falten.