Corpus Viquipèdia

De Amical Wikimedia
Dreceres ràpides: navegació, cerca


identi.caLa Tafanera
Publicat el: 03 febrer 2011, 21:09 per Vriullop
De, la, i, el, a. Aquests són els cinc mots més utilitzats en els articles de la Viquipèdia en català. No és cap resultat sorprenent, però la Viquipèdia constitueix un corpus lingüístic viu, en desenvolupament continu, i un magnífic camp d'estudi per la lingüística aplicada.

En Youssef Oualmakran, un belga resident a Girona, es va posar en contacte amb Francis Tyers, un anglès d'Alacant, ambdós de la plataforma de traducció automàtica Apertium, i el resultat ha estat el recompte de freqüències de la Viquipèdia. A final de l'any 2010, la versió en català ocupava 1 Gb de memòria amb uns 130 milions de mots. Per fer-se una idea, el Diccionari de freqüències de l'IEC està basat en un corpus de 52 milions de mots.

En un primer anàlisi dels resultats, els substantius més utilitzats indiquen uns certs camps d'interès enciclopèdic: temporals (any, segle), territorials (ciutat, estat) o històrics (guerra, rei). El nord apareix tres vegades més que l'est, i el mes de juliol un 50% més que el de febrer.

Sobre els usos lingüístics, es pot veure el predomini de les formes verbals perifràstiques, tot i que alternen amb la forma fou; un 13% de vegades s'utilitzen les formes seua o seues; un 3% de vegades la forma valenciana francés; i l'alternança de vegades/a vegades té una proporció de 60 a 40. És norma de la Viquipèdia l'acceptació de totes les variants lingüístiques reconegudes.

El registre inclou tot tipus de mots. Els noms propis més utilitzats són Barcelona, França, Catalunya, Espanya i Europa; els prenoms, Maria, Carles, Pere i Lluís; i els mots no catalans més freqüents són the, of i San.

També s'han trobat errades, per exemple l'abreviatura etc. sense el punt, una freqüència excessiva de historia respecte història o un 1% dels parèntesis que s'obren i no es tanquen. Ja s'estan investigant aquests i altres casos per posar-hi remei. Un article enciclopèdic no es fa en un dia ni per un sol editor. Per la pròpia filosofia wiki, es mostren els articles en totes les fases de la seva construcció, des d'esborranys inicials amb errors a revisar, o potser una traducció automàtica feta per no catalanoparlants, fins a articles impecables revisats i avaluats per múltiples usuaris. Al final, resulta una mostra de la pròpia societat, amb uns usos lingüístics diversos dins d'unes normes d'estil que afavoreixen el registre formal.