Explora el wiki

Dreceres ràpides: navegació, cerca
Apunt:Corpus Viquipèdia
Language ca  +
Post Approval verdader  +
Post Author Vriullop  +
Post Body De, la, i, el, a. Aquests són els cinc mot
De, la, i, el, a. Aquests són els cinc mots més utilitzats en els articles de la Viquipèdia en català. No és cap resultat sorprenent, però la Viquipèdia constitueix un corpus lingüístic viu, en desenvolupament continu, i un magnífic camp d'estudi per la lingüística aplicada. En [[wikt:ca:Usuari:Youssefsan|Youssef Oualmakran]], un belga resident a Girona, es va posar en contacte amb [[wikipedia:ca:Usuari:Francis Tyers|Francis Tyers]], un anglès d'Alacant, ambdós de la plataforma de traducció automàtica [http://www.apertium.org Apertium], i el resultat ha estat el recompte de [[wikt:ca:Viccionari:Llista de freqüències|freqüències de la Viquipèdia]]. A final de l'any 2010, la versió en català ocupava 1 Gb de memòria amb uns 130 milions de mots. Per fer-se una idea, el ''Diccionari de freqüències'' de l'IEC està basat en un corpus de 52 milions de mots. En un primer anàlisi dels resultats, els substantius més utilitzats indiquen uns certs camps d'interès enciclopèdic: temporals (''any'', ''segle''), territorials (''ciutat'', ''estat'') o històrics (''guerra'', ''rei''). El nord apareix tres vegades més que l'est, i el mes de juliol un 50% més que el de febrer. Sobre els usos lingüístics, es pot veure el predomini de les formes verbals perifràstiques, tot i que alternen amb la forma ''fou''; un 13% de vegades s'utilitzen les formes ''seua'' o ''seues''; un 3% de vegades la forma valenciana ''francés''; i l'alternança ''de vegades''/''a vegades'' té una proporció de 60 a 40. És norma de la Viquipèdia l'acceptació de totes les variants lingüístiques reconegudes. El registre inclou tot tipus de mots. Els noms propis més utilitzats són Barcelona, França, Catalunya, Espanya i Europa; els prenoms, Maria, Carles, Pere i Lluís; i els mots no catalans més freqüents són ''the'', ''of'' i ''San''. També s'han trobat errades, per exemple l'abreviatura ''etc.'' sense el punt, una freqüència excessiva de ''historia'' respecte ''història'' o un 1% dels parèntesis que s'obren i no es tanquen. Ja s'estan investigant aquests i altres casos per posar-hi remei. Un article enciclopèdic no es fa en un dia ni per un sol editor. Per la pròpia filosofia wiki, es mostren els articles en totes les fases de la seva construcció, des d'esborranys inicials amb errors a revisar, o potser una traducció automàtica feta per no catalanoparlants, fins a articles impecables revisats i avaluats per múltiples usuaris. Al final, resulta una mostra de la pròpia societat, amb uns usos lingüístics diversos dins d'unes normes d'estil que afavoreixen el registre formal.
'estil que afavoreixen el registre formal.  +
Post Summary 200  +
Post Tag x  +
Post Title Corpus Viquipèdia  +
Publication date 3 febrer 2011 20:09:35  +
Data de creació
Aquesta propietat és una propietat especial en aquest wiki
3 febrer 2011 20:11:15  +
Categories Notícies
Darrer editor és
Aquesta propietat és una propietat especial en aquest wiki
Usuari:Vriullop +
Data de modificació
Aquesta propietat és una propietat especial en aquest wiki
5 febrer 2011 08:42:27  +
amaga les propietats que hi enllacen 
  No enllaça cap propietat a la pàgina.
 

 

Introduïu el nom de la pàgina des d'on començar a navegar.