#KZJaia3

Testuen konplexutasuna neurtzen

Itziar Gonzalez-Dios (@ItziarGD) , Ixa Taldean (@IxaGroup) linguistika konputazionalen ikertzailea.
 

 
Noizbait, testu baten aurrean, zure barrurako honelako komentarioren bat egingo zenuen: “Bai testu zaila, ez dut ulertzen! Berriro irakurri behar dut!!!” Egoera hauetan ez dakigu gure arazoa den (azkar irakurri dugu, ez dugu gaia ezagutzen, hizkuntza ulertzeko arazoak dauzkagu e.a.) edo testua benetan zaila den. Eta, posible da testu baten konplexutasuna irakurri aurretik jakitea? Eta automatikoki?
 

 
Bai, posible da! XIX. Mende amaieran testuen konplexutasuna (readability edo readability assessment, ingelesez) aztertzen hasi ziren eta XX. mendeko bigarren hamarkadan testuen konplexutasuna kalkulatzeko lehen formulak asmatu zituzten. Hasierako formula hauek batez ere hitzen maiztasun zerrendetan oinarritzen ziren eta ingelesa lantzeko prestatu zituzten.
 

 
1948an Fleschek, bere formula zaharrago batean oinarrituta, testuen konplexutasuna AEBko hezkuntza mailaren arabera bereizten zituen formula argitaratu zuen:
 

 
Emaitza = 206,835 − (1,015 × bataz besteko esaldi luzera) − (84,6 × bataz besteko hitz luzera)
 

 
Formula hori aplikatu ondoren, 90eta 100 bitarteko emaitza lortzen duten testuak 11 urtekoentzat egokiak dira, 60ko eta 70ko emaitza dutenak, berriz, 13 eta 15 urte bitartekoentzat eta 0 eta 30 emaitza bitartekoak unibertsitate mailakoentzat. Urteen buruan formula hau hobeto egin da eta egun Flesch–Kincaid Grade-Level izenarekin ezagutzen da.
 

 
1948an ere Dalek kaleratu zuen formulan hitzen maiztasunak kontuan hartzen zituen testuen maila ezagutzeko. Formula hau da egun fidagarriena eta ikerketan oso erabilia da. 1995an bertsio berri bat argitaratu zuten, New Dale–Chall Readability Formula, non hitz zerrenda hobetu zuten.
 

 
Urteetan formula ugari aurkeztu dira (SMOG, POG, Fry…) baina azken hamarkadetan konputazioak eskaintzen duen ahalmenari esker eta Hizkuntzaren Prozesamenduko teknologiari esker neurri eta aldagai konplexuagoak hartzen dira kontuan. Tresna berri horien artean Coh-Metrix da ezagunenetarikoa. Hizkuntzaren maila ezberdinetan neurketak egiten ditu eta 3.0 bertsioan 108 indize daude libre. Ezagutza linguistikoaz gain, azken urteetako lanetan gero eta gehiago erabiltzen dira estatistikak eskaintzen dituen teknikak testuen konplexutasuna neurtzeko.
 

 
Eta gainontzeko hizkuntzetan? Formula klasikoak hainbat hizkuntzetarako egokitu egin dira, arabierarako, italierarako eta gaztelaniarako adibidez. Gaur egun, ordea, hizkuntzaren prozesamendutik tiraka kalkulatzen da testuen konplexutasuna, ezagutza linguistikoan oinarritutako indizeak (esaldi luzera, behin agertzen diren hitzen ratioa, hitz-elkartuen ratioa, aditz ratioa eta abar luze luze bat) eta teknika estatistikoak (hizkuntza ereduak, n-gramak…) uztartuz. Hau da, esaterako, alemanez, bengaleraz, frantsesez, hindiz, italieraz, japonieraz, portugesez, suedieraz, txineraz eta euskaraz hartu den bidea.
 

 
kzjaia3_banner
 
Sarrera honek #Kultura Zientifikoa 3. Jaialdian parte hartzen du
 

Utzi erantzuna