Egin klik hemen INPRIMATZEKO


Corpusgintzaren garrantzia hizkuntzalaritzan eta euskararen egoera

Miriam Urkia / Hizkuntza / 2010-02-02 / 09:00


Eroski Fundazioak, Elhuyar Fundazioak eta Euskaltzaindiak antolatutako Corpusgintza gaur egun jardunaldiaren barruan Miriam Urkiak emandako hitzaldia ekarri dugu hona.



Aurkezpen honen helburua ez da corpusgintzari buruzko sarrera teoriko bat egitea, literatura ugari dago horren inguruan. Corpusgintzaren beharra zalantzan jarri gabe, hau da, gaur egun ezinbestekoa dela onartuta, bere garrantzia azaltzen saiatuko naiz eta euskara zein puntutan dagoen erakustera ausartuko naiz. Corpus idatzi elebakarretara mugatuko naiz batez ere, paraleloak beste aurkezpen batean azalduko baitira. Ahozkoa ere axaletik bakarrik aipatuko dut. Horretarako corpusen eta corpusgintzaren ikuspegi azkar bat emango dut, azalekoa ezinbestean, denbora-mugagatik batetik, baina bereziki badakidalako ezagutzen ez dudan hainbat corpus eta corpusgintzarako tresna izango dela, txikiak, pribatuak eta ezagutzera eman ez direnak. Gaur egun euskara lan-tresna duten askok baliatzen dutelako corpusa, baina halaxe, lan-tresna gisa bakarrik, ez produktu edo gizarteratzeko baliabide gisa. Hala ere, erakusgarrienak, erabilienak, ezagunenak, orokorrenak... horiek bilduko dituen argazkia egiten saiatuko naiz nondik gatozen eta non gauden kokatzeko eta, ahal den neurrian, guztion artean nondik jo asmatzen laguntzeko.

1. Corpusak eta corpusgintza

Sinonimo gisa erabiltzen ditugu askotan bi kontzeptuok, baina badago argitu beharreko zerbait. Corpusa, adiera modernoan, baliabidea da, zehatzago: hizkuntzaren atal baten erakusgarri gisa erabiltzen den testu-multzo elektroniko egituratua, erabilera errealak jasotzen dituena, betiere irizpide zehatz batzuen arabera. Hala definitu dute Sinclair-ek eta McEnery eta Wilsonek:

"A collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language" (John Sinclair, 1996).

"A finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration" (McEnery & Wilson, 2001).

Corpusgintza hori baino zabalagoa da, corpusaren osaeran parte hartzen duen oro hartzen baitu bere baitan: corpusak eratzeko eta ustiatzeko metodologia, baliabideak, tresnak eta corpusak berak. Horren inguruan arituko naiz ondoko orriotan.

Bada, baina, corpusgintza dela-eta argitu beharreko kontu pare bat.

Bat, corpusgintza azken urteotan askoren ahotan baitabil eta, maiz, hizkuntzalaritzaren adar berria ote den eztabaidatu baita, gramatika, semantika eta horien pareko. Horiek guztiek hizkuntzaren atal batzuek deskribatzen dituzte batez ere. Corpusgintza, berriz, adar guztietan balia daitekeen metodologia bat da, adar bakarrera mugatu gabe. Eta bi, horiek guztiak esanda ere, ez al da "moda" kontu huts bat, halako batean pasatuko dena? Badirudi orain aurreko gauza asko ukatzen dugula corpusek kontrakoa diotela argudiatuta. Eta egia da neurri batean, baina honek ez du esan nahi aurreko guztia okerra edo faltsua zenik, nahiz hainbat baieztapen egin izan diren historian zehar egia absolututzat hartu ditugunak, besteak beste eskura genituen datuekin egia zirelako, baina datuekin osatu den neurrian bideratu dira argudio eta "egia" berriak ere. Lehen datuak teoriak indartzeko erabiltzen ziren bezala, gaur teoria erabileran oinarritzen da, datu enpirikoetatik abiatzen dira ikertzaileak teoriak eratzeko, eta corpusek eskaintzen dituzte datu enpiriko horiek. Hortik corpus handiak, ondo eratuak eta egituratuak izatearen garrantzia, datu horietatik sortuko baitira "egia" berriak.

2. Corpusgintzaren garrantzia: ikuspegi azkarra


2.1. Corpusgintzak lan egiteko modua aldatu du

Corpusek, beraz, lan egiteko modua aldatu dute: datu enpirikoetan oinarritzen garela esan dugu, baina ez da hori izan aldaketa bakarra. Hizkuntzaren teorizazioan ere eragina izan du lan-prozedura berri honek, corpusgintzak egituratzea, formalizatzea eta sistematizatzea behar baititu, eta honek tresna berriak garatzea ekarri du: etiketatzaileak, lematizatzaileak eta gramatika-formalismoak, besteak beste. Alegia, honek guztiak orain arteko lan deskriptibo asko berrikusi beharra ekarri du, hutsuneak agerian utzi baititu.

Hemendik abiatuta, corpusgintzaren garrantzia hiru galderekin erantzuten saiatuko gara.

  1. ZER jasotzen du corpus batek?

    Gorago aipatutako "egia" berriak lortzeko testu-masa handiak (edo horien transkripzioak, ahozkoen kasuan) behar dira, baina hizkuntzaren erakusgarri izateko antolatuak. Helburuen arabera, mota desberdinetako corpusak osatuko dira:

    Bakoitzak bere egitekoa du, bere testuinguruan kokatu behar da, kasuan kasuko beharren arabera. Hala ere, edukiaren kalitateak, orekak eta egituratzeak baldintzatuko dute emaitza.

  2. NOLA jasotzen du informazioa corpus batek? Zeintzuk dira erabiltzen dituen baliabideak eta tresnak?
  3. ZERTARAKO behar da corpusa?

    Bi erabilera eta erabiltzaile mota nagusi ditu corpusak: hizkuntzaren erabilera aztertzeko (hizkuntzalariak, ikertzaileak, ikasle/irakasleak, itzultzaileak, hizkuntza aztergai duen edonork, azkenean) eta proba-banku gisa erabiltzeko (informatikariak batez ere). Hala izan da tradizionalki, nahiz azken urteotan hizkuntzalaritza konputazionala eta hizkuntza-teknologiak bateratu eta elkarlana nagusitu den.

    Corpusek hizkuntzaren atal hauek ikertzeko lagundu izan dute, besteak beste: lexikoa (forma soilak zein konplexuak, morfemak, maiztasunak, neologismoak, adierak, kolokazioak, terminoen erauzketa...), gramatika (sintagmen egiturak, ordena, aditzen erregimena,...), itzulpengintza, dialektologia, semantika, ontologiak, pragmatika, ahotsaren analisia, hizkuntzen ikaskuntza, psikolinguistika, idatziaren vs ahozkoaren arteko bilakaera, sexuaren araberako erabilerak.

    Historikoki, baina, erabilera nagusia hiztegigintzara mugatu da: BNC(1) corpusa Longman, Larousse eta Oxford hiztegien abiapuntu izan da, BoE(2) Collins eta Cobuild hiztegiena, FRANTEXT(3) Trésor de la Langue Françaiseren oinarria da, CREA(4) Diccionario de la Real Academia Española eta CTILC(5) Diccionari de la Llengua Catalana, besteren artean. Eta gurean ere bai, ikus dezakegunez: Orotariko Euskal Hiztegia osatzen duten 16 liburukiak izen bereko corpusean oinarritu dira; corpus hau berau eta XX. mendeko euskararen corpus estatistikoa(6) dira Hiztegi Batuaren abiapuntu.


2.2. Corpus esanguratsu batzuk

Corpusgintzaren historian eragin handiena izan duten corpus batzuk aipatuko ditugu azaletik, euskal corpusgintzaren historia errazago ulertzen lagunduko digutelakoan. Ingelesa izan zen aitzindaria eta horietara mugatuko gara, mota desberdinetako erakusgarrienak aipatuz: lehen corpustzat hartzen dena, estatistikoa, Brown corpusa; erreferentzia-corpus nagusia, British National Corpus; corpus monitore bat, oreka bat mantenduz etengabe eguneratzen dena, Bank of English; eta corpus oportunista bat, aurkitzen duen guztia, orekari begiratu gabe, jasotzen duena, Collins corpus.

Lehen corpustzat Nelson Francisek eta Henry Kucerak osatutako Brown corpusa(7) (1964) hartu izan da, 2000 hitzeko 500 lagin-zatitan banatutako milioi bat hitzeko corpus estatistiko txikia, Ameriketako ingeles idatzia jasotzen zuena. Bere muga guztiekin ere, aldaketa nabarmena ekarri zuen hizkuntzalaritzaren lan egiteko moduan, eta eztabaidarik ere piztu zuen, garai horretakoak baitira Chomskyk corpusen kontra egindako adierazpenak.

Corpus honek berehala izan zuen segida, 1970-1978 urte bitartean Geoffrey Leech eta S. Johansson buru zirela, lagin-eredu bera baliatuta Britainia Handiko ingelesa jasoko zuen Lancaster-Oslo-Bergen (LOB) corpusa osatu baitzuten. Bi lurraldeetako ingelesa erkatzeko erabili ziren corpusak, besteak beste.

Baina hau abiapuntua besterik ez zen izan, berehala hasi baitziren beste corpus batzuk lantzen.

Historian jauzi bat eginez, gaur eredutzat hartzen den British National Corpus (BNC) aipatuko dugu, lehen erreferentzia-corpusa baita, hau da: hizkuntzaren erakusgarri orokorra eta orekatua. 100 milioi hitzek osatzen dute Britainia Handiko ingelesa bakarrik biltzen duen corpus hau, % 90 idatzia eta % 10 ahozkoa eskaintzen duena (eta hau berrikuntza handia izan zen bere garaian). Orekatua da osaeraren aldetik, kodetua dago informazioa erraz eskuratzeko eta berrerabiltzeko (TEIn(8) oinarritua eta XMLn kodetua). Corpus itxia da, 1975 inguruko edukiarekin hasi eta 1994koarekin bukatutzat eman baitzen. Gorago aipatu dugunez, batez ere hiztegigintzari begira sortu zen, baina egitura eta sailkapen osoak beste hainbat aplikazio bideratu dute, eta egun ere erreferentetzat hartzen da. Are gehiago, asko dira eredu honetan oinarritu diren, eta oraindik ere oinarritzen diren, corpusak, munduko hizkuntza askotan gainera.

Collins corpusak ez du edukiaren orekaren ardurarik: bil dezakeen guztia corpuseratzen du eta 2,5 bilioi hitz ditu dagoeneko, nahiz horietako 56 milioi bakarrik kontsulta daitezkeen sarean. Elebakarra da hau ere, ingelesa du helburu, baina mundu osokoa, eta idatzia (mundu guztiko webguneak, egunkariak, aldizkariak, liburuak) zein ahozkoa (irratia, telebista eta elkarrizketa arruntak) hartzen ditu. Irekia da, noski, hilero eguneratzen baita. Collins hiztegiak etengabe eguneratzeko erabiltzen da, hitz eta adiera berriak sortu ahala sartzen baitituzte.

Hain zuzen, aipatuko dugun azken corpusa, Bank of English, Collins corpusaren parte da, baina mugatuagoa. Corpus monitorea da, alegia, irekia, etengabe eguneratzen dena, baina oreka bat mantenduz. Corpus handia da, 650 milioi hitz jasotzen ditu, batez ere gaur egungo Britainia Handiko, Ameriketako Estatu Batuetako eta Australiako ingelesa eta, gehiena idatzia bada ere, ahozkoari leku egiten dio. Collins Cobuild hiztegien oinarria da corpus hau.

Azken urteotan beste korronte berri bat ari da indarra hartzen, Web as Corpus(9) gisa ezagutzen dena: Internet baliatzen dute corpus gisa.

Gaur corpusak edonon aurki daitezke, ia hizkuntza guztiek dute berea, baina batez ere erreferentzia-corpusak dira lantzen direnak, orekatuak, hizkuntzaren azterketarako eredugarritzat hartzen direnak. Izan ere, hizkuntza batek bere "hiztegia" behar duen bezala behar du "corpusa" ere. Tamainari begiratuta, 100 milioi testu-hitzen bueltan dabiltza gehientsuenak, eta batez ere BNCren bidetik osatzen dira gainera. Gorakada 90. hamarkadan(10) etorri zen, neurri handi batean Europar Batasunak bultzatuta hizkuntza nazionalak biltzen zituen PAROLE(11) proiektua jarri zelako martxan, EAGLES(12) irizpideen arabera corpusak eratu eta irizpide bateratuen arabera kodetzea helburu zuena.

3. Euskal corpusgintza: egungo egoera

Aurreko atalean gainetik aurkeztutako corpusak ez ditut besterik gabe hautatu: erakusgarriak izateaz gain, badute loturaren bat euskal corpusgintzak izan duen bilakaerarekin.


3.1. Euskal corpusgintzaren abiapuntua: Euskaltzaindia

Euskal corpusgintzak badu bere tradizioa, eta Euskaltzaindiari zor dio neurri handi batean, bera izan baita aitzindari, eta berak eutsi baitio etorkizuneko corpusgintzaren aldeko apustuari. Euskarak eman dituen lehen bi corpusak Euskaltzaindiaren eskutik etorri zaizkigu, Hiztegigintza Planean aipatzen zituenak: Orotariko Euskal Hiztegiaren corpusa (euskararen tradizioa jasotzen duena) eta EEBS corpusa (Egungo Euskararen Bilketa-lan Sistematikoa), gerora XX. mendeko euskararen corpus estatistikoa izatera pasatu dena (euskara modernoa biltzen duena, UZEIk Euskaltzaindiaren enkarguz egina). Corpusen tradizio orokorrean bezala, Euskaltzaindiaren Hiztegiaren oinarri izateko sortu ziren bi corpusok, oso modu desberdinean osatu baziren ere.


3.2. Beste euskal corpus batzuk

Euskaltzaindia aitzindari izan da corpusgintzan, baina ez da bakarra izan. Neurri batean beharrek sortuta, hainbat espezialitateko corpus bideratu dira gurean azken urteotan. Aipatu besterik ez ditut egingo, eta ez guztiak gainera. Besteak beste, jakin baitakit izango direla ezagutzen ez ditugunak, barruko erabilerarako sortuak eta inoren eskura ez daudenak. Ezagunenak aipatuko ditut bakarrik, eta corpus idatziez gain, bestelakoak ere aipatuko ditut, baina aipatu bakarrik, argazkia osatze aldera.

  1. Corpus gisa egituratuak, idatziak, espezialitatekoak batez ere: EHUko Euskara Institutuaren eskutik sortuak dira hiru (Ereduzko prosa, gaur (EPG), Ereduzko prosa dinamikoa (EPD) eta ZIO corpusa (ZIO)), EHUko IXA taldearen eta Elhuyarren eskutik Zientzia eta teknologiaren corpusa (ZTC) eta erabiltzaileen eskura ez dagoen Eusko Jaurlaritza - EJIEren eskutik landutako Euskarazko corpus etiketatua eta segmentatua(16).
  2. Testu-bilduma gisa jasoak: Susa literaturak sarean jarri ditu Klasikoen gordailua eta Ibiñagabeitia proiektua, egitura aldetik corpus gisa nekez onar daitezkeenak, baina testu-bilduma aparta eskaintzen dutenak. Horiekin batera, berriz ere Eusko Jaurlaritza EJIEren eskariz bildutako Euskarazko Testu Corpusa aipatu behar da(22).
  3. Corpus elebidunak / eleaniztunak: hainbat corpus elebidun/eleaniztun daudela esan dezakegu, besteak beste itzulpengintzak gurean duen indarra ukaezina delako eta, ondorioz, laneko laguntza gisa ezinbestekoak direlako. Horietako asko ez dira corpus mailara iristen, baina laguntza baliagarria eskaintzen dute itzulpen-memorietan, adibidez. Aipagarrienak sartzearren, IVAPen IDABA, EHUren Itzulpenen Kontsulta, EIZIEren corpusa, Gipuzkoako Foru Aldundiaren itzulpenen datu-basea, Bizkaiko Foru Aldundiaren datu-base dokumentala, Deustuko Unibertsitateko DELi taldearen LEGE-Bi, UZEIren itzulpen-corpusa eta, bereziki, gaur aurkeztuko den Consumer corpusa izenda daitezke.

    Corpus hauek elebakar gisa ere erabil daitezke. Aurreko ataleko edukia osatzeko ere balio dezakete, beraz.

  4. Ahozko corpusak: Euskaltzaindiaren Euskararen Herri Hizkeren Atlasa, EHUko Aholab taldearen BIZKAIFON eta Basque FDB-1060 database, Deustuko Unibertsitateko Fonetiker taldearen FonAtari eta Jon Askeren Basque Spoken Corpus dira aipagarrienak, gehienak sarean eskura daitezkeenak (ELRA(29) katalogoaren bidez edo webguneetan).
  5. Trebatze-corpusak: tresna lagungarri gisa erabiltzen diren eta ezagutzen ditugun corpusak bi motatakoak dira: erabat etiketatuak eta eskuz zuzenduak, eredu gisa erabiltzekoak (EHUko IXA taldearen EPEC eta UZEIren corpus etiketatua), eta erroredun corpusa (IXA taldearen ERREUS).

Honaino euskal corpus eta testu-bilduma esanguratsuenen argazkia, 27 guztira, ez-osoa ezinbestean.

Ahozkoak eta trebatze-corpusak hemen utziko ditugu, eta testu-corpusetara mugatuko gara. Baina, aurrera egin aurretik, ohar pare bat:

Bi corpus mota hauek, beraz, ondoko atalean ere sar zitezkeen, corpusgintzarako laguntza gisa, trebatze-corpusak bereziki.

Testu-corpusetara itzuliz, hauek dira aipatu eta sailkatu ditugun euskal corpus idatzi nagusiak:

Hobeto ikusteko, handituta ikusi nahi baduzu, gainean sakatu.

Taula honek bi gauza uzten ditu agerian: a) euskaraz badira corpusak, baina, Euskaltzaindiaren egitasmoak kenduta, partikularrak edo/eta espezialitatekoak dira eta, egun, ez daukagu corpus orokorrik; eta b) lan partikular horiek proiektuak bikoiztera eraman dute corpusgile ugari, eta hori nabarmena da corpus elebidunen kasuan, buletinak behin eta berriro aipatzen baitira egitasmoetan, adibidez.

Edukien sailkapenera etorriz, eta ezagutzen ditugun corpusei begirada azkar bat emanda, literatura, saioa, zientzia eta teknologia, komunikabideak, administrazioa eta zuzenbidea jasotzen dute corpusek, baina ez dira ageri filosofia, hizkuntzalaritza, ekonomia, gizarte-zientziak, kirola, erlijioa eta beste hainbat. Informazio hori guztia, txikia eta mugatua bazen ere, eskaintzen zuen XX. mendeko euskararen corpus estatistikoak, orekatua gainera, baina oraingoz ez dugu XXI. mendeko euskararen erakusgarri izango den corpus bateratu orokor bat, egungo corpusak integra ditzakeena, azpicorpus gisa nahi bada. Egungo euskararen erreferente izango den XXI. mendeko euskararen erreferentzia-corpusa behar dugula uste dugu, Euskaltzaindiak berak behin baino gehiagotan planteatu izan duena, guztiona eta guztiontzat izango dena. Esan dugunez, eduki asko berrerabil daiteke, batzuk arazorik gabe gainera, erabat kodetuak eta etiketatuak baitaude, beste batzuk moldatu egin beharko lirateke. Eta egun argitaletxeek, komunikabideek, itzulpen-enpresek material guztia dute formatu elektronikoan. Are gehiago, ondoko orrietan ikusiko dugunez, edukiaz gain, baliabideak eta tresnak ere baditugu halako proiektu bati heltzeko, beste hizkuntzen parean jartzeko. Eta honek ez luke kenduko corpus monitoreak, oportunistak, Web as Corpus moduko proiektuekin jarraitzea, horiek ere behar baitira, baina guztien arteko loturak finkatuta.


3.3. Corpusgintzarako euskal baliabideak eta tresnak

Euskal corpusgintzak lan handia egin du hasieratik, eta gurea moduko hizkuntza eranskari bat automatikoki tratatzen saiatzea erronka handia bezain erakargarria izan da.

  1. Baliabide lexikoak eta gramatikak: euskara automatikoki tratatzeko prestatu behar izan dira baliabide lexikoak (hiztegiak etiketatu, atzizkiak tratatu, informazio morfosintaktikoa gehitu), baina baita gramatikak sistematizatu ere, horretarako formalismo berriak ezagutu eta gure hizkuntzaren gramatika berriak sortuz.
  2. Corpusgintzarako tresnak: hainbat motatako tresnak garatu dira euskal corpusgintzan.

    Informazio linguistikoa tratatzeko tresnak, corpusetarako eta beste hainbat aplikaziotarako dutenak, berriz, segidan ikus ditzakegu.

    Corpusen tratamendurako, hala ere, gaur sistema hibridoak erabiltzen dira askotan, ezagutza linguistikoa eredu estatistikoekin aberastuta. Bide hori lantzen dute IXA taldeak eta UZEIk, eta hala aipatzen dute Ametzagaiñakoek ere, baina, aurrekoa kontuan izanda, ez dakigu zein mailatan aplikatzen duten hori.

    Azkenik, gaur Internet corpus gisa erabiltzen dela jakinda, Corpeus garatu zuen Elhuyar Fundazioak Internet euskarazko corpus gisa kontsultatzeko eta ustiatzeko.

Izango dira gehiago, baina irudi azkar bat egiteko balio dezakete orain arte aipatutakoak, bai eta gogoeta pare bat sorrarazteko ere: a) baditugu baliabideak eta tresnak, merkatuari aurre egiteko ongi posizionatuak gaudela esan daiteke, baina b) zein bere aldetik ari gara sortzen, lanak bikoizten, corpusak bezala. Horrek erakusten du prestatuta gaudela erronka berriei erantzuteko, jende asko dela gai garai berrietara egokitzeko eta euskaraz lan egiteko gainera. Baina, behar al dira lau lematizatzaile euskara moduko erabilera-eremu urriko hizkuntza eranskari baterako? Zergatik sortu dira hainbeste? Erantzuna ere berehala datorkigu burura: beharra dagoelako, eta daudenak eskuratzerik ez dagoelako. Lematizatzaileak sortuta daude eta beude horretan, baina, aurrera begira, ez al genituzke indarrak batu beharko, lanak banatu beharko, eta bikoizten edo n-koizten ez ibili? Guztiok irabaziko genuke gainera, gauza berri gehiago garatzeko aukera izango genukeelako, elkarlana bideratuz. Corpusekin Euskaltzaindiak bidea markatu duela dirudien bezala, tresnekin eta baliabideekin ere zerbait egin beharko litzateke. Sortzear da Hizkuntza Teknologien Clusterra. Hortik bidera daitezke etorkizuneko lanak eta indarrak batzeak, beharbada.

Bukatzeko, aurreko guztia ikusita, euskal corpusgintza sendo dagoela esan dezakegu: baditugu baliabideak, baditugu tresnak, badugu ezagutza, eta baditugu corpusak. Erabilera-eremu urriko hizkuntza (eranskaria, gainera) izanda ere, leku onean gaude. Beste hizkuntza batzuetarako egin diren urratsak egin ditugu guk ere corpusen osaeran: historikoa, estatistikoa, monitorea, espezialitatekoak, ahotsa, trebatze-corpusak,... Eta lematizatzaileak, desanbiguatzaileak, corpus-eraketarako eta -ustiapenerako tresnak garatu dira. Euskal corpusgintza osasunez ondo badago ere, ezin dugu hutsune handi bat aipatu gabe utzi, argazkian falta dena: erreferentzia-corpusa.


3.4. Euskal corpusen erabilera

Baina, non eta zertarako erabiltzen ditugu corpusak? Izan, baditugu, baina zeinek jotzen du corpusetara? Orain artekoa ikusita, sortu diren corpusak begiratzen baditugu, beharrek eraginda sortu dira sortu direnak, eta interes konkretu batzuei begira osatu dira corpus konkretuak. Beraz, euskararen bilakaera diakronikoa jasotzeko bildu zen OEH, XX. mendeko euskararen berri jasotzeko XX. mendeko euskararen corpus estatistikoa, euskara "eredugarria" biltzeko EPG eta ZIO, zientzia eta teknologia aztertzeko ZTC. Kasu hauetan guztietan, baina, hiztegiek hartu dute garrantzia.

Euskaltzaindiaren Hiztegi Batuaren aztergaia osatzeko, adibidez, XX. mendeko corpusetik eskuratu ziren maiztasun handieneko lemen zerrendak eta maiztasunen araberako multzoetan oinarrituta joan da hiztegia osatzen, OEHk eskaintzen duen tradizioarekin batera. Aurrerantzean Lexikoaren Behatokiak eskainiko du informazio hori, erreferentzia-corpusik ezean, eta XXI. mendeko lexikoarekin aberastuko da oinarria dagoeneko bildua duen egungo Hiztegi Batua.

Baina lexikoaren atalean badira behar gehiago (XX. mendeko corpusa dela-eta jasotako eskaerak dira ondoren aipatzen direnak, erabilera errealak, jakinik askoz gehiago izango direla, dudarik gabe).

Eskaerak Euskaltzaindiko batzordeetatik, hemengo zein kanpoko unibertsitateetatik, eta bestelako erakunde eta enpresetatik ere etorri dira, atzerrikoak hainbat kasutan. Ikerketarako zein produktuen garapenerako behar zuten corpusaren edukia.

Eta beste adar guztiak?

Horiek dira UZEIn jaso diren eskaera formaletako batzuk, erabiltzaile arruntek webgunean zuzenean egiten dituzten kontsulta puntualagoak alde batera utzita.

Badira, hala ere, askoz ere erabilera gehiago, baina corpusaren tamainak, edukiak, sailkapenak eta etiketatze-mailak baldintzatuko dituzte erabilera batzuk ala besteak.

Adar hauek guztiek ez dute corpus erraldoi bat eskatzen ezinbestean, batzuetan azpicorpus txiki bat besterik ez dute beharko. Adibidez, estilistika ikertu nahi duenak autore bakar bat hautatuko du seguru asko, edo dialektologian diharduenak euskalki bakar bat, edo euskalki bakar horretako garai zehatz bat, edo finago. Horrek corpusa ondo egituratua izatea eskatzen du, eta informazio ugariz eta aberatsez hornitua, gero erabiltzaileak komeni zaiona erraz eta zehatz hauta dezan, zaratarik gabe. Eta azkar. Corpusgileak egin behar du lana erabiltzaileak corpusaren emaitzak balia ditzan, garbitze-lanik hartu gabe.

Eta ez dezagun ahaztu proba-banku gisa ere behar direla corpusak, hori ere corpusen erabilera garrantzitsua da.

4. Ondorio gisa, aurrera begirakoak

Euskal corpusgintza ondo samar prestatua dagoela ikusi dugu: baditugu baliabideak, tresnak eta ezagutza. Baina etorkizun hurbilerako erronka batzuk aipatu nahi nituzke, zuen baimenarekin:

Euskaltzaindiari eskatuko nioke corpusen ardura hori bere gain har dezala, bera baita corpus nagusiak orain arte bideratu dituena eta, lanak bateratuko badira, guztion babesa duena. Corpusgintzarako metodologia, baliabide eta tresnen kudeaketa, berriz, Hizkuntza Teknologien Cluster berriak har lezake bere gain, berak izango baitu dagoenaren, horren egoeraren eta beharren ezagutza zabalena. Aukera ezin hobea iruditzen zait horri heltzeko, batez ere talde zabala biltzen badu bere baitan.

Utz iezadazue, bukatzeko, bi hitz esaten Euskaltzaindiari eta Eroskiri. Euskaltzaindiari eskerrak orain arte egindako lan mardulagatik, corpusgintzan hasieratik sinetsi eta aurrera egin duelako, eta eskerrak gaurko jardunaldi hau antolatu eta zuen artean egoteko eskaintza egin didalako. Eskerrik asko, bihotzez.

Eta eskerrak Eroskiri bere eskuzabaltasunagatik, Consumer corpusak corpusgintzari, kasu honetan euskal corpusgintzari, egiten dion ekarriagatik, Euskaltzaindiaren esku jartzeagatik. Eta zorionak 40 urteengatik.

Eskerrik asko guztioi.


(MIRIAM URKIA UZEIko kidea da)

Oin-oharrak


Inprimatu



Artikulura bueltatzeko:
http://www.erabili.com/zer_berri/muinetik/1265098186