|
Urte mordoska pasa dira, itzulpengintzan ziharduten hainbat lagunek euskarak erreferentziazko corpus linguistiko bat behar zuela aldarrikatzen hasi zirenetik.
Xabier Mendiguren Bereziartu gogoan dut horren errebindikatzaile temosoentzat. Euskararen normalizazioak, euskara batua osatzeko eta hizkuntza-kalitatea bermatzeko horrelako baliabidea ezinbestekoa zuela aldarrikatzen zuten eta, era berean, inguruko hizkuntza nagusiek horrelakoak osatzen ari zirela azpimarratzen zuten. Egia esateko, euskararen bi corpus edo corpus-moduko nagusi osatu dira: Egungo Euskararen Bilketa Sistematiko (EEBS) izenekoa eta Orotariko Euskal Hiztegia osatzeko usatu dena. Lehenak XX. mendeko testu idatziak biltzen ditu eta bigarrenak historikoak. Horiek corpus partzialak izateaz gain, garai bateko umeak dira eta ajeak dituzte. Euskarak ez du behar eta merezi duen erreferentziazko corpusa.
Honaino iritsita corpus linguistiko bat zer da? Corpusa testu-bilduma bat da, irizpide jakin batzuen arabera bildutakoa eta formatu elektronikoan biltegiratuta dagoena. Zertarako balio du? Batetik, hizkuntza aztertzeko hainbat alorretan, hala nola, hiztegigintzan, sintaxian eta diskurtsoaren analisian. Bestetik, hizkuntzaren teknologia informatikoak corpusez eta horietatik bildutako datuez baliatzen dira tresnak eta baliabideak sortzeko. Adibidez, itzulpen automatikoko sistemetarako corpus elebidunak usatu ahal izatea oso onuragarria da. Corpusaren erabilera eremu guztietarako baliagarria denean, erreferentziako corpus deritzo. Horrelako bat aldarrikatzen zuten Xabier Mendigurenek eta enparauek. Bolumen handiko lana da; kontuan hartu Corpus de referencia del español actual izenekoak 170 milioi hitz dituela.
Eusko Jaurlaritzako hizkuntza-politikarako arduradunen artean bada erreferentziazko corpus bat osatzeari behingoz heltzeko asmo irmoa, horrela agintzen baita legegintzaldirako xedeen artean. Ea asmoa aurki proiektu bihurtzen den! Alabaina, kezka pare bat sortzen zaizkit balizko erreferentziako corpus horri buruz arestian aipatu ditudan bi corpusek izan duten historiari erreparatuta: lehena, corpusa bera antolatzeko irizpideei dagokie eta, bigarrena, corpusaren eratze-prozesuaren eta ustiaketaren kudeaketari.
Egia esan, corpusa antolatzeko irizpideei buruzko kezka bietan txikiena da. Ikuspegi teknikotik irizpideak ezartzeko aditu egokiak baditugu unibertsitatean, Euskaltzaindian zein lexikografian eta hiztegigintzan diharduten bestelako erakundeetan eta, alderdi horretatik emaitza zuzena izango dela duda gutxi dauzkat. Kezka da irizpide horiek nork eta nola jarriko diren, hots, gorago aipatu ditudan agente horietako bakar batek ezarriko dituen ala alorren interesa eta jakintza dutenen arteko elkarlana bilatuko den. Agente horien guztien ikuspegia bilduko duen bidea hobesten dut. Alabaina, batzuk tentatuta egon litezke corpusa soilik «ereduzko testuekin» osatzeko eta «ereduzkotasuna» testu literarioetara mugatzea. Bide okerra izango litzateke hori, erreferentziazko corpusetatik baitatoz ereduzko corpusak eta euskara literatura baino gehiago baita, askoz ere gehiago kantitatean eta eragin sozialean.
Bigarren kezka galdera hauen inguruan gorpuzten da: Zein izango da corpusaren arduraduna? Nolako egitura antolatuko da lan hori egiteko? Zein toki izango dute hizkuntzaren inguruan lan egiten duten erakundeek? Nork eta nola baliatu ahal izango du corpusa? Nola finantzatuko da?... Bi edo hiru ideia horren inguruan.
Lehen ideia. Proiektuaren lidergoa Euskaltzaindiak izan behar du, euskararen akademia delako, Euskal Herri osoan estatus ofiziala duen erakundea delako, gizartearen onarpena duelako eta inguruko hizkuntzetan horrela egiten delako. Esaterako, Real Academia Españolak kudeatzen du Corpus de referencia del español actual delakoa eta katalanaren corpusa Institut d'Estudis Catalans-ek. Baliabideak beharko ditu horretarako. Alabaina, ez dut esaten Euskaltzaindiak zuzenean, bere egitura, pertsonak eta baliabideak usatuz egin beharko lukeenik lana, baizik eta lanaren zuzendaritza eta ardura Akademiak izan behar dituela.
Bigarren ideia. Alorrean pisua eta eskarmentua duten erakundeek elkarlanean aritzea bai diseinuan baita osaketan ere. Ez dira asko; esku baten hatzekin konta daitezke. Horrek hainbat ezaugarri emango lizkioke emaitzari: kalitatearen bermea, ikuspegien oreka, elkarren arteko sinergiak eta epeetan sartzeko eraginkortasuna.
Hirugarren ideia. Corpusaren ustiapenak publikoa eta unibertsala izan behar du, kontrako ezaugarriak izan baitituzte, oraintsu arte, gora aipatu ditudan bi corpusek eta horrek ez dio mesederik egin ez euskararen normalizazioari ezta hizkuntzaren kalitateari ere. Esan nahi baita, protokolo argiak eta egokiak jarri behar direla corpusean bildutako informazioa erraz eta eroso ustia ahal izan dezan interesa duenak. Bide horretan, "-pen" atzizkiaren erabilerak XX. mendean izan duen bilakaeraz doktore-tesia egin nahi duenak edo hiztegigintzan dabilen argitaletxe komertzial batek corpus horren informazioaren ustiatzaile izan daitezke. Horrek ez du esan nahi ustiapenak muxu truk izan behar duenik edo royaltyrik kobratuko ez denik. Ahalegin kolektibo horretaz gutxi batzuk bakarrik balia daitezen saihestea da xedea. Puntu honetan, Euskaltzaindiak proiektuaren lidergoa izatea da bermea.
Bukatzeko, erreferentziazko corpusa ezinbestekoa izanik ere, corpus espezializatuak osatzeko bideak eta baliabideak jarri egin beharko lirateke, esaterako, corpus elebidunak edo zientzia eta teknologiaren corpusa. Aurrena oso mesedekoa izango litzateke itzulpengintzan dabiltzanentzat eta bigarrenak, gure kulturaren osagai bazter ezinak diren zientzia eta teknologiaren lexikoa, esapideak eta gainerakoak aztertzeko, lantzeko eta finkatzeko lagungarria izango litzateke.
Corpus espezializatuak osatzeko bideak eta baliabideak ere jarri beharko lirateke, esaterako, corpus elebidunak edo zientzia eta teknologiaren corpusa.
(IÑAKI IRAZABALBEITIA FERNÁNDEZ euskaltzain urgazlea da)
- Estreinakoz Berrian argitaratua, 2006-09-13an.
|