![]() |
Egin klik hemen INPRIMATZEKO |
Kepa Sarasola / Informatika / 2004-01-26 / 07:03
Epe ertainean pertsona eta makinen arteko komunikazioa geure hizkuntzan egin ahal izango dugu, ez makinaren hizkuntzan. Ez dago zalantzarik aho-idatzizko mintzaira naturala gure eguneroko bizitzaren giltzarri dela. Egunetik egunera, datu-base dokumentalak handitzen ari dira, ordenagailuekin harremanak izateko erak aldatzen eta multimedia sistema guztiak digitalizatzen. Horren ondorioz, ezinbestekoa bihurtu zaigu aho-idatzizko mintzaira naturala ere informatika bidez lantzeko bideak aztertzea. Zalantzarik gabe Hizkuntza-Teknologiak funtsezkoak dira Informazio eta Komunikazioaren Gizartea esaten diogun horretan.
Tresna horiek mugatuak izango dira, eta beti errore-maila batekin lan egingo dute, baina, hala ere, laguntza ederra emango digute. Alde batetik, ekonomikoki errentagarriak izango direlako (merkeago da erroreak dituen itzulpen zirriborro bat zuzentzea, testu osoa bere osotasunean itzultzea baino). Beste alde batetik, tresna horiei esker gizakien arteko komunikazioa hobetu egin ahal izango da (adibidez, telefono bidez hitz egiteko aukera izango dugu beste hizkuntza bat darabilen pertsona batekin, hitzak banan-banan sistema batek itzultzen baditu).
Gaur egun badira zenbait hizkuntza-aplikazio eskuragarri: ortografia-zuzentzaileak eta estilo-zuzentzailea, hiztegi-kontsultak on-line, itzulpen-laguntzak, interneterako bilatzaileak, hizketa testu bihurtzen duten sistemak, testua irakurtzen dutenak, bigarren hizkuntza ikasteko sistemak eta abar.
Baina horrelako sistema gehienek ingeleserako balio dute, ez beste hizkuntzetarako. Beste hizkuntzek ahalegin handia egin behar dute atzean ez gelditzeko, are gehiago euskara bezalako hizkuntza txikiek.
Natural Language Software Registry zerbitzuak interneten duen orria begiratzen badugu (http://registry.dfki.de , edo hizkuntza-teknologiari buruzko informazio orokorragoa duen www.lt-world.org) gaur egun hizkuntzak lantzeko erabilgarri diren 167 programaren berri jasoko dugu (ikus 1. irudia). Horietatik %75 ingeleserako erabilgarri dira, eta %30 bakarrik erabil daitezke edozein hizkuntzatarako. Merkatuan aurki daitezkeen aplikazio gehienek hizkuntza “handiak” dituzte helburu, ingelesa, batik bat, baina baita, bigarren maila batean bada ere, beste hainbat hizkuntza handi ere: frantsesa, alemanera eta espainiera, besteak beste.
![]() |
| 1. irudia. Hizkuntza-Teknologiako zenbait sistema erabilgarri hainbat hizkuntzatarako. |
Orokorrean aztertuta -alegia, ez hizkuntzaren prozesamendu automatikoarekin lotuta dauden aplikazioak bakarrik-, euskarak orain informatikaren munduan duen egoera ez da basamortua, badira aplikazio batzuk; baina oraindik zeregin handia dago egoera normalizatu batera iristeko. Euskararen Softwarearen Katalogoa aztertzen badugu (www.ueu.org/softkat) aplikazio-motaren arabera zenbait programa aurkituko ditugu:
Hizkuntzaren prozesamenduarekin lotuta azaltzen diren 34 aplikazio horiek aztertuz gero, era berean, esan dezakegu ez gaudela basamortuan, eta hala ere, oraindik zeregin handia dagoela:
Hizkuntzaren tratamendu automatikoaren ia 50 urteko historian gorabehera handiak izan dira. Helburu liluragarriak lortzear zeudela uste izan da zenbait une euforikotan, baina belarriak jaitsi eta helburu apal baina eskuragarriagoetara mugatze aldera jo behar izan da beste une pragmatikoago batzuetan. Erabateko itzulpen automatikoa konputagailuen eskutik etorriko zela aurreikusi zuten 1954an Georgetown-eko Unibertsitatean. Alabaina, 1966an itzulpen automatikorako diru-iturri ofizial guztiak itxi egin ziren, ALPAC txosten ezagunak horrela gomendatu eta gero. Aurrerago, 1980 inguruan, adimen artifizialeko teknika berrien eskutik konputagailuak hizkuntza arruntaz —aho-idatzizko mintzaira naturalean— programatu ahal izango genituela agindu zitzaigun. Gaur egun ahaztuta daude horrelako ametsak. Dena dela, euforia eta pragmatismoko ziklo horiek bi motatako emaitzak utzi dituzte: alde batetik, hobeto baloratu eta ezagutzen dugu hizkuntzaren egitura eta erabilera, eta aitortu behar izan dugu ez direla hasieran uste bezain sinpleak; bestetik, helburu utopiko horiek lortzeko asmotan eraiki diren tresnekin helburu apalagoa duten baina komertzialki bideragarriak diren produktu asko merkaturatu dira.
Hizkuntza naturalaren tratamendu konputazional osoa ezinezkoa da, etengabeko aldaketak eta erabilera mugaezinak ditu eta. Bost urteko edozein ume hitz egiten eta ulertzen ondo moldatzen denez, hizkuntza erabiltzea lan erraza dela pentsatzen dugu, baina hori ez da horrela. Hizkuntza sortzea eta ulertzea oso prozesu konplexuak dira eta gaur egungo ordenagailuak urrun ikusten ditu giza adimenaren hizkuntz-ahalmen orokorrak. Baina horrek ez du esan nahi aplikazio interesgarri eta oso baliagarriak egin ezin direnik. Esan bezala tresna horiek mugatuak izango dira, eta beti errore-maila batekin lan egingo dute, baina, hala ere, laguntza ederra emango digute zenbait hizkuntz jarduera mugatutan.
Hizkuntza-Teknologiak funtsezkoak dira Informazio eta Komunikazioaren Gizartea esaten diogun horretan. Eusko Jaurlaritzako hiru sailek batera, Industria, Hezkuntza eta Kulturak, ikerlerro estrategiko gisa definitu izan dute. Testuinguru horretan kokatuta dagoen Etortek 2002-04 ikerketa-deialdian VICOMTech, Elhuyar, Robotiker, Aholab eta IXA taldeak elkarlanean proiektu bat ari gara garatzen: "HIZKING21 HIZKuntza INGeniaritza XXI mendeko atarian” (http://www.hizking21.org). Hizkuntz-ingeniaritzaren arloan ikerketan eta garapenean lan egiteko epe erdirako estrategia diseinatu dugu, proiektuko partaideen 15 urteko eskarmentuan oinarrituta. Nazioartean punta-puntako mailan jardungo duen industria sendoa sortzea da gure erronka. Ikerketa-taldeek, industriak eta erakunde ofizialek elkarrekin koordinatu behar dute helburu hori lortzeko. Hizkuntz-ingeniaritzaren arloan Ikerketan eta Garapenean arituko den komunitate zabal bat sortu behar dugu. Gaur, 2004. urtean, guk atera ditugun kontuen arabera, 120-150 lagun dabiltza lanean Euskal Herrian hizkuntzaren prozesamenduaren arloan, zuzenki edo zeharka. Gauzak ondo planifikatuz gero eta formazio-plan egokiak aurrera eramanez gero, urte gutxiren buruan kopuru hori bi halakotu edo hiru halakotu egin daitekeela aurreikus daiteke.
|
Aplikazio horien garapenerako, ordea, oinarri sendo batetik abiatu beharra dago. Oro har, hizkuntza teknologien egitura, piramide moduko batez irudika dezakegu (ikus 2. irudia). Piramide honen oinarrian hizkuntz-ingeniaritza arloan lan egiteko beharko ditugun oinarrizko baliabideak egongo dira. Baliabide hauei esker, tresnak garatzeko moduan izango gara, eta behin hauek garatuta, hizkuntz-ingeniaritzaren hainbat esparrutan lan egiteko moduko produktu komertzialak kaleratu ahal izango ditugu. Kontuan izan behar da, ordea, alderantzizko bidea ezin dela egin, etxea teilatutik eraiki nahi ez badugu.
![]() |
| 2. irudia. Hizkuntza Teknologiako aplikazioek oinarri sendoa behar dute. |
Aplikazioak ditugu helburu, noski. Gizarte eleaniztun batean bizi gara, eta eleaniztasun horretan lagungarri izango zaizkigun tresnekin egiten dugu amets: euskararako itzulpen automatikoa, hizketaren ezagutza, estilo zuzentzaileak ere nahi ditugu. Baina hauek sortzera helduko bagara oinarri sendoa beharko dugu lehenik. Esaterako, itzultzaileentzat lagungarri izan daitekeen tresna bat garatzeko hainbat baliabide eta tresna garatu beharko ditugu aurretik (ikus 3. irudia), eta baliabide eta tresna horiek guztiak itzulpena ez den beste aplikazioetan ere erabilgarri izango dira.
![]() |
| 3. irudia. Hizkuntza Teknologiako hainbat modulu itzulpengintzarako laguntza dira. |
Produktu bakoitza produktu berrien garapenean ahalik eta modu zabalenean berrerabilia izatea da gure helburua. Horrela, gaur egungo lorpenak eta jarduerak ondorengo irudian ageri diren moduan sailkatu ditugu:
![]() |
| 4. irudia. Hizkuntz baliabideak eta tresnak aplikazioen oinarri. |
Hauek dira orain artean garatu ditugun oinarrizko tresna eta baliabide nagusiak:
Tresnak
Hizkuntza-baliabideak eta oinarriak
Aplikazioak garatzeko tresnak behar ditugu lehenik, baina hauen oinarri baliabideak dira. Hona nagusiak:
| Corpusa | Hitz kopurua | Hizkuntza |
|---|---|---|
| British National Corpus | 100 milioi hitz | Ingelesa |
| Bank of English (COBUILD) | 300 milioi hitz | Ingelesa |
| FRANTEXT | 150 milioi hitz | Frantsesa |
| CRAE | 130 milioi hitz | Gaztelania |
| CORDE | 136 milioi hitz | Gaztelania |
| XX. mendeko corpus estatistikoa | 5 milioi hitz | Euskara |
| Ereduzko Prosa Gaur | 4,5 milioi hitz | Euskara |
Testuak ondo aukeratuz gero, testu horien azterketaren emaitza hizkuntzaren egoeraren adierazgarri eta eredugarri izan daiteke, alegia, hizkuntza lantzeko erreferentzia estandarra. Gaur egun informazioaren gizartean hizkuntza batek duen garrantzia neurtzeko garaian, hizkuntza horrek aplikazioak garatzeko dituen hizkuntz-baliabideak aztertzen dira. Hizkuntz-baliabide hauen artean, corpus handien garapena lehendabiziko jomuga izan ohi da. Gaur egun corpusen kopurua eta hauek sortzeko proiektuen kopurua gero eta handiagoa da. Web orri hauetan topa daiteke corpus hauen informazio nahiko eguneratua: www.elda.fr/catalog.html eta www.ruf.rice.edu/~barlow/corpus.html
Lehen esan bezala, oinarrizko baliabide eta tresna hauek gabe, ez gara izango gai helburu ditugun aplikazioak garatzeko. Euskararen kasuan, baditugu hainbat tresna eta baliabide, baina euskararen hizkuntza teknologiak ingelesa bezalako hizkuntzen pare nahi baditugu ikusi, badugu oraindik egin beharreko bide luze bat.
Badira hainbat produktu euskara eta softwarea uztartzen dituztenak. Euskararen Software Katalogoan (www.ueu.org/softkat) 140 bildu dira. Horietarik 34 lotuta daude Hizkuntzaren Industriarekin. Hori ez da hutsaren hurrengoa, baina bai oso gutxi; ahalegin handia egin behar dugu informazioaren gizarteko mundu honetan euskara atzean ez gelditzeko.
Gure bide horretan sortuko dugun hizkuntz-oinarri bakoitza, tresna eta aplikazio bakoitza, ondo diseinatu beharko dugu ondorengo produktuetan erabilgarria izan dadin.
Hizkuntz-ingeniaritza arloan, ikerketan eta garapenean gabiltzan VICOMTech, Elhuyar, Robotiker, Aholab eta IXA taldeentzat, elkarlanean garatzen ari garen "HIZKING21 HIZKuntza INGeniaritza XXI mendeko atarian” proiektuan, nazioartean punta-puntako mailan arituko den industria sendoa sortzea da gure erronka. Ikerketa-taldeak, industriak eta erakunde ofizialak koordinatu egin behar dira helburu hori lortzeko. Hizkuntz-ingeniaritza arloan Ikerketan eta Garapenean arituko den komunitate zabal bat sortu behar dugu. Lan egiteko epe erdirako estrategia azaldu dugu, 15 urteko eskarmentuan oinarritua, beraz, jarraibide horretatik, nazioartean punta-puntako mailan arituko den industria sendoa sor dezagun. Ildo horretatik, Etortek deialdiko beste proiektuetan bezala helburua ez da produktu konkretu bat lortzea, eragitea eta antolatzea baizik. Alde batetik, ikerketa eta garapen mailari dagokionez hizkuntza-baliabideak, garapen-tresnak eta teknologia eguneroko bizimoduan txertatu ahal izateko teknikak sortu nahi dira. Eta beste aldetik, formazioa (masterrak eta doktorego-programak), nazioarteko lankidetza eta zabalkundea eta behatoki teknologikoa sustatu nahi ditugu.
Hori da gure erronka.
(KEPA SARASOLA GABIOLA informatikaria, IXA taldeko kide, Euskal Herriko Unibertsitateko irakasle eta UEUko kide da)
![]() |
| Ixa taldeko kideak. Gai honi buruzko infomazio sakonagoa hemen: http://ixa.si.ehu.es/Ixa |
Ildo bereko artikuluak (irakurtzeko gainean sakatu)
![]() | Inprimatu |