![]() |
Egin klik hemen INPRIMATZEKO |
ELEKA ingeniaritza linguistikoa / Informatika / 2003-06-19 / 07:03
OCRa (Optical Character Recognition), idatzitako edo inprimatutako testu-karaktereen ordenagailu bidezko ezagutza da. Software hau asko erabiltzen da paperean dauden testuak digitalizatzeko eta euskal merkatuan oso zabaldua dago. Baina orain arte ez zegoen euskarari egokituta eta, ondorioz, zuzenketa lan handiak egin behar izaten dira ondoren. ELEKA enpresak garatu duen tresnari esker, euskarazko testuak euskaraz eskaneatu ahalko dira hemendik aurrera. Eusko Jaurlaritzako Hizkuntza Politikarako Sailordetza izan da proiektu honen arduradun, eta beraiek jarri dute Interneten edonoren eskura.
OCR softwarea erabiltzen dugunean karaktere bakoitza eskaneatzen da argazki bat balitz bezala, eta ondoren eskaneatutako irudi hori aztertu eta karaktere kode arrunt batera itzultzen da (ASCII esaterako).
OCR sistemaren doitasuna hiru faktorek mugatzen dute: dokumentu originalaren kalitateak, eskanerrak sortu duen irudiaren kalitateak eta azken horren gainean OCR softwareak egiten duen interpretazioak. ELEKAk interpretazio hori euskara erabilita egiteko tresna garatu du.
Eskaneatutako irudia testu bihurtzeko, OCRak irudia osatzen duten puntuak aztertu eta tartean dauden hutsuneak bereizten ditu. Prozesu horri segmentazioa deitzen zaio eta hiru pausotan egiten da: lehenengo lerroak bereizten dira, ondoren hitzak isolatzen dira eta, azkenik, karaktereak bereizten dira. Azkeneko fase hori errazagoa da karaktere guztiak zabalera berekoak badira; asko konplikatzen da, aldiz, karaktereek elkar ukitzen badute, beste puntuazio-markekin nahasten badira edo zabalera karakterearen formaren araberakoa bada.
Karaktere mailako ezagutza egiteko, beharrezkoa da OCR sistemak eskaneatu dugun testuko hizkuntzaren karaktere guztiak ezagutzea. Karaktereekin zalantzarik sortuko balitzaio, berriz, hitza osatu arte itxarongo luke; prozesu horretan baliagarria izango da hizkuntza horretako hiztegi bat edukitzea harekin parekatu ahal izateko. Horrela, probabilitate-joko batez eta hiztegiko hitza den ala ez ebaluatuz, karaktere bat ala bestea hautatuko du sistemak. Teorian, hizkuntza horretako alfabetoa eta hiztegi bat edukitzea nahikoa da OCRa modu egokian aplikatzeko, baina euskararen kasuan ez da horrela suertatzen. Ezin da hitz posibleen zerrenda oso bat eman, hots, ezin da hiztegi bat sortu, hizkuntza deklinatua izanik, hitz-erro bakoitzetik hitz-forma gehiegi ateratzen baitira. Tresna linguistikoek laguntza handia emango dute pauso honetan; hau da, euskararen ezaugarri nagusiak landuz hobekuntza handiak lor daitezke OCR sistema bat garatzerako. Esaterako, euskaraz egiten diren karaktere- edo hitz-elkarketak (ts, tz, tx, edo marren erabilerak) ez dira hain arruntak Europako gainerako hizkuntzetan.
Gaur egun erabiltzen diren OCR software gehienekin, euskarazko testu bat aztertu nahi dugunean, erdal hizkuntza bateko hiztegia erabili behar izaten dugu. Hala ere, horrelakoetan hobe da hiztegirik ez erabiltzea beste hizkuntza bateko hiztegia erabiltzea baino, testuan akats gehiago ez egitearren. Esaterako, ingelesezko hiztegi bat erabiltzen ari bagara, "sei" hitzaren agerraldi gehienak "set" hitzarengatik ordezkatuko ditu ia seguru. Gaztelaniazkoa erabiltzen ari bagara, berriz, "energia" hitzak "energía" (tildearekin) hitzarengatik ordezkatuko ditu.
ELEKAk euskarazko zuzenketa egiteko plug-in-a (osagarria) garatu du Omnipage programarentzat, gehien erabiltzen den OCR softwarearentzat, alegia. Programa hori prestatuta zegoen euskararen kasuan ere eskaneatutako irudia karaktere bihurtzeko, baina ez ondoren egin behar den hitzen egiaztapen eta zuzenketa-faserako. ELEKAk euskararen informazio morfologikoa gehitu dio programari, euskarazko testuak ahal den hobekien digitalizatzeko.
OmniPage-rako garatutako plug-inaz gain, Xuxen moduko OCR zuzentzaile bat ere gehitu da Windows eta Macintosh-erako eta Microsoft Worderako, Omnipage erabiltzen ez duten erabiltzaileen esku jarri ahal izateko euskarazko OCR sistema.
Proiektua Eusko Jaurlaritzaren Hizkuntza Politikarako Sailordetzaren zuzendaritzapean garatu da eta beraiek kaleratu dute Interneten bidez. Tresna hauek Internetetik jaitsi daitezke www.euskadi.net/euskara_soft/indice_e.htm helbidean edota HEMEN sakatuta ere bai. Gainera, bertan, euskarazko eskuliburuak ere aurkituko dituzu tresnaren erabilerari buruzko azalpen guztiekin.