|
Eusko Jaurlaritzaren Hizkuntza Politikarako Sailburuordetzak (HPS) Tesseract-OCRopus euskaraz tresna jarri du erabiltzaile guztion eskura, Internetetik jaitsi ahal izateko.
Jaurlaritzaren www.euskara.euskadi.net/euskara_soft helbidean aurki daiteke tresna informatiko hau ere (plugin-ak atalean), HPSk euskaratutako beste hainbat software produktu guztion eskura jartzen dituen gunean.
Eskaneatutako euskarazko testuak
Tresna hau Windows ingurunean (Windows 2000, Windows XP edo Windows Vista) zein Linux ingurunean dabil eta eskaneatutako euskarazko testuak OCR (Optical Character Recognition - Karaktere Ezagutze Optikoa) bidez ezagutzeko gai den paketea da. Erabiltzen duen azpiegitura Google-k babesturiko Tesseract oinarrizko OCR tresnak eta OCRopus dokumentu analizatzaileak osatzen dute.
Dokumentuak analizatzeko, lehenengo eta behin, dokumentua osatzen duten zutabeak, orri-buruak, orri-oinak, irudiak, taulak eta abar identifikatzen ditu eta beraien arteko erlazioak zehaztu; ondoren, testu diren zatiak hartu eta OCR motorrari pasatzen dizkio, ezagutu ditzan (atal hau Tesseract bidez burutzen da). Azkenik, aurreko bietako informazioa uztartu eta jatorrizko dokumentuaren bertsio elektroniko ahal bezain fidela osatzen da.
Helburu nagusia euskaraz idatzitako testuak modu fidagarri eta automatikoan ezagutzeko gai izango den tresna gizartearen eskuetan jartzea izan da.
Eleka Ingeniaritza Linguistikoa enpresa da tresna hau prestatu duena.
|