Prepoznavanje teksta sa slika Za gImageReader možemo da kažemo da spada u red programa za optičko prepoznavanje teksta. Međutim, umesto prebiranja po skeniranim dokumentima (mada i to može da radi), ovaj program se sadržajem „snabdeva” na krajnje neobičan način – procesiranjem slika! Ideja autora bila je da izradi alatku koja će biti u mogućnosti da iz klasičnih grafičkih datoteka ekstrahuje tekst i kopira ga direktno u clipboard. Ako malo proanaliziramo situaciju, videćemo da je princip zapravo sličan klasičnom OCR-u, s tom razlikom da se ovde „napadaju” datoteke koje sadrže veći udeo klasičnih, grafičkih elemenata.Program na ulazu prepoznaje praktično bilo koji statičan grafički format zapisa, a snalazi se i u „iščitavanju” širokorasprostranjenih PDF-ova. Upotreba se sastoji iz svega dva koraka. Nakon što učitate željene slike i/ili PDF-ove na radnu listu, potrebno je da na ekranu označite oblasti koje želite da program procesira. Po pritiskanju tastera Recognize selection, rezultati se u tekstualnom obliku pojavljuju u Output formi koja je smeštena u desnom delu ekrana i na taj način je posao završen. Zanimljivo je da se rezultati „prepoznavanja” mogu poslati direktno u clipboard, pa čak i pojedinačne selekcije snimiti na hard-disk u obliku PNG datoteka. Kao što smo već nagovestili, gImageReader može da izvrši i skeniranje štampane galanterije za šta se koristi jednostavna ugrađena rutina koja donosi mogućnost određivanja rezolucije skeniranja i odabira kolornog ili procesiranja u nijansama sive boje. Kako bi se proces prepoznavanja poboljšao, korisnicima je na raspolaganju nekoliko trikova. Na primer, boje na ekranu mogu da se invertuju, a preko posebnih kućica dozvoljeno je tweakovati kontrast i osvetljenost, pa čak se poigrati i sa rezolucijom prikaza. Tu su i rotiranje sa korakom od jedne desetine stepena, zum opcija, kao i funkcija za automatsko prepoznavanje orijentacije stranica. Inače, Output forma ne služi isključivo kao oglasna tabla na koju se kači prepoznat tekst, već može da se iskoristi i kao minijaturni editor teksta. Tako se sadržaj može nadovezivati, odnosno ubacivati na mesta koja korisnik prethodno označi. Ovako uskladišten tekst može da se pretražuje i na kraju snimi na hard-disk kao najobičnija tekstualna datoteka (format TXT). Program pored izuzetno jednostavnog korišćenja i činjenice da je za krajnjeg korisnika potpuno besplatan, krasi i postizanje veoma dobrih rezultata na izlazu. Čak i u slučajevima kada se koristi podrazumevani engleski „rečnik” za prepoznavanje teksta ispisanog na srpskom jeziku. Naravno, ne dobijaju se uvek idealni rezultati, ali u većini situacija gImageReader sasvim korektno obavlja prepoznavanje teksta i sprema ga za dalju obradu. Kako se zapravo radi o frontendu za program Tesseract, tačnost prepoznavanja može da se poveća ubacivanjem naročitih jezičkih paketa koji se besplatno mogu preuzeti sa adrese code.google.com/p/tesseract-ocr/downloads/list. Vladimir PISODOROV | | |