Programi za OCR (Optical Character Recognition - optičko prepoznavanje znakova) prisutni su na kompjuterskoj sceni gotovo od pojave prvih skenera. Mogućnost da stranicu odštampanog teksta skeniranjem vratite u tekstualni oblik oduvek je predstavljala pravo bogatstvo. Međutim do skora preciznost prepoznavanja slova bila prilično loša, pa je vreme potrebno da se ovako dobijen tekst ispravi često bilo veće nego prepustiti prekucavanje veštom daktilografu. Pre nekoliko godina na tržištu se pojavila prva verzija programa Fine Reader, a verzija 4.0 napravila je pravi bum - preciznost prepoznavanja bila je neverovatna, a program se bez problema snalazio i sa tabelama. Njegova pojava objašnjena je i pričama koje liče na urbane legende - „Abbyy” je ruska firma pa je Internetom prostrujala priča da je razvoj Fine Readera rađen za potrebe KGB-a. Bez upuštanja u istinitost ovakvih navoda, činjenica je da program radi gotovo savršeno, a da je danas pred nama njegova verzija 5.0Pretvaranje slike u tekst razvijeno za potrebe špijunaže? Proces prepoznavanja može se vršiti na više načina, ali svakako najjednostavniji je korišćenjem popularnog Wizard sistema. Pritiskanjem dugmeta Scan&Read otvoriće se dijalog koji vas obaveštava da je prilikom skeniranja potrebno koristiti rezoluciju od 300 tačaka po inču u svim nijansama. Nakon ovog prozora otvoriće se standardni TWAIN prozor vašeg skenera u kome je potrebno da podesite tražene parametre i izvršite proces skeniranja. Čim se ono završi, TWAIN prozor će se zatvoriti, i pojavljuje se novi dijalog Fine Readera. U njemu je potrebno odabrati jezik na kome je pisan dokument. Iz padajuće liste moguće je odabrati i srpski (za ćirilične stranice) i hrvatski (za latinične), kao i gotovo sve ostale poznate jezike. Pritisak na dugme Next pokrenuće proces automatskog obeležavanja skenirane stranice blokovima kojima program ukazuje da li se na određenom delu dokumenta nalazi tekst ili slika i, ako je reč o tekstu, kojim redom će se vršiti prepoznavanje, što je posebno značajno za dokumente koji imaju više kolona, naslova i podnaslova ili antrfilea. Po završenom obeležavanju blokova, sledi prepoznavanje. U levom delu ekrana nalazi se bitmapirani dokument, dok desni deo prikazuje prepoznati tekst. Kretanjem po bitmapi pomera se i desni prozor. Program će upitati da li je prepoznavanje izvršeno sa malo grešaka ili nije uspelo. Ako izaberete prvu opciju biće vam ponuđeno da greške ispravljate „na licu mesta” ili da ispravke vršite u nekom drugom programu nakon snimanja sadržaja. Ponuđene opcije za prebacivanje materijala u Word, Excel, e-mail i Web browser, ili njegovo snimanje u nekom od standardnih tekstualnih oblika (RTF i slično). Najveće iznenađenje za nas usledilo je odabirom opcije za prenos sadržaja u Word. Po njegovom otvaranju ono što se moglo videti u Wordovom prozoru bilo je istovetno originalom dokumentu čak i po formi - raspored kolona, tekstova u okviru, slika, pa je čak i sličnost fontova gotovo neverovatna. Fine Reader može da se podesi i tako da ne prenosi formu, već da samo „goli” tekst skenira, a da slike i formatiranje zanemari. Drugo veliko iznenađenje bila je preciznost prepoznavanja. Ako se radilo o tekstu štampanom na kvalitetnijem papiru (knjige, časopisi), broj slovnih grešaka po strani bio je manji od pet. Prilikom skeniranja tekstova iz novina (Politika) broj grešaka je rastao, ali treba imati u vidu da je reč o roto-papiru, i veoma sitnim slovima. Međutim, čak i tada se radilo o pogrešnom prepoznavanju jednog slova na svakih par rečenica. Naravno, Fine Reader može da se koristi i bez automatike, kada je proces nešto složeniji. Nakon dobijanja skenirane stranice na ekranu je potrebno ručno obeležiti blokove teksta i slika, kao i zone koje ne želite da budu prepoznate ili skenirane (slike). Prilikom obeležavanja blokova potrebno je voditi računa o njihovom redosledu, jer od njega zavisi „tok” dobijenog teksta. Velika preciznost u radu, lakoća rukovanja i prihvatljiva cena stavljaju Fine Reader na prvo mesto programa ove vrste u svetu. Za zahtevnije korisnike koji na jednostavan način žele da prepoznat materijal pohranjuju u bazama postoji i Office verzija programa koja je nešto skuplja. |