![]() | ![]() |
![]() |
| ![]() |
| ||||||||||||||
Optičko prepoznavanje teksta jednim klikom miša
Ono na šta najpre treba obratiti pažnju jeste da postoje dve verzije FineReadera. Prva je namenjena tržištu Evropske unije i prepoznaje „samo” latinično i grčko pismo, dok je druga predviđena za ostatak sveta i pored navedenih pisama, sadrži još i ćirilicu. Koliko su ozbiljno zaposleni u ruskoj firmi „Abbyy” shvatili svoj posao govori i podatak da FineReader u tzv. Cyrillic Plus verziji raspoznaje čak 177 jezika. Među ponuđenim jezicima su i veštački jezici, razni programski jezici, osnovne hemijske formule, a može se definisati i proizvoljan jezik kombinacijom postojećih. Od toga je 28 jezika direktno podržano, što znači da za njih postoji i rečnik za proveru pravopisa. Nažalost, među njima nije i naš jezik, ali je za utehu što postoji hrvatski koji se lako može iskoristiti i dopuniti. Za nas je posebno interesantna i mogućnost višejezičnog prepoznavanja, koja se može upotrebiti za prepoznavanje kombinovanog ćirilično-latiničnog teksta. Izgled programa i korisnički interfejs nisu se menjali. Ceo postupak prepoznavanja teksta vrlo je jednostavan i svodi se na četiri osnovna koraka: skeniranje, prepoznavanje teksta, provera pravopisa i snimanje u jednom od ponuđenih formata (PDF, HTML, Word, Excel, DBF i TXT). Ako već imate skenirane slike, ceo postupak možete i automatizovati u takozvanom batch modu, a prepoznavanje jedne strane obično ne traje duže od minuta. Tačnost prepoznavanja je i ranije bila odlična, a sada je još više poboljšana, naročito kod lošije skeniranih tekstova. Probleme koji obično nastaju kod OCR programa, kao što su spojena slova ili nedostatak delova slova, novi algoritam FineReadera veoma uspešno rešava. On poseduje tzv. IPA (Integral Purposeful Adaptive) opažanje, tj. svojevrsnu veštačku inteligenciju pomoću koje može da upoređuje delove slova i raščlanjuje ih na osnovne oblike (krug, luk, tačka..), posmatrajući ih na taj način kao što to čini čovek, a zatim da se u zavisnosti od postignute preciznosti sam prilagođava tekstu. Rezultat toga je vrlo visok procenat prepoznavanja slova, čak i kod deformisanog ili iskošenog teksta. Po završenom „čitanju” teksta program će sam označiti slova za koja nije potpuno siguran ili se ne nalaze u rečniku, tako da se lako mogu ispraviti. Doduše, ponekad se dešava i da se pogrešno slovo protumači kao ispravno, ali je generalno procenat grešaka vrlo mali, čak i na stranicama skeniranim ispod 300 dpi (pod uslovom da font nije preterano sitan). Kao ilustracija toga poslužiće test koji smo izvršili na jednoj uobičajenoj ćiriličnoj strani iz „Politike”. Od ukupno 8813 karaktera koliko je bilo na strani, kao „sumnjivo” je bilo obeleženo 56, ali je stvarno netačnih slova bilo svega tri. FineReader će se pri tom svojski potruditi da pročitani tekst bude što približniji originalu, pa će tako pokušati da odredi i font i stil teksta. Raspoznaju se skoro svi tipovi slova koji se IPA percepcijom mogu klasifikovati kao jedan od tri osnovna (Serif, Sans Serif i Monospaced) i to kurziv, bold (crna) i podvučena slova. Kada FineReader naiđe na ukrasne fontove počinje da greši, u zavisnosti od toga kolika su odstupanja od standardnog oblika, ali u tada stupa na scenu trening mod, u kojem ga možete naučiti kako slova izgledaju. Međutim, taj proces dosta traje, pa to jedino ima smisla kad imate mnogo istog teksta, kao npr. knjiga i slično. Sve ovo odnosi se na standardne tekstove. Kada je tekst u boji ili kada se ispod njega nalazi slika FineReader se još uvek ne snalazi najbolje. Mada će pokušati da prepozna tekst i sa slike, tu ima dosta poteškoća. Dosta grešaka javlja se i kod određivanja tipa slova (bold, kurziv..), kao i veličine, pa se, recimo, događa da slova prelaze izvan okvira teksta. Ipak, to se lako da ispraviti, pa se uz minimalne intervencije može dobiti izgled strane koji veoma liči na original. Sve u svemu, „prekucavanje” tekstova nikad nije bilo lakše. Komplikovane i bogato ilustrovane stranice ipak će morati da sačekaju neki savršeniji oblik veštačke inteligencije, ali i ovako FineReader će vam u većini slučajeva uspešno pomoći da svoja dokumenta prebacite u elektronski oblik. Probnu verziju možete skinuti sa www. Dejan STEPANOVIĆ |
| ||||||||||||||||
![]()
|
![]() | |
![]() | ![]() |
Home / Novi broj | Arhiva • Opšte teme | Internet | Test drive | Test run | PD kutak | CeDeteka | WWW vodič • Svet igara Svet kompjutera Copyright © 1984-2018. Politika a.d. • Redakcija | Kontakt | Saradnja | Oglasi | Pretplata • Help • English | |
SKWeb 3.22 |