TEST RUN
Microsoft Speech • Apple Dictation • Google Docs Voice Typing • Speechnotes • Speechtexter • Otter • Nuance Dragon
Programi za konverziju glasa u tekst
Marko VASILJEVIĆ
1. oktobar 2022.

Piši kao što govoriš, reče Vuk Karadžić u svoje vreme, mrmljajući sebi u bradu, jer on beše taj koji je zapisivao dok su drugi govorili. Jednostavno, neko pismen je morao da zabeleži mudrosti i pesme, pa je Vuk na sebe preuzeo taj teret. „Kad bi samo bila neka mađija, da glas čovečiji u tekst se pretvori, neki „spič tu tekst”, nešto...” uzalud je priželjkivao Vuk.

Svi operativni sistemi imaju sve što je neophodno da vaše reči pretoče u tekst, ali, naravno, postoje i specijalizovani programi...

Dobro, možda i nije, ali, eto, jedan vek i po kasnije, kompjuteri su nam omogućili i takva čudesa. Zapravo, od 1887. godine i pronalaska fonografa i prvog beleženja govora, bilo je potrebno svega par decenija da se naprave prvi koraci u Speech to Text smeru, pre svega, u smislu razumevanja ljudskog govora od strane mašina. Naknadna infuzija sredstava i ljudstva u ovom pravcu, od strane vojnih organizacija (koje su nam podarile i razne druge izume), ubrzala je čitavu stvar i suštinski, već devedesetih, imali smo na raspolaganju i komercijalna rešenja za, takozvanu, kućnu upotrebu.

Danas živimo u svetu koji je digitalizovan, povezan i prilično user friendly, sa milionima uređaja koji svakodnevno melju neverovatne količine podataka. Tolika procesorska moć u našim džepovima istovremeno je zastrašujuća koliko i fantastična. Dodajte u računicu i „teške oblake”, odnosno, cloud rešenja najvećih IT kompanija i jasno je da nešto što je nekada delovalo kao vradžbina, danas je najnormalnija pojava.

Da, Vuče, danas ne bi morao da jurcaš za Višnjićevim stihovima dok guščije pero u mastilo bockaš. Uz relativno kvalitetan mikrofon, to bi bilo obavljeno automatski i u „ril-tajmu” (po Vuku). Namene ove tehnologije mogu da budu višestruke i zavise od vaših potreba. Od transkribovanja audio-zapisa, „hvatanja” beleški „u letu”, do asistencije licima kojima je takav način unosa lakši, postoji niz situacija kada je bolje osloniti se na glas. Pa, da vidimo šta nam je na raspolaganju.

Microsoft Speech

Ukoliko koristite operativni sistem iz kuhinje kompanije iz Redmonda, u verziji 10 ili 11, imamo dobre vesti. Windows ima sve što je neophodno da vaše reči pretoči u tekst. Funkciju pozivate kombinacijom tastera ‘Win-H’, nakon čega će vas dočekati nenametljiv pop-up prozor preko koga aktivirate mikrofon.

Nakon toga, gde god bi, inače, bio kursor za unos teksta, sve što izgovorite biće pretvoreno u odgovarajući tekst. Nažalost, prepoznavanje će raditi kako je očekivano samo u slučajevima kada koristite jezik koji je podržan. Engleski će raditi savršeno, čak i u slučajevima kada vam izgovor nije najbolji. Dakle, nije neophodna diploma sa Oksforda, biće dovoljan i dvonedeljni kurs kod Mike Tarzana. Bez šale, iznenadilo nas je u kojoj meri algoritmi imaju toleranciju prema izgovorenom sadržaju.

Dodatni plus je i prepoznavanje reči kojima uredno možete da uređujete tekst koji izgovorite. Ukoliko pogrešite neki izraz ili frazu ili se, pak, desi redak slučaj da vas sistem nije razumeo, bez intervencije korišćenjem miša i tastature možete da obrišete grešku i nastavite dalje. Takođe, moguće je unositi znakove interpunkcije, nove redove, markirati reči, nizove ili pasuse i sve ostalo što je neophodno za neometan rad.

Na, generalno, izuzetno visoku preciznost nije presudno uticao kvalitet mikrofona. Naime, iako pri ruci nismo imali hardver koji je specijalizovan za diktiranje, već smo se oslanjali na ono što će biti dostupno većini korisnika - headset sa mikrofonom i klasični standalone mikrofon za kancelarijsku upotrebu, retko se dešavalo da sistem izgovoreno interpretira pogrešno. Doduše, algoritmi vremenom uče specifičan izgovor i u određenoj meri vam se prilagođavaju, te postoji velika šansa da posle dužeg perioda korišćenja preciznost bude još veća.

Sve u svemu, u pitanju je veoma upotrebljivo rešenje, koje je već dostupno u okvira samog OS-a; besplatno je, efikasno i prilično udobno za rad. Mana je u tome što u Windowsu 10 ne postoji podrška za jezike balkanskog regiona. Osim engleskog, u svim mogućim aromama, podržan je još kineski i nekoliko jezika EU regiona. Ostali korisnici moraće da sačekaju dok Microsoft ne pogleda i njih. U verziji za Windows 11 stvari su nešto bolje - srpskog jezika nema, ali je tu hrvatski. Druga potencijalna mana je činjenica da uređaj na kome diktirate mora da bude povezan sa internetom, jer prepoznavanja glasa se oslanja na tehnologije koje se izvršavaju „u oblacima”.

Apple Dictation

Imate urođenu averziju prema Microsoftu ili, jednostavno, smatrate da nema boljeg proizvoda od Jabuke? Gajite posebna osećanja prema precizno obrađenom aluminijumu, bežičnim periferijama i stabilnosti macOS-a? Sve je OK, jer ni u tom slučaju niste osuđeni na third-party rešenja, pošto mogućnost diktiranja postoji i na ovoj platformi. Većina Appleovih mašina ima ugrađen mikrofon, te ne postoje nikakve prepreke da svoj glas pretočite u tekstualnu formu. Dovoljno je da u podešavanjima tastature aktivirate opciju diktiranja i nakon toga je pozivate prečicom - dva pritiska na taster ‘Fn’.

Slično Windowsu, i ovde „iskače” nenametljivi pop-up prozor, preko kog možete da pokrenete ili zaustavite diktiranje, kao i da podesite jezik koji želite da koristite. Apple je u ovom slučaju nešto izdašniji. Srpskog jezika nema, ali postoji podrška za komšije iz Hrvatske. Jasno vam je da to u našem slučaju, zapravo, veoma upotrebljivo.

Veliki plus ovom rešenju jeste mogućnost da označite funkciju Use enhanced dictation, što će inicirati preuzimanje paketa koji će omogućiti da diktiranje radi i u offline režimu. Naravno, eliminisanje konstante veze sa serverima znači i življi rad u lokalu, čak i kada imate urednu vezu sa svetom. Svaki jezik koji planirate da koristite morate posebno da preuzmete, ali to ujedno znači da nećete biti zatrpani gigabajtima podataka koje ne planirate da koristite.

Mogućnost korišćenja glasa za unos interpunkcije, formatiranje teksta, pa i pozivanje specijalnih karaktera, obavlja se najnormalnije. U sprezi sa Voice controlom, koji ne morate da pozivate posebno, zapravo, možete da obavljate i prateće radnje. Standardno za Apple, stvari rade onako kako je zamišljeno. Postoje i ovde situacije kada će neka reč biti prepoznata nepravilno, ali to pripisujemo izgovoru našeg testera. Da budemo dodatno fer, koristili smo iste mikrofone kao i na PC-u i nismo primetili neke posebne razlike u tom smislu. Obe platforme prilično su tolerantne, pouzdane i udobne.

Mobilne platforme

Da budemo iskreni, od kompjutera nismo ni očekivali ništa manje nego što su nam pružili, pa smo fokus usmerili na mobilne platforme. Oba pomenuta desktop OS-a imaju ugrađena rešenja, a šta je sa malim „prenosnicima”? Pa, ni oni nisu zaboravljeni, ako ne iz nekog drugog razloga, onda zbog činjenice da mogu da se oslone na iste algoritme koji obavljaju posao za desktop segment. Ovde izuzimamo Microsoft koji je uspešno zapustio i gurnuo u zaborav platformu Windows Phone, koju su neki od nas rado koristili.

Za to vreme, Apple donosi podršku za iOS, a u praksi sve radi jednako kvalitetno kao i na „velikim” platformama. Nije potrebno žonglirati aplikacijama, jer se funkcionalnost nalazi u samoj tastaturi i poziva se preko tastera sa ikonicom mikrofona.

Iz bilo koje aplikacije ili na bilo kom polju za tekstualni unos, dovoljno je pozvati funkciju sa tastature i sve je spremno za korišćenje. Takođe, iOS nudi mogućnost offline obrade glasa u tekst, uz žrtvovanja nešto skladišnog prostora, ali je ta udobnost podržana isključivo na uređajima od iPhone 6s generacije, pa nadalje, kao i na iPadima odgovarajućih generacija. Rezultati u praksi veoma su dobri i ukoliko vam je potrebno da „u hodu” pohvatate beleške, neki dobar refren za pesmu i slično, ne morate da tražite dalje po App Storeu.

Skoro sve prethodno rečeno važi i za Google i njegov Android. Postoji i mogućnost offline podrške, koju, doduše, morate ručno da podesite u opcijama preuzimanjem odgovarajućeg paketa. Na uređaju na kom smo mi testirali ovu opciju (Samsung Galaxy Z Flip3) nije bilo srpskog jezika. Istovremeno, servis koji se oslanja na online obradu funkcioniše besprekorno. Ogromna baza dostupnih jezika, veoma odzivna i brza obrada, izuzetno precizno pisanje reči izgovorenih na srpskom - milina. Takođe, ukoliko na podrazumevano instaliranoj tastaturi ne nalazite taster sa ikonicom mikrofona, možete besplatno da preuzmete Gboard (i.sk.rs/358700), koji će zameniti „fabričko” Googleovim rešenjem.

Odmah nam je palo na pamet da je to isti servis koji je prisutan i na brojnim Android TV box uređajima, među kojima su i oni kod jednog našeg kablovskog operatera i da smo svi imali prilike da se poigramo sa tasterom na daljinskom upravljaču koji nam dozvoljava da određene pretrage i ostale „upite” izgovorimo, što je u slučaju TV uređaja veoma zgodna mogućnost. Tom prilikom smo, takođe, bili prijatno iznenađeni preciznošću i, generalno, upotrebljivom tehnologijom. Međutim, nije nam baš padalo na pamet da čitav tekst ili makar pasuse zabeležimo na ovakav način. Tehnički, tako nešto možete da pokušate bez bojazni da će rezultati biti bedni. Neće biti ni savršeni, posebno ako je nivo ambijentalne buke prisutan u dovoljnoj meri, ali biće sasvim upotrebljivi. Realno, lakše je izmeniti par reči, nego prekucavati desetine minuta.

Google Docs Voice Typing

Google Docs postoji dovoljno dugo da smo svi imali prilike da ga aktivno koristimo u nekoj meri. Iako možda nije robustan kao neka Microsoftova rešenja, nudi sasvim dovoljno za ono što je potrebno većini korisnika. Jedna od interesantnih funkcija je i izvorna mogućnost unosa teksta glasom, a nju pozivate iz menija Tools - Voice Typing, nakon čega će vas dočekati mali pop-up iz kog definišete jezik na kom ćete uneti tekst.

Kao što smo pomenuli, Google nudi podršku za izuzetno mnogo jezika i srpski je sasvim upotrebljiv, ali uz određene nedostatke. Naime, dok je engleski potpuno upotrebljiv i to sa znakovima interpunkcije i dosta drugih komandi koje možete da unesete glasom, za naš jezik to nije moguće. Algoritam će prepoznati sve što izgovorite sa velikom preciznošću, međutim, kada ovo rešenje primarno koristite za unos kompleksnijih i dužih tekstova, počećete da primećujete određene probleme. I dalje je proces veoma tačan, rekli bismo preko 90 procenata (ako ne i više), ali poneka fraza ili reč će ostati bez slova ili dva, dok će neke reči biti prepoznate kao neke druge (koje, doduše, zvuče jako slično). Sve to, uz intervenciju sa strane, može da se sredi, ali ostaje problem zbog toga što se rečenice nadovezuju jedna na drugu: bez tačaka, zareza i novih redova. U tom smislu, rad prestaje da bude dovoljno udoban za neku ozbiljniju primenu i duže sesije. Ukoliko ubacite poneku englesku reč, algoritam će prepoznati i njih i pravilno ih uneti, bez potrebe da menjate jezik unosa.

Naravno, sve prednosti Google Docsa koje važe za njegovo uobičajeno korišćenje važe i za sadržaje koje ste zabeležili glasom. To znači da će on biti dostupan u cloudu, na svim uređajima na koje ste ulogovani svojim nalogom. To ujedno znači i da je Googleov pulen zgodniji od nekih rešenja koja možete pronaći u okviru posebnih aplikacija. Nije savršen, ali je lepo to što imamo i takvu, out of the box mogućnost uz još jedno ograničenje - sve radi isključivo iz internet browsera Chrome.

Speechnotes i Speechtexter

Zanimalo nas je da vidimo kakva su rešenja van sistema velikih IT kompanija. Speechnotes (speechnotes.co) i Speechtexter (www.speechtexter.com), donekle, spadaju u tu kategoriju, jer se, ipak, oslanjaju na Google. No, na svu sreću, to ne znači da je neophodan Google Chrome da bi sve funkcionisalo kako je zamišljeno.

Dakle, u pitanju su veb-aplikacije koje dele preciznost beleženja koju smo videli kod Docsa. Za razliku od njega, ne nude napredno formatiranje, te se nameću kao rešenja pogodnija za „hvatanje” beleški, ne i za nešto zahtevnije od toga. Ipak, nude i mogućnost baratanja komandama koje pozivate iz liste u okviru same aplikacije. Odnosno, u slučaju engleskog jezika, dovoljno je samo da ih izgovorite. U slučaju našeg, Speechnotes je ograničen na pozivanja specijalnih karaktera ručno, klikom na stavku ponuđenu u okviru liste.

S druge strane, Speechtexter nas je obradovao podrškom za srpski jezik. Zapravo, u pitanju je automatska funkcija Find & Replace, koja određene fraze neće unositi kao tekst, već će ih odmah pretvoriti u željeni znak interpunkcije ili šta god želite. Prednost Speechtextera je u tome što možete da definišete fraze koje mogu da pozivaju čitave blokove teksta, sa ili bez interpunkcije, te da drastično ubrzate unos pojmova koje, možda, koristite veoma često, bez potrebe da ih izgovorite do kraja. Na pamet nam pada, na primer, naziv organizacije, proizvoda i tome slično.

Speechnotes nudi i verziju u obliku dodatka za Chrome, tako da možete da ga pozivate i bez odlaska na veb-stranicu projekta. Čak i u osnovnoj verziji, ovo rešenje omogućava brzo hvatanje beleški na jeziku koji vam odgovara. Uz nešto investiranog novca, servis možete da koristite i za transkribovanje audio i video-fajlova koje pošaljete na obradu, YouTube video-snimaka i svega ostalog što vam je potrebno da se „pretvori” iz zvuka u tekst.

Otter

Srećom, postoje i aplikacije koje ne forsiraju Googleov API i donose twist čitavoj priči. Konkretno, Otter (otter.ai) je zgodno rešenje za organizovanje sastanaka timova i vođenje zapisnika. Radi u internet browseru i uredno prepoznaje voice input uređaj i govornika „hvata” i „prebacuje” u tekstualni oblik, u paru sa beleškom vremena kada su izrečene važne poslovne stvari.

Funkcionalnost proširuju mogućnosti koje spadaju u domen organizovanja, te se ovom prilikom nećemo baviti time. Ostaje žal za time što kako smo pobegli od Googlea, tako smo odmah izgubili podršku i za srpski jezik, te ovo zgodno i prilično precizno rešenje ima smisla koristiti samo u slučaju da vam engleski zadovoljava potrebe. Autori su se svojski potrudili da barem akcenti budu rešeni kako valja, tako da je podrška u tom smislu izuzetna. Servis uredno „hvata” nepravilan izgovor, bez obzira na kontinent sa kog potiče.

Nuance Dragon

Na kraju, moramo da pomenemo pravog „teškaša” u oblasti Speech to Text konverzije - Nuance Dragon (www.nuance.com/dragon.html), koji dolazi u raznim aromama. Konkretno, u edicijama posebno prilagođenim za potrebe medicine, policije, pravosuđa, kao i poslovnu upotrebu. U pitanju je rešenje sa izuzetnim pedigreom i dugom tradicijom.

Imali smo priliku da se upoznamo sa Professional edicijom. Nenametljivi bar na vrhu ekrana nudi nekoliko osnovnih funkcija i nakon aktiviranja mikrofona prepustiće vam unos teksta putem glasa. Ovo uključuje i prepoznavanje komandi, tako da možete uredno da unosite i znakove interpunkcije, lomite redove, selektujete, uređujete i tako dalje. Strahovito je brz i precizan. Ali, naravno, našeg jezika nema ni u tragovima.

Ovo je, takođe, i jedno od najskupljih rešenja na koja smo naišli, rekli bismo - sa razlogom. Prilikom odabira edicije, u određenim regionima, u paketima se nude i hardverska rešenja, tako da se garantuju najbolji mogući rezultati. Pomalo nas je iznenadilo to što podrška za jezike nije veća, s obzirom na to da Nuance razvija engine za prepoznavanje govora u sprezi sa AI rutinama za automatsku interakciju voice automata sa korisnicima. U okviru tog enginea postoji podrška i za srpski jezik, pa se nadamo da će ona u nekom trenutku možda doći i u okviru ostalih desktop edicija.

Dragon ne zahteva aktivnu internet konekciju, što je svakako pohvalno, a postoji i verzija za mobilne uređaje. Ukoliko vam je potrebno rešenje za engleski, italijanski, španski, francuski, danski... verovatno nema boljeg takmaca.

Halo, da li se čitamo?

Iako čitava tehnologija deluje izazovno i uzbudljivo, rezultati još uvek variraju. Ruku na srce, u slučaju stranih jezika i ne toliko, pa može da se kaže da Speech to Text tehnologija funkcioniše odlično i ne predstavlja nikakvu novost.

U slučaju domaćih potreba, ne možemo da se otmemo utisku da je, za sada, Google najbliži onome što priželjkujemo, a i jedini nas zvanično ima na listi. Verovatno nije ni čudo, s obzirom na to koliko nas svakodnevno „sluša”, da ne kažemo prisluškuje. Još da sredi glasovne komande i bićemo na konju. To će odškrinuti vrata još dubljoj integraciji naših svakodnevnih navika i modernih tehnologija.

Google Home, Amazon Alexa, Siri... sve je to fino, ali je pomalo čudno kada vas čuju kako pokušavate da, na „tečnom” engleskom jeziku, neki smart uređaj naterate da uradi nešto što ste, realno, mogli da rešite i na tradicionalni način. Prostora za Speech to Text ima i u znatnoj meri može da unapredi kvalitet života u određenim profesijama, a na nama je da, za sada, budemo još malo strpljivi.

Inače, dolepotpisani autor imao je nameru da čitav tekst zabeleži glasom. Odustao je vrlo brzo, jer ga je čitav proces dekoncentrisao čudnim stvaralačkim ritmom na koji nije navikao. Klik mehaničke tastature je kod nekih korisnika još uvek nezamenjiv. Verujemo da će mlađe generacije koje sve ređe „tekstuju” i radije šibaju glasovne poruke preko Vibera, Whatsappa i ostalih messaging platformi, jednog dana daleko lakše prihvatiti i Speech to Text.


PRETHODNI TEKST
SLEDEĆI TEKST
Najčitanije
Igre
Telefoni
Hardver
Softver
Nauka
Aktuelno štampano izdanje
DECEMBAR 2022
Asus ROG Strix GeForce RTX 4080 Gaming OC Edition
Brži, jači, bolji... puta dva
Ne postoji igra koja će ovu karticu uspeti da namuči, jer će frejmrejt uvek biti viši od 60 u sekundi, a neretko i trocifren, čak i uz intenzivan...
Intel Core i9-13900K i Gigabyte Z790 Aero G
Baksuzna trinaestica
U odnosu na model Core i7-13700K koji smo opisali u prošlom broju, ovaj i9 je unapređen na polju ekonomičnih jezgara...
AMD Ryzen 9 7900X i ASRock X670E Taichi
Spreman za sve izazove
Iako su nas novi Ryzen procesori modeli oduševili u svakom zadatku koji smo pred njih postavili, čini se da će modele 7600X i 7700X najviše želet...
Asus ROG Flow X16 (GV601RW)
Može, sve može
Najnoviji član ROG Flow serije, model X16, obuhvata SVE što ste ikada očekivali od laptopa...
Nasilje na internetu
Digitalizacija nasilja
Nasilje je danas kroz interaktivnost i dostupnost svega „na klik” postalo komercijalizovano i eksploatisano više nego ikada...
Tone Transfer • Magenta Studio • LALAL.AI • Uberduck • Amadeus Topline 5.2 • AIVA 2.0.49
„ Muziciranje ” uz pomoć veštačke inteligencije
Navikli smo na mašine koje brzo sabiraju i oduzimaju sumanuto velike cifre, ali da mašina „slika” i „muzicira” - to već deluje fascinantno,...
Razgradiva elektronika
Prijatelj prirode
Razvoj (biološki) razgradive elektronike polako napreduje, obećavajući bolju budućnost...
Xiaomi 12T Pro
Umetnost kompromisa
Srce kamere je Samsungov senzor od 200 megapiksela...
Elecrow ESP32-S3 DevKit IPS Display
Tamo zvuk, ’vamo slika
U online prodavnici Elecrow može se naići na dosta zanimljivih razvojnih ploča, senzora i raznih zanimljivih rešenja. Za oko nam je zapala ova raz...
God of War Ragnarök
Akciona komponenta igre je nedvosmisleno bolja, jer je broj opcija koje imate na raspolaganju veći...
Mount & Blade II: Bannerlord
Najbolja stvar u vezi sa igrom jeste njen spektakularni borbeni modul...
Call of Duty: Warzone 2.0
WZ 2.0 pozajmljuje od konkurencije bez imalo stida; novi, odlični, DMZ režim je CoD verzija „Tarkova”...
© 2022 Svet kompjutera. Sva prava zadrzana.
Novi broj - Arhiva - Forum - O nama