INTERNET
Online prevođenje
Da se razumemo
Dragan KOSOVAC
1. april 2012.

Iako danas većina mladih uči engleski u školi, strani jezici ostaju najveća prepreka pri pregledanju sadržaja na Internetu. Do pre desetak godina nepisani „zvanični jezik Interneta”, engleski, sada polaki gubi primat, pa nam njegovo poznavanje više nije dovoljno za neometenu navigaciju okenima informacija na globalnoj mreži.

Jednog dana neće biti važno na kom je jeziku napisana neka web stranica
Projekat BOLT zamišljen je kao pomoć američkim vojnicima na terenu da se sporazumeju sa lokalnim stanovništvom. Zato se sistem primarno fokusira na arapske dijalekte.

Internet danas koristi oko dve milijarde ljudi, a više od pola milijarde govori engleski, isto toliko kineski (mandarinski), a svi ostali govore drugim jezicima. Do pre nekoliko godina, skoro četiri petine sadržaja na Internetu bilo je na engleskom jeziku, a danas je taj broj tek nešto više od pedeset odsto. Svake godine se broj ljudi koji koriste Internet povećava, i to su mahom osobe koje ne govore engleski jezik. Samim tim, raste i količina sadržaja na raznim svetskim jezicima, pa je i potreba za prevođenjem sadržaja sve izraženija. Tu na scenu stupaju razni oblici prevođenja. Iako postoje grupe ljudi koje vrše sistematsko, kompjuterski asistirano prevođenje, potreba korisnika je tolika da je jedino pravo rešenje automatizovano - mašinsko prevođenje.

Istorija

Možda niste znali, ali statistika je osnovni model za automatizovano prevođenje sadržaja na Internetu. Prve korake na tom polju (automatizaciji prevođenja, a ne prevođenju Interneta) napravili su još pre četiri veka matematičari Lajbnic i Dekart, naravno samo na teorijskom nivou. Prvi pokušaji da se napravi neki uređaj koji bi mogao automatski da prevodi počeli su tridesetih godina prošlog veka, ali naučnicima je to pošlo za rukom tek 1954. godine. U okviru takozvanog Georgetown-IBM eksperimenta stvoren je uređaj koji je prevodio sa ruskog na engleski. Ovaj aparat oslanjao se na fond od samo 250 reči, kao i na činjenicu da su rečenice iz naučnog teksta, koje su prevođene tokom demonstracije, birane unapred od strane tvoraca sistema zbog jednostavnosti sintakse.

Tokom šezdesetih godina, američka vlada, nezadovoljna dotadašnjim napretkom, ukinula je finansiranje projekata za mašinsko prevođenje. Jedna od retkih kompanija koja je preživela taj period, privatno finansirani Systran, nastavio je razvoj sistema započetog na Univerzitetu Georgetown. Sledeći veliki korak desio se tek tokom osamdesetih godina, kada je porast u dostupnosti mikroračunara doveo do napretka sistema za prevođenje. Do sredine devedesetih godina kao vodeći autoriteti na polju mašinskog prevođenja statističkom metodom izdvojile su se kompanije sa najdužim iskustvom - IBM, Logos i, naravno, Systran. Na Systranovom mašinskom prevodiocu bio je zasnovan i Babel Fish, prvi široko poznati besplatni sistem za prevođenje online sadržaja, koji je zaživeo početkom 1999. godine. Četiri godine po nastanku, Babel Fish preuzela je AltaVista, a aktivan je i danas kao deo Yahooa i ostaje veoma konkurentan trenutno najpoznatijem i najčešće korišćenom alatu za online prevođenje - Google Translateu.

Sadašnjost

Sam Google Translate pokrenut je 2006. godine i inicijalno se takođe oslanjao na Systranovu tehnologiju. Kao i Babel Fish pre njega, i Google Translate je osmišljen kao besplatna alatka koji je u stanju da omogući korisnicima Interneta brzo i lako prevođenje kako nekoliko rečenica ili pasusa tako i celih dokumenata i sajtova. Problem kod stvaranja sistema za prevođenje je što svaki jezik ima veliki broj karakterističnih gramatičkih pravila, specifične izuzetke od pravila i slučajeve koji odstupaju i od izuzetaka. Zbog toga neki idiomi i fraze jednostavno moraju da se prevode kao celine ili neće imati smisla, ali to je za automatizovani sistem koji se oslanja samo na skup pravila veoma teško. Tada na scenu stupa statistički model.

Statistički sistemi prave bazu podataka za prevođenje upoređivanjem dokumenata koje su ljudi, tj. profesionalni prevodici, već preveli. To su najčešće slavne, klasične knjige svetske literature koje su prevedene na mnogo jezika. Zatim su tu naučni radovi ili dokumenti međunarodnih institucija kao što su Ujedinjene nacije. U toku poređenja sistem vrši detekciju statistički značajnih obrazaca u tekstu, na osnovu kojih se koriguje verovatnoća za tačno prevođenje reči, fraza, rečenica i pasusa.

Kada sistem dođe u kontakt sa potpuno novim tekstom, on upoređuje verovatnoće za tačno prevođenje svih ovih komponenata i generiše finalni prevod. Na taj način dobija se prevedeni tekst koji je mnogo bliži duhu ciljnog jezika nego kada bi sistem koristio samo rečnik i pravila za formiranje rečenica. Očigledan problem sa kojim se ovako dizajnirani sistem suočava je prevođenje između jezikâ sa malim brojem direktno prevedenih dokumenata na osnovu kojih bi mogao da se napravi statistički model.

Srećom, ovakvi sistemi konstantno „uče”, tačnije koriguju verovatnoću statističkog obrasca za prevođenje za svaki pojedinačni jezik. Znači, što se sistem više koristi, to je kvalitet prevoda bolji. Takođe, kada je broj dokumenata koji povezuju proizvoljna dva jezika mali, sistem inicijalno koristi treći jezik da premosti taj jaz, a kasnije, kada baza međusobnih dokumenata postane dovoljno velika, prelazi se na direktno prevođenje.

Upravo se na tu korelaciju prevoda između više jezika oslanja jedna od naprednih funkcija Google Translatea, koja korisnicima olakšava upotrebu. U pitanju je automatizovana detekcija izvornog jezika, gde uopšte ne morate da znate sa kog jezika prevodite, već pustite sistem da to sam otkrije (sa gotovo apsolutnom tačnošću). Naravno, da bi sistem mogao da prepozna jezik, on mora da se nalazi u njegovoj bazi. Pre petnaestak godina, alat za mašinsko prevođenje sa bazom od pet-šest jezika smatrao se izuzetno naprednim. Danas ovaj broj kod nekih servisa popeo na 17 i više. Ipak, našim korisnicima verovatno će najbitniji biti oni koji podržavaju srpski jezik. To su tajvanski Asia Online, dansko-norveški GramTrans i dva internacionalna servisa - WorldLingo i, naravno, Google Translate.

Budućnost

Tokom istorije, brojne tehnologije su razvijane i finansirane zbog svoje potencijalne vojne upotrebe, a čini se da je tako i sa lingvistikom. Najnoviji lingvistički program američke Agencije za napredno istraživanje odbrambenih projekata (DARPA) jeste BOLT (Broad Operational Language Translation). Cilj ovog programa je, uopšteno govoreći, da napravi robotizovani sistem za prevođenje, nešto kao preteču C-3PO-a iz „Star Warsa”. BOLT je zamišljen kao pomoć vojnicima na terenu da se sporazumeju sa lokalnim stanovništvom (zato se sistem primarno fokusira na arapske dijalekte). Ideja je da se naprave AI rutine za razumevanje smisla rečenog na startnom jeziku i koncizno „prepričavanje” sadržaja na ciljnom jeziku. BOLT bi trebalo da radi i sa glasovima i sa tekstom, a ako se sistem pokaže kao uspešan, sigurno nećemo još dugo čekati da se nešto zasnovano na njemu pojavi kod online prevodilaca.

Dok je s jedne strane vojna tehnologija, s druge je - Google. U slavnom gigantu već traže alternative za unapređivanje sopstvenog sistema, i to novim tehnologijama. Pre nekoliko meseci (SK 1/2012) pisali smo o CAPTCHA. Novi projekat profesora Luisa von Ana (Ahn), tvorca reCAPTCHA je Duolingo. Ovaj sistem kombinuje statistički model sa kraudsorsingom (crowdsourcing) - sistemom gde mnoštvo korisnika radeći nešto jednostavno doprinosi rešavanju kompleksnog problema ili obavljanju obimnog posla.

Kao što reCAPTCHA pomaže Googleu pri digitalizaciji knjiga, tako će Duolingo, kada postane aktivan, na sličan način da pomogne pri prevođenju sadržaja na Internetu. Ideja koja stoji iza Duolinga je da pruži stotinama hiljada ljudi besplatan kurs nekog stranog jezika. Dok uče strani jezik, svoje znanje testiraće prevođenjem rečenica. Neke od njih su kontrolne rečenice čiji je tačan prevod već u sistemu, ali druga grupa rečenica uzima se sa raznih sajtova koji tek treba da se prevedu. Kombinovano sa statističkim mašinskim prevođenjem radi kontrole, kako bi istovremeno na hiljade ljudi prevodilo rečenice učeći jezik, najčešći prevod bi se uzimao kao tačan.

Duolingo je započeo zatvoreno beta testiranje krajem prošle godine. Pošto se za njega prijavilo nekoliko stotina hiljada ljudi, mnogo više nego što su se nadali, novi testeri sistema dodaju se veoma postepeno. Kao što je Google Translate rastao ciklično dodavanjem novih jezika, tako će i Duolingo. Trenutno se radi na funkcionalnosti prevođenja između engleskog, španskog i nemačkog, a u drugom krugu će biti dodati i fancuski, italijanski i mandarinski kineski.

Profesor Von An smatra da je Duolingo budućnost razumevanja na Internetu, jer s jedne strane uči ljude stranim jezicima, a s druge omogućava brzo prevođenje sadržaja na Internetu od strane zasad najsavršenijeg lingvističkog sistema - ljudskog mozga.


PRETHODNI TEKST
SLEDEĆI TEKST
Najčitanije
Igre
Telefoni
Hardver
Softver
Nauka
Aktuelno štampano izdanje
MAJ 2025
Microsoft Majorana 1
Kvantna topologija
Topološki kvantni računar otporan je na uticaj kosmičkog zračenja, ali i dalje mora da se ohladi skoro do apsolutne nule...
AMD Ryzen 9 9950X3D
Jedan, da svima vlada
Ako vam je potreban najbrži procesor, i za igranje, i za ozbiljnije zadatke, Ryzen 9 9950X3D nema konkurenciju...
Gigabyte GeForce RTX 5070 Ti Aero OC 16G i GeForce RTX 5070 Ti Gaming OC 16G
I za kreativce, i za igrače
Sasvim sposoban da se nosi sa 4K rezolucijom u svim igrama i pruži sasvim pristojne performanse, dok u 1440p apsolutno blista...
Asus ROG Strix Scar 18 (G835LX)
Fantastična zver i kako je kupiti (3)
Laptop namenjen onima koji „ne žale pare” da imaju ono što je trenutno najbolje i najbrže...
Deset najboljih Microsoft PowerToys alatki
Najbolji od najboljih
PowerToys Run je alatka kojoj treba da se okrenete ukoliko vam sistemska rutina za pretragu ne odgovara...
Apple iPhone 16e
Malo muzike za mnogo para
Problem nije samo cena i slabiji grafički podsistem, već i trajanje baterije...
Cemu 2.6
Wii U emulacija
Cemu omogućava pokretanje i privođenje kraju oko 57 procenata igara „napisanih” za Wii U...
.rs: nove usluge eUprave - novi propisi - najava 5G
Mnogo eNoviteta
U novom esDnevniku roditelji će dobijati notifikacije za ocene i izostanke...
Trgovinski rat Istoka i Zapada
Velika igra, nesagledive posledice
Kao u igri „kukavice”, dve supersile kreću se velikom brzinom jedna prema drugoj, izazivajući drugu da prva skrene...
Blue Prince
Jedinstveni dijamant i jedna od najoriginalnijih igara u poslednjih nekoliko godina...
Tempest Rising
Skupa i ambiciozna fotokopija legendarnog RTS klasika Command & Conquer...
South of Midnight
Magična igra koja izgleda kao živa bajka, animirana u stilu filmskog serijala „Spiderverse”...
© 2025 Svet kompjutera. Sva prava zadrzana.
Novi broj - Arhiva - Forum - O nama