Visual Web Ripper 2.104.9 |
Žetelac web informacija  | Šablon u vidu linkova koje će program posetiti | Verovatno je da su čitaoci našeg časopisa istovremeno i osobe koje prate, ako već ne učestvuju u radu našeg ili nekog drugog foruma. Na forumima se može pročitati lista prisutnih posetilaca, registrovanih članova ili gostiju. Neretko se na listi nalazi i posetilac/oci pod imenom Google spajder. Radi se zapravo o automatizovanom softverskom kodu koji pretražuje i indeksira web sajtove, „harvestujući” informacije i prelazeći na nove linkove koje pronađe na stranici kako bi web pretraživač pravio mapu Interneta. Program koji opisujemo je jedna vrsta žeteoca informacija sa web stranica, i to tačno onih koje interesuju vas lično.Visual Web Ripper služi za ekstrakciju sadržaja celokupnog sajta, ne samo jedne njegove strane. Recimo da vas interesuju sve destinacije neke turističke agencije. Umesto da klikćete i pamtite svaki link sa sajta, uz pomoć Web Rippera možete izvući sve podatke sa linkova koji opisuju mesta i uslove uplate aranžmana i snimiti ih u sopstvenu bazu podataka, tabelarni fajl, CSV ili XML format. Drugi primer bio bi beleženje podataka o svim bankama u Beogradu popunjavanjem forme u žutim stranama. Program omogućava i pribavljanje podataka sa visoko dinamičkih stranica, kao što su one koje koriste AJAX, tako što će neprekidno popunjavati forme za sve moguće vrste unosa (i samim tim za vas skupiti bazu mogućih odgovora).  | Podaci prikupljeni iz aprilske rubrike „Test Drive” | Upravljanje programom obavlja se preko definisanja kalupa (šablona) i elementa sadržaja. Šablon govori programu kako da se kreće kroz web sajt (recimo, klikom na link ili na dugme forme za upis), a elementi govore koje podatke sa stranice treba da preuzme. Na taj način može se zaključiti da se poslednjem koraku u jednom račvanju kroz sajt dodeljuju samo elementi, ali ne i šablon.Prednost ovog programa svakako je u vizuelnom pristupu problemu. Pre svega, potrebno je uneti URL stranice sa koje želite izdvojiti podatke. URL ne mora biti početna strana sajta, već je najbolje krenuti, ako je to moguće, od prve koja je zajednička za sve linkove. Veliki deo prozora programa ostavljen je za prikaz unete stranice. U njemu mišem određujete delove sajta na koje će se odnositi šablon ili elementi, a koje program sam prepoznaje. Kada mislite da ste završili sa pravljenjem šablona, program se može pokrenuti u debug verziji, u kojoj ćete, korak po korak, pratiti realizovanje pravila koja ste postavili. To je dobar način da uočite moguće greške i napravite ispravke. Program je izuzetno moćan, nudi veliki broj opcija za različite tipove web sajtova i samim tim postoji i veliki broj različitih vrsta elemenata i šablona sa kojima ćete baratati. Na primer, moguće je sa nekog foruma izdvojiti podatke iz prvih sto topika i te podatke osvežavati svakih sat vremena. Takođe, moguće je podesiti da se podaci izdvajaju samo ukoliko je u topiku došlo do promene. Detaljno opisivanje i način rada programa je nešto što daleko prelazi okvire teksta i pokriva jednu relativno složenu IT oblast (pomenimo i to da program može pomoći u rešavanju captcha polja, dozvoljava programiranje skripti i slično). Ako pratite konkurenciju, beležite statistiku ili iz bilo kog razloga želite da pregledno izdvojite grupu podataka sa nekog sajta, ovo je pravi program za vas. I za jednostavnije sajtove biće potrebno neko vreme dok ne shvatite mehaniku izrade šablona, ali će vas rezultati korišćenja programa spasti beskrajnog kliktanja po linkovima, u nekim slučajevima i bez nade da na drugi način dođete do ovakvih informacija. Ognjen POPOVIĆ | | |