Web crawler adalah suatu program atau script
otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau
“crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang
dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl
dan automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling
umum adalah yang terkait dengan search engine. Search engine menggunakan web
crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web
publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna
Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan
segera menampilkan web site yang relevan.
CONTOH WEB CRAWLER
Beberapa contoh web crawler:
1.
Teleport Pro
Salah satu software web crawler untuk keperluan
offline browsing. Software ini sudah cukup lama popular, terutama pada saat
koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan
beralamatkan di http://www.tenmax.com.
2.
HTTrack
Ditulis dengan menggunakan C, seperti juga
Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website
menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline.
Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com
3.
Googlebot
Merupakan web crawler untuk membangun index
pencarian yang digunakan oleh search engine Google. Kalau website anda
ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot.
Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses
crawling ini.
4.
Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan
Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya
dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.
5.
YaCy
Sedikit berbeda dengan web crawler lainnya di atas, YaCy dibangun atas prinsip
jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan
didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap
peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan
server central. Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de),
untuk pencarian dokumen di bidang sains.
CARA KERJA WEB CRAWLER
1. Mesin
pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web,
yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler
— browser web otomatis yang mengikuti setiap pranala yang dilihatnya. Isi
setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya,
kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta
tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk
digunakan dalam pencarian selanjutnya.
2. Mesin
pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala
yang merujuk pada file, seperti file audio, file video, gambar, foto dan
sebagainya.
3. Ketika seorang pengguna mengunjungi mesin
pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin
mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan
kriterianya.
Sumber :
Tidak ada komentar:
Posting Komentar