Muhammad Naufal Luthfi: Web Crawler

Crawlers

Pengertian Web Crawler
Web Crawler bisa juga disebut sebagai bot pencarian atau spider ialah program yang berfungsi menelusuri web yang ada di dunia maya dan berkunjung ke web-web tersebut atas nama search engine, hasil dari spider ini untuk menemukan link baru dan halaman baru atau website baru. Biasanya pekerjaan bot adalah mengindex dan menyimpan data di database para pemilik botnya.
Tentu saja Web Crawler ini mempunyai fungsi pula, nah disini Ada dua fungsi utama Web Crawler, yaitu :
1. Mengidentifikasikan Hyperlink.
Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.

2. Melakukan proses kunjungan/visit secara rekursif.
Dari setiap Hyperlink, web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaikan dengan keperluan aplikasi.

Arsitektur Web Crawler
Crawler diawali dengan adanya daftar URL yang akan dikunjungi (seeds). Setelah crawler mengunjungi URL tersebut, kemudian mengidentifikasi semua hyperlink dari halaman itu dan menambahkan kembali ke dalam seeds (Crawl Frontier). Setelah web crawler mengunjungi halaman-halaman web yang ditentukan di dalam seeds, maka web crawler membawa data-data yang dicari oleh user kemudian menyimpannya ke sebuah storage.

Web crawler dapat dibuat untuk mencari informasi yang berhubungan dengan topic tertentu saja. Web crawler yang hanya mengumpulkan topic tertentu saja disebut topical web crawler. Web crawler dimulai dengan sekumpulan URL, kemudian di download setiap halamannya, mendapatkan link dari setiap page yang dikunjungi kemudian mengulangi kembali proses crawling pada setiap link halaman tersebut.

Contoh dari Web Crawler
1. Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing, software ini cukup popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com/

2. HTTrack
Ditulis dengan menggunakan bahasa Pemrograman C, merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk, agar dapat dilihat secara offline. Yang menarik dari software ini free dan dapat didownload pada website resminya di http://www.httrack.com .

3. Googlebot
Web crawler untuk membangun index pencarian yang digunakan oleh search engine google. Bila website Anda ditemukan oleh orang lain melalui Google, bias jadi itu dari Googlebot.

4. Yahoo! Slurp
Ini merupakan search engine Yahoo, teknologinya dikembangkan oleh Inktomi Corporation yang diakusisi oleh Yahoo!.

5. YaCy
Berbeda dengan yang lain , YaCy dibangun atas prinsip P2P (peer-to-peer), di develop dengan java, dan didistribusikan pada beberapa ratus mesin komputer (YaCy peers). Tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy ialah Sciencenet (http://sciencenet.fzk.de ), untuk pencarian dokumen di bidang sains.

Muhammad Naufal Luthfi

website gunadarma university

Sunday, April 9, 2017

Web Crawler

No comments:

Post a Comment