Tugas M8 Web Crawlers




Fitrah Ramadhani

50420501

2IA20 




Web Crawlers

Pengertian web crawler–atau sering juga disebut spiders— adalah sebuah tool untuk mengindeks dan mengunduh konten dari internet, lalu disimpan ke dalam database mesin pencari.

Sehingga saat ada orang yang mencari suatu informasi, mesin pencari akan langsung menampilkan hasil yang relevan dari database tersebut.

Setiap mesin pencari yang ada di Internet memiliki web crawler-nya sendiri. Oleh karena itu, jika kita melakukan pencarian dengan keyword yang sama di mesin pencari lain akan menghasilkan hasil yang berbeda pula.

Beberapa web crawler lain selain Googlebot adalah sebagai berikut:

  • Bingbot dari Bing
  • Slurp Bot dari Yahoo
  • DuckDuckBot dari DuckDuckGO
  • Baiduspider dari Baidu (mesin pencari dari China)
  • Yandex Bot dari Yandex (mesin pencari dari Rusia)
  • Sogou Spider dari Sogou (mesin pencari dari China)
  • Exabot dari Exalead
  • Alexa Crawler dari Amazon


Fungsi Web Crawler

Fungsi utama dari web crawler memang mengindeks konten di internet. Namun di samping itu, ada beberapa fungsi lain yang juga tak kalah penting

1. Membandingkan Harga 

Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat. Jadi, saat kita mencari suatu produk, harga produk tersebut akan langsung muncul tanpa perlu masuk ke website penjualnya.

2. Data untuk Tools Analisis

Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.

3. Data Untuk Statistik

Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News. Untuk muncul di Google News, website memerlukan sitemap khsusus yang akan di-crawl oleh web crawler nantinya.


Selection Policy

Mengingat ukuran Web saat ini, bahkan mesin pencari besar hanya mencakup sebagian dari bagian yang tersedia untuk umum. Sebuah studi tahun 2009 menunjukkan bahkan indeks mesin pencari skala besar tidak lebih dari 40-70% dari Web yang dapat diindeks studi sebelumnya oleh Steve Lawrence dan Lee Giles menunjukkan bahwa tidak ada mesin pencari yang mengindeks lebih dari 16% Web pada tahun 1999. Karena crawler selalu mengunduh hanya sebagian kecil dari halaman Web , sangat diinginkan untuk pecahan yang diunduh untuk memuat halaman yang paling relevan dan bukan hanya sampel acak dari Web.

Ini membutuhkan metrik yang penting untuk memprioritaskan halaman Web. Pentingnya halaman adalah fungsi dari kualitas intrinsiknya , popularitasnya dalam hal tautan atau kunjungan, dan bahkan URL-nya (yang terakhir adalah kasus mesin telusur vertikal terbatas pada satu domain tingkat atas , atau mesin telusur dibatasi ke situs Web tetap). Merancang kebijakan pemilihan yang baik memiliki kesulitan tambahan: ia harus bekerja dengan sebagian informasi, karena rangkaian lengkap halaman Web tidak diketahui selama perayapan.


Revisit Policy

Web memiliki sifat yang sangat dinamis, dan crawling sebagian kecil dari Web dapat memakan waktu berminggu-minggu atau berbulan-bulan. Pada saat perayap Web menyelesaikan perayapannya, banyak peristiwa yang mungkin terjadi, termasuk pembuatan, pembaruan, dan penghapusan.

Dari sudut pandang mesin pencari, ada biaya yang terkait dengan tidak mendeteksi suatu peristiwa, dan dengan demikian memiliki salinan sumber daya yang kedaluwarsa. Fungsi biaya yang paling sering digunakan adalah kesegaran dan umur. 


Politeness Policy

Perayap dapat mengambil data lebih cepat dan lebih dalam daripada penelusur manusia, sehingga mereka dapat memiliki dampak yang melumpuhkan pada kinerja situs. Jika satu perayap melakukan beberapa permintaan per detik dan/atau mengunduh file besar, server akan kesulitan mengikuti permintaan dari beberapa perayap.

Sebagaimana dicatat oleh Koster, penggunaan perayap Web berguna untuk sejumlah tugas, tetapi ada harganya untuk masyarakat umum. Biaya penggunaan perayap Web meliputi:

1. sumber daya jaringan, karena perayap memerlukan bandwidth yang cukup besar dan beroperasi dengan tingkat paralelisme yang tinggi selama jangka waktu yang lama;

2. kelebihan server, terutama jika frekuensi akses ke server tertentu terlalu tinggi;

3. perayap yang ditulis dengan buruk, yang dapat merusak server atau perute, atau laman unduhan mana yang tidak dapat mereka tangani;

4. perayap pribadi yang, jika digunakan oleh terlalu banyak pengguna, dapat mengganggu jaringan dan server Web.

Solusi parsial untuk masalah ini adalah protokol pengecualian robot , juga dikenal sebagai protokol robots.txt yang merupakan standar bagi administrator untuk menunjukkan bagian mana dari server Web mereka yang tidak boleh diakses oleh perayap. Standar ini tidak menyertakan saran untuk interval kunjungan ke server yang sama, meskipun interval ini adalah cara paling efektif untuk menghindari kelebihan server. Baru-baru ini mesin pencari komersial seperti Google , Ask Jeeves , MSN dan Yahoo! Penelusuran dapat menggunakan parameter "Crawl-delay:" tambahan di robots.txt untuk menunjukkan jumlah detik penundaan antar permintaan.


Parallelization Policy

Perayap paralel adalah perayap yang menjalankan banyak proses secara paralel . Tujuannya adalah untuk memaksimalkan tingkat unduhan sambil meminimalkan overhead dari paralelisasi dan untuk menghindari unduhan berulang dari halaman yang sama. Untuk menghindari mengunduh halaman yang sama lebih dari sekali, sistem perayapan memerlukan kebijakan untuk menetapkan URL baru yang ditemukan selama proses perayapan, karena URL yang sama dapat ditemukan oleh dua proses perayapan yang berbeda.


Komentar