Sabtu, 03 Juni 2017

Tipe tipe web Crawler

Image result for web untuk crawler

1. Fokus Crawler

Fokus Crawler adalah Web Crawler yang mendowload halaman yang berhubungan untuk topik tertentu yang diminati. mengumpulkan dokumen yang fokus dan relevan pada topik tertentu. dari caranya berkerja sering di sebut Topik Crawler. Fokus Crawler menentukan halaman yang relevan sebelum melakukan crawling halaman web. Mengestimasi halaman yang diberikan untuk topik tertentu dan bagaimana memproses. Keuntungan utama dari Focus Crawler adalah membutuhkan hardware dan resource network yang kecil dan biaya kecil. dan juga terus melakukan cek pada lalulintas jaringan (traffic network)

2. Traditional Crawler

Tradisional Crawler secara berkala mengcrawler URL yang telah di Crawling dan mengganti dokumen lama dengan dokumen baru untuk menyegarkan koleksinya. Sebaliknya, sebuah crawler tambahan merefresh secara bertahap koleksi yang telah ada dari halaman web yang telah sering dikunjungi. hal ini berdasarkan estimasi rating (tingkat) seberapa sering sebuah halaman web itu diubah. Hal ini juga menggantikan halaman lama dan kurang penting dengan halaman baru yang lebih relevan. ini memecahkan masalah fresness of data (kesegaran data). Keuntungan dari Traditional Crawler adalah data yang disedikan hanya bernilai untuk user. menghemat bandwith jaringan dan mencapai pengayaan data. 

3. Distributed Crawler 

Teknik komputasi terdistribusi adalah fondasi utama untuk mengcrawler web yang didistribusikan. Banyak crawler bekerja pada waktu yang sama ditandem dan mendistribusikan beban kerja mengcrawler web untuk mendapatkan cakupan maksimum dari internet. Pusat server mengelola komunikasi, singkronisasi node dan berkomunikasi antara bot yang berbeda. hal ini juga secara geografis didistribusikan. hal ini juga didistribusikan secara geografis. ini terutama menggunakan Page Rank Algorithm (Algoritma Peringkat Halaman) untuk meningkatkan efisiensi dan kualitas pencarian. keuntungan dari Crawler WebTerdistribusi adalah Kokoh (Robust). hal ini tahan terhadap sistem crash dan lainnya. dan dapat diadopsi untuk berbagai kebutuhan Crawler.


4. Paralel Crawler

Paralel Crawler adalah beberapa crawler berjalan pada waktu yang sama. Hal ini terdiri dari beberapa proses crawling disebut sebagai C-Procs yang dapat berjalan pada jaringan workstation. crawler paralel tergantung pada pilihan halaman danfreshness page (kesegaran halaman). sebuah crawler paralel dapat didistribusikan di lokasi geografis jauh atau berada pada jaringan lokal. Paralelisasi sistem mengcrawler sangat penting dari sudut pandang download dokumen dalam jumlah waktu yang wajar. 








ref:http://semanticca.blogspot.co.id/2016/02/cara-crawling-data-pada-website.html

Tidak ada komentar:

Posting Komentar