Selasa, 31 Mei 2016

FUNGSI CRAWLER

Crawler bertugas untuk mengindeks, membuat rangking, menyusun dan menata halaman dalam bentuk indeks terstruktur agar bisa dicari dalam waktu yang sangat cepat. Obyek dari crawler adalah isi halaman, file, folder dan direktori web.
Sedangkan subyek dari robots.txt adalah mesin pencari/search engine crawler. Crawler ini penting dipahami untuk SEO. Crawler akan berhadapan dengan robotsg.txt yang akan memandu mesin pencari/search engine seperti google, yahoo dan bing untuk mengindeks sebuat blog atau website.
Sehingga crawler akan tahu mana halaman, folder atau file yang boleh diindeks atau tidak. Semakin lengkap sebuah panduan dalam robots.txt akan lebih baik. Dengan demikian robot crawler akan dengan cepat mengindeks isi website. Kebanyakan halaman situs berisi link ke halaman lain.
Sebuah spider dapat memulai dari manapun. Apabila ia melihat sebuah link kepada halaman lain, maka ia akan segera menuju ke sana dan mengambilnya. Search engine seperti Alta vista mempunyai banyak spider yang bekerja secara pararel.
Sangat direkomendasikan untuk tidak menggunakan javascript pada menu utama. Gunakanlah tag noscript. Hal ini dikarenakan javascript tidak bisa diambil oleh spider untuk search engine. Dan semua link yang mengandung javascript akan ditolak sebagai halaman teks.

Fungsi Web Crawler / Web Spider
1. Web crawler biasa digunakan untuk membuat salinan sebahagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat diproses lebih lanjut oleh system pengindeksan.
2. Web crawler dapat digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web.
3. Web crawler juga digunakan untuk memperoleh data yang khusus, seperti mengumpulkan alamat email.

Sumber


Tidak ada komentar:

Posting Komentar