Banyak aplikasi sebagian besar mesin pencari, merayapi situs web setiap hari untuk menemukan data terbaru.
Sebagian besar perayap web menyimpan salinan halaman yang dikunjungi sehingga mereka dapat dengan mudah mengindeksnya nanti dan sisanya merayapi halaman untuk tujuan pencarian halaman saja seperti mencari email (untuk SPAM).
bagaimana cara kerjanya?
Perayap membutuhkan titik awal yang akan berupa alamat web, URL.
Untuk menjelajah internet kami menggunakan protokol jaringan HTTP yang memungkinkan kami berbicara dengan server web dan mengunduh atau mengunggah data dari dan ke sana.
Bagaimana cara kerja Google Search?
Perayap menelusuri URL ini dan kemudian mencari hyperlink (Tag dalam bahasa HTML).
Kemudian perayap menelusuri tautan tersebut dan bergerak dengan cara yang sama.
Sampai di sini itu adalah ide dasar. Sekarang, bagaimana kita bergerak sepenuhnya tergantung pada tujuan dari perangkat lunak itu sendiri.
Jika kami hanya ingin mengambil email maka kami akan mencari teks di setiap halaman web (termasuk hyperlink) dan mencari alamat email. Ini adalah jenis perangkat lunak yang paling mudah dikembangkan.
Mesin pencari jauh lebih sulit untuk dikembangkan.
Ketika membangun mesin pencari kita perlu mengurus beberapa hal lainnya.
1. Ukuran - Beberapa situs web sangat besar dan berisi banyak direktori dan file. Mungkin menghabiskan banyak waktu memanen semua data.
2. Ubah Frekuensi - Situs web dapat berubah sangat sering bahkan beberapa kali sehari. Halaman dapat dihapus dan ditambahkan setiap hari. Kita perlu memutuskan kapan harus mengunjungi kembali setiap situs dan setiap halaman per situs.
3. Bagaimana kita memproses output HTML? Jika kita membuat mesin pencari, kita ingin memahami teks daripada memperlakukannya sebagai teks biasa. Kita harus memberi tahu perbedaan antara caption dan kalimat sederhana. Kita harus mencari teks tebal atau miring, warna font, ukuran font, paragraf dan tabel. Ini berarti kita harus mengetahui HTML dengan sangat baik dan kita perlu menguraikannya terlebih dahulu. Yang kita butuhkan untuk tugas ini adalah alat yang disebut :HTML TO XML Converters:. Satu dapat ditemukan di situs web saya. Anda dapat menemukannya di kotak sumber daya atau cukup mencarinya di situs web Noviway: www.Noviway.com.
Itu saja untuk sekarang. Saya harap Anda mempelajari sesuatu.