Protokol ini digunakan oleh administrator situs web ketika ada bagian atau file yang mereka lebih suka tidak diakses oleh seluruh dunia. Ini bisa termasuk daftar karyawan, atau file yang mereka diedarkan secara internal. Misalnya, situs web Gedung Putih menggunakan robots.txt untuk memblokir segala pertanyaan tentang pidato oleh Wakil Presiden, esai foto Ibu Negara, dan profil dari 911 korban.
Bagaimana cara kerja protokol? Ini mencantumkan file yang tidak boleh dipindai, dan menempatkannya di direktori tingkat atas situs web. Protokol robots.txt dibuat oleh konsensus pada Juni 1994 oleh anggota milis robot ([email protected]). Tidak ada badan standar resmi atau RFC untuk protokol, sehingga sulit untuk membuat undang-undang atau mandat bahwa protokol harus diikuti. Bahkan, file tersebut diperlakukan sebagai penasihat ketat, dan tidak memiliki jaminan mutlak bahwa konten tersebut tidak akan dibaca.
Как работать с robots.txt? Просто о сложном
Akibatnya, robot.txt membutuhkan kerja sama dengan spider web dan bahkan pembaca, karena apa pun yang diunggah ke internet menjadi tersedia untuk umum. Anda tidak mengunci mereka dari halaman-halaman itu, Anda hanya membuat mereka lebih sulit untuk masuk. Tetapi sangat sedikit bagi mereka untuk mengabaikan instruksi ini. Peretas komputer juga dapat dengan mudah menembus file dan mengambil informasi. Jadi aturan praktisnya adalah jika itu sensitif, seharusnya tidak ada di situs web Anda untuk memulai.
Akan tetapi, kehati-hatian harus diambil untuk memastikan bahwa protokol Robots.txt tidak memblokir robot situs web dari area situs web lainnya. Ini secara dramatis akan memengaruhi peringkat mesin pencari Anda, karena crawler mengandalkan robot untuk menghitung kata kunci, meninjau metatag, judul, dan judul bab, dan bahkan mendaftarkan hyperlink.
Satu tanda hubung atau tanda hubung yang salah tempat dapat memiliki efek bencana. Misalnya, pola robots.txt dicocokkan dengan perbandingan substring sederhana, jadi harus berhati-hati untuk memastikan bahwa pola direktori pencocokan memiliki karakter akhir ';/'; ditambahkan: jika tidak semua file dengan nama yang dimulai dengan substring akan cocok, daripada hanya yang ada di direktori yang dimaksud.
Untuk menghindari masalah ini, pertimbangkan mengirimkan situs Anda ke simulator spider mesin pencari, juga disebut simulator mesin pencari. Simulator ini - yang dapat dibeli atau diunduh dari internet? menggunakan proses dan strategi yang sama dari mesin pencari yang berbeda dan memberi Anda? lari kering? tentang bagaimana mereka akan membaca situs Anda. Mereka akan memberi tahu Anda halaman mana yang dilewati, tautan mana yang diabaikan, dan kesalahan apa yang ditemui. Karena simulator juga akan menampilkan kembali bagaimana bot akan mengikuti hyperlink Anda, Anda akan melihat apakah protokol robot.txt Anda mengganggu kemampuan mesin pencari untuk membaca semua halaman yang diperlukan..
Penting juga untuk meninjau file robot.txt Anda, yang akan memungkinkan Anda untuk menemukan masalah dan memperbaikinya sebelum Anda mengirimkannya ke mesin pencari nyata. Bagaimana Cara Robots Txt Kadang-kadang kita peringkat baik di satu mesin untuk frasa kunci tertentu dan menganggap bahwa semua mesin pencari akan menyukai halaman kita, dan karenanya kita akan peringkat yang baik untuk frasa kunci itu pada sejumlah mesin. Sayangnya ini jarang terjadi. Semua mesin pencari utama agak berbeda, jadi apa yang membuat Anda mendapat peringkat tinggi pada satu mesin sebenarnya dapat membantu menurunkan peringkat Anda di mesin lain.
Karena alasan inilah beberapa orang suka mengoptimalkan halaman untuk setiap mesin pencari tertentu. Biasanya halaman-halaman ini hanya akan sedikit berbeda tetapi perbedaan kecil ini dapat membuat semua perbedaan ketika datang ke peringkat tinggi.
Namun karena spider mesin pencari merayapi situs-situs yang mengindeks setiap halaman yang dapat ditemukannya, spider search engine Anda mungkin mengoptimalkan halaman tertentu dan karena mereka sangat mirip, spider mungkin berpikir Anda melakukan spam dan akan melakukan salah satu dari dua hal, larangan situs sama sekali atau sangat menghukum Anda dalam bentuk peringkat yang lebih rendah.
Solusinya adalah hal ini adalah untuk menghentikan spider Mesin Pencari tertentu dari mengindeks beberapa halaman web Anda. Ini dilakukan dengan menggunakan file robots.txt yang berada di ruang web Anda.
File Robots.txt adalah bagian vital dari setiap webmaster yang bertarung melawan pemblokiran atau dihukum oleh mesin pencari jika ia mendesain halaman yang berbeda untuk mesin pencari yang berbeda..
File robots.txt hanyalah file teks sederhana seperti yang disarankan ekstensi file. Itu dibuat menggunakan editor teks sederhana seperti notepad atau WordPad, pengolah kata yang rumit seperti Microsoft Word hanya akan merusak file.
Anda dapat memasukkan kode tertentu dalam file teks ini untuk membuatnya berfungsi. Inilah yang bisa dilakukan.
Agen-Pengguna: (Nama Laba-Laba)
Disallow: (Nama File)
User-Agent adalah nama mesin pencari spider dan Disallow adalah nama file yang Anda tidak ingin spider diindeks.
Anda harus memulai kumpulan kode baru untuk setiap mesin, tetapi jika Anda ingin membuat daftar file yang dilarang, Anda dapat melakukannya di bawah yang lain. Sebagai contoh
User-Agent: Slurp (laba-laba Inktomi)
Disallow: xyz-gg.html
Disallow: xyz-al.html
Disallow: xxyyzz-gg.html
Disallow: xxyyzz-al.html
Kode di atas melarang Inktomi untuk laba-laba dua halaman dioptimalkan untuk Google (gg) dan dua halaman dioptimalkan untuk AltaVista (al). Jika Inktomi diizinkan untuk laba-laba halaman-halaman ini serta halaman-halaman yang khusus dibuat untuk Inktomi, Anda dapat mengambil risiko diblokir atau dihukum. Karenanya, selalu merupakan ide yang baik untuk menggunakan file robots.txt.
File robots.txt berada di ruang web Anda, tetapi di mana di ruang web Anda? Direktori root! Jika Anda mengunggah file ke subdirektori, file itu tidak akan berfungsi. Jika Anda ingin melarang semua mesin mengindeks file, Anda cukup menggunakan karakter :*: di mana nama mesin biasanya berada. Namun berhati-hatilah bahwa karakter :*: tidak akan berfungsi pada baris Disallow.
Berikut adalah nama-nama dari beberapa mesin besar:
Excite - ArchitextSpider
AltaVista - Skuter
Lycos - Lycos_Spider_ (T-Rex)
Google - Googlebot
Alltheweb - FAST-WebCrawler
Pastikan untuk memeriksa file sebelum mengunggahnya, karena Anda mungkin telah membuat kesalahan sederhana, yang bisa berarti halaman Anda diindeks oleh mesin yang tidak ingin Anda indekskan, atau lebih buruk lagi tidak ada halaman Anda yang diindeks..