Enjin carian dilengkapi dengan robot, juga dikenali sebagai labah-labah atau bot, yang merangkak dan mengindeks laman web. Sekiranya laman web atau halaman anda dalam pembangunan atau mengandungi kandungan sensitif, anda mungkin ingin menyekat bot agar tidak merangkak dan mengindeks laman web anda. Pelajari cara menyekat keseluruhan laman web, halaman, dan pautan dengan fail robots.txt dan menyekat halaman dan pautan tertentu dengan tag html. Baca terus untuk mengetahui cara menyekat bot tertentu daripada mengakses kandungan anda.
Langkah-langkah
Kaedah 1 dari 2: Menyekat Mesin Pencari dengan Fail robots.txt
Langkah 1. Fahami fail robots.txt
Fail robots.txt adalah fail teks biasa atau ASCII yang memaklumkan laba-laba mesin carian apa yang mereka boleh akses di laman web anda. Fail dan folder yang disenaraikan dalam fail robots.txt mungkin tidak dirayapi dan diindeks oleh labah-labah mesin pencari. Anda mungkin memerlukan fail robots.txt jika:
- Anda mahu menyekat kandungan tertentu dari labah-labah enjin carian.
- Anda sedang membangunkan laman web langsung dan tidak bersedia untuk melakukan carian dan laba-laba laba-laba mesin pencari
- Anda mahu menghadkan akses ke bot yang mempunyai reputasi baik.
Langkah 2. Buat dan simpan dan fail robots.txt
Untuk membuat fail, lancarkan editor teks biasa atau editor kod. Simpan fail sebagai: robots.txt. Nama fail mestilah semua huruf kecil.
- Jangan lupa "s."
- Apabila anda menyimpan fail, pilih ekstensi "'.txt"'. Sekiranya anda menggunakan Word, pilih pilihan "Teks Biasa".
Langkah 3. Tulis fail robots.txt yang tidak dibenarkan sepenuhnya
Adalah mungkin untuk menyekat setiap labah-labah mesin pencari yang bereputasi daripada merangkak dan mengindeks laman web anda dengan robots.txt "tidak dibenarkan sepenuhnya". Tulis baris berikut dalam fail teks anda:
Ejen pengguna: * Tidak dibenarkan: /
Langkah 4. Tulis fail robots.txt bersyarat
Daripada menyekat semua bot, pertimbangkan untuk menyekat laba-laba tertentu dari kawasan tertentu di laman web anda. Perintah membenarkan bersyarat yang biasa termasuk:
- Sekat bot tertentu: ganti tanda bintang di sebelahnya Ejen pengguna dengan googlebot, googlebot-berita, googlebot-gambar, bingbot, atau teoma.
-
Sekat direktori dan kandungannya:
Ejen pengguna: * Tidak dibenarkan: / sample-direktori /
-
Sekat laman web:
Ejen pengguna: * Tidak dibenarkan: /private_file.html
-
Sekat gambar:
Ejen pengguna: googlebot-image Larang: /images_mypicture.jpg
-
Sekat semua gambar:
Ejen pengguna: googlebot-image Larang: /
-
Sekat format fail tertentu:
Ejen pengguna: * Tidak dibenarkan: /p*.gif$
Langkah 5. Galakkan bot untuk mengindeks dan merangkak laman web anda
Ramai orang mahu menyambut, bukannya menyekat, labah-labah mesin pencari kerana mereka mahu seluruh laman web mereka diindeks. Untuk mencapai ini, anda mempunyai tiga pilihan. Pertama, anda boleh memilih untuk tidak membuat fail robots.txt-apabila robot tidak menemui fail robots.txt, ia akan terus merangkak dan mengindeks seluruh laman web anda. Kedua, anda boleh membuat fail robots.txt kosong-robot akan menemui fail robots.txt, mengenali fail itu kosong, dan terus merangkak dan mengindeks laman web anda. Akhir sekali, anda boleh menulis fail robots.txt yang dibenarkan sepenuhnya. Gunakan kod:
Ejen pengguna: * Tidak dibenarkan:
Langkah 6. Simpan fail txt ke akar domain anda
Selepas anda menulis fail robots.txt, simpan perubahannya. Muat naik fail ke direktori root laman web anda. Contohnya, jika domain anda www.yourdomain.com, letakkan fail robots.txt di www.yourdomain.com/robots.txt.
Kaedah 2 dari 2: Menyekat Mesin Pencari dengan Meta Tag
Langkah 1. Fahami tag meta robot HTML
Tag meta robot membolehkan pengaturcara menetapkan parameter untuk bot, atau labah-labah mesin pencari. Teg ini digunakan untuk menyekat bot agar tidak mengindeks dan merangkak seluruh laman web atau hanya bahagian laman web. Anda juga boleh menggunakan tag ini untuk menyekat laba-laba mesin carian tertentu daripada mengindeks kandungan anda. Tag ini muncul di kepala fail HTML anda.
Kaedah ini biasanya digunakan oleh pengaturcara yang tidak mempunyai akses ke direktori root laman web
Langkah 2. Sekat bot dari satu halaman
Adalah mungkin untuk menyekat semua bot dari mengindeks halaman dan atau dari mengikuti pautan halaman. Tag ini biasanya digunakan ketika laman web live sedang dalam pembangunan. Setelah laman web ini selesai, sangat disarankan agar anda membuang teg ini. Sekiranya anda tidak membuang tag, halaman anda tidak akan diindeks atau dicari melalui mesin carian.
- Anda boleh menyekat bot dari mengindeks halaman dan tidak mengikuti salah satu pautan:
- Anda boleh menyekat semua bot dari mengindeks halaman:
- Anda boleh menyekat semua bot daripada mengikuti pautan halaman:
Langkah 3. Benarkan bot mengindeks halaman, tetapi tidak mengikut pautan
Sekiranya anda membenarkan bot mengindeks halaman, halaman akan diindeks; jika anda menghalang labah-labah mengikuti pautan, jalan pautan dari halaman khusus ini ke halaman lain akan rosak. Masukkan baris kod berikut ke tajuk anda:
Langkah 4. Biarkan labah-labah mesin pencari mengikuti pautan tetapi tidak mengindeks halaman
Sekiranya anda membiarkan bot mengikuti pautan, jalan pautan dari halaman khusus ini ke halaman lain akan tetap dalam keadaan bijak; jika anda menyekat mereka mengindeks halaman, halaman web anda tidak akan muncul di indeks. Masukkan baris kod berikut ke tajuk anda:
Langkah 5. Sekat satu pautan keluar
Untuk menyembunyikan satu pautan pada halaman, masukkan a rel tag dalam tag pautan. Anda mungkin ingin menggunakan tag ini untuk menyekat pautan pada halaman lain yang menuju ke halaman tertentu yang ingin anda sekat.
Masukkan Pautan ke Halaman yang Disekat
Langkah 6. Sekat labah-labah mesin carian tertentu
Daripada menyekat semua bot dari laman web anda, anda mungkin ingin mengelakkan satu bot merangkak dan mengindeks halaman tersebut. Untuk mencapai ini, ganti 'robot' 'dalam tag meta dengan nama bot tertentu. Contohnya merangkumi: googlebot, googlebot-berita, googlebot-gambar, bingbot, dan teoma.
Langkah 7. Galakkan bot untuk merangkak dan mengindeks halaman anda
Sekiranya anda ingin memastikan bahawa halaman anda akan diindeks dan pautannya akan diikuti, anda boleh memasukkan follow-allow meta "robot" tandakan ke pengepala anda. Gunakan kod berikut: