Panduan Utama Untuk Robots.txt Di Website

Panduan Utama Untuk Robots.txt Di Website - File robots.txt blogger adalah salah satu cara utama di robot.txt khusus memberi tahu mesin pencari di mana ia bisa dan tidak bisa masuk ke situs web Anda. Semua mesin pencari utama mendukung fungsionalitas dasar yang ditawarkannya, tetapi beberapa di antaranya merespons beberapa aturan tambahan yang dapat berguna juga. Panduan ini mencakup semua cara untuk menggunakan robots.txt di situs web Anda, tetapi, meskipun terlihat sederhana, kesalahan apa pun yang Anda buat di robots.txt dapat sangat merusak situs Anda, jadi pastikan Anda membaca dan memahami seluruh artikel ini sebelum Anda menyelam.

Apa itu file robots.txt?
File robots.txt adalah file teks yang dibaca oleh spider mesin pencari dan mengikuti sintaks yang ketat. Laba-laba ini juga disebut robot - karena itu namanya - dan sintaksisnya ketat hanya karena harus dapat dibaca oleh komputer. Itu berarti tidak ada ruang untuk kesalahan di sini - ada sesuatu yang 1, atau 0.
Panduan Utama Untuk Robots.txt Di Website
Panduan Utama Untuk Robots.txt Di Website
Juga disebut "Protokol Pengecualian Robot", file robots.txt adalah hasil konsensus di antara pengembang spider mesin pencari awal. Ini bukan standar resmi yang ditetapkan oleh organisasi standar mana pun, tetapi semua mesin pencari utama mematuhinya.

Apa yang dilakukan file robots.txt?
Mesin pencari mengindeks web dengan spidering halaman, mengikuti tautan untuk berpindah dari situs A ke situs B ke situs C dan seterusnya. Sebelum mesin pencari menemukan halaman pada domain yang belum pernah ditemui sebelumnya, itu akan membuka file robots.txt domain itu, yang memberi tahu mesin pencari URL mana di situs yang diizinkan untuk diindeks.

Mesin pencari biasanya menyimpan isi robots.txt, tetapi biasanya akan menyegarkannya beberapa kali sehari, sehingga perubahan akan tercermin dengan cukup cepat.

Di mana saya harus meletakkan file robots.txt saya?
File robots.txt harus selalu berada di akar domain Anda. Jadi, jika domain Anda adalah www.example.com, itu harus ditemukan di https://www.example.com/robots.txt.

File robots.txt Anda juga sangat penting disebut robots.txt. Nama ini peka terhadap huruf besar-kecil, jadi pilih yang benar atau tidak berfungsi.

Pro dan kontra menggunakan robots.txt
Pro: mengelola anggaran perayapan
Secara umum dipahami bahwa laba-laba pencarian tiba di situs web dengan “uang saku” yang telah ditentukan sebelumnya untuk berapa banyak halaman yang akan dirayapi (atau, berapa banyak sumber daya / waktu yang akan dihabiskan, berdasarkan otoritas / ukuran / reputasi situs), dan SEO menyebutnya anggaran perayapan. Ini berarti bahwa jika Anda memblokir bagian situs Anda dari spider mesin pencari, Anda dapat mengizinkan anggaran perayapan Anda digunakan untuk bagian lain.

Kadang-kadang bisa sangat bermanfaat untuk memblokir mesin pencari dari merayapi bagian bermasalah dari situs Anda, terutama di situs di mana banyak pembersihan SEO harus dilakukan. Setelah Anda membereskan segalanya, Anda dapat membiarkannya masuk kembali.

Catatan tentang pemblokiran parameter kueri
Satu situasi di mana anggaran perayapan sangat penting adalah ketika situs Anda menggunakan banyak parameter string kueri untuk difilter dan diurutkan. Katakanlah Anda memiliki 10 parameter kueri yang berbeda, masing-masing dengan nilai berbeda yang dapat digunakan dalam kombinasi apa pun. Ini mengarah ke ratusan bahkan ribuan kemungkinan URL. Memblokir semua parameter kueri agar tidak dirayapi akan membantu memastikan mesin pencari hanya spider URL utama situs Anda dan tidak akan masuk ke perangkap besar yang Anda buat sebaliknya.

Baris ini memblokir semua URL di situs Anda yang berisi string kueri:
Larang: / *? *
Con: tidak menghapus halaman dari hasil pencarian
Meskipun Anda dapat menggunakan file robots.txt untuk memberi tahu laba-laba di mana laba-laba itu tidak bisa masuk ke situs Anda, Anda tidak bisa menggunakannya memberi tahu mesin pencari yang URLnya tidak ditampilkan di hasil pencarian - dengan kata lain, memblokirnya tidak akan menghentikannya diindeks. Jika mesin pencari menemukan cukup tautan ke URL itu, URL itu akan memasukkannya, itu tidak akan tahu apa yang ada di halaman itu.

Jika Anda ingin secara andal memblokir halaman agar tidak muncul di hasil pencarian, Anda perlu menggunakan tag meta robots noindex. Itu berarti bahwa, untuk menemukan tag noindex, mesin pencari harus dapat mengakses halaman itu, jadi jangan memblokirnya dengan robots.txt.

Con: tidak menyebarkan nilai tautan Jika mesin pencari tidak dapat menjelajah halaman, itu tidak dapat menyebarkan nilai tautan di seluruh tautan pada halaman itu. Ketika sebuah halaman diblokir dengan robots.txt, itu jalan buntu. Nilai tautan apa pun yang mungkin mengalir ke (dan melalui) halaman itu hilang.

sintaks robots.txt
File robots.txt terdiri dari satu atau lebih blok arahan, masing-masing dimulai dengan baris agen-pengguna. "Agen-pengguna" adalah nama dari laba-laba spesifik yang dialaminya. Anda dapat memiliki satu blok untuk semua mesin pencari, menggunakan wildcard untuk agen-pengguna, atau blok spesifik untuk mesin pencari tertentu. Laba-laba mesin pencari akan selalu memilih blok yang paling cocok dengan namanya.
User-agent: * Disallow: / User-agent: Googlebot Disallow: User-agent: bingbot Disallow: /not-for-bing/
Arahan seperti Izinkan dan Larang tidak boleh peka huruf besar-kecil, jadi terserah Anda apakah Anda menulisnya dengan huruf kecil atau huruf besar. Nilai-nilai ini peka terhadap huruf besar-kecil, / foto / tidak sama dengan / Foto /. Kami suka menggunakan huruf besar arahan karena membuat file lebih mudah (untuk manusia) untuk dibaca. Arahan agen pengguna Bit pertama dari setiap blok arahan adalah agen-pengguna, yang mengidentifikasi laba-laba tertentu. Bidang agen pengguna dicocokkan dengan agen pengguna spider tertentu (biasanya lebih lama), jadi misalnya spider paling umum dari Google memiliki agen pengguna berikut:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Jadi, jika Anda ingin memberi tahu laba-laba ini apa yang harus dilakukan, agen-pengguna yang relatif sederhana: baris Googlebot akan melakukan triknya. Sebagian besar mesin pencari memiliki banyak laba-laba. Mereka akan menggunakan laba-laba spesifik untuk indeks normal, untuk program iklan, untuk gambar, untuk video, dll. Mesin pencari akan selalu memilih blok arahan paling spesifik yang dapat mereka temukan. Katakanlah Anda memiliki 3 set arahan: satu untuk *, satu untuk Googlebot dan satu untuk Googlebot-News. Jika bot datang dengan agen pengguna yang Googlebot-Video, itu akan mengikuti batasan Googlebot. Bot dengan agen-pengguna Googlebot-News akan menggunakan arahan Googlebot-News yang lebih spesifik.
Search engineFieldUser-agent
BaiduGeneralbaiduspider
BaiduImagesbaiduspider-image
BaiduMobilebaiduspider-mobile
BaiduNewsbaiduspider-news
BaiduVideobaiduspider-video
BingGeneralbingbot
BingGeneralmsnbot
BingImages & Videomsnbot-media
BingAdsadidxbot
GoogleGeneralGooglebot
GoogleImagesGooglebot-Image
GoogleMobileGooglebot-Mobile
GoogleNewsGooglebot-News
GoogleVideoGooglebot-Video
GoogleAdSenseMediapartners-Google
GoogleAdWordsAdsBot-Google
Yahoo!Generalslurp
YandexGeneralyandex
Perintah Disallow Baris kedua dalam setiap blok arahan adalah garis Disallow. Anda dapat memiliki satu atau lebih dari baris-baris ini, menentukan bagian situs mana yang tidak dapat diakses oleh laba-laba yang ditentukan. Baris Larang yang kosong berarti Anda tidak melarang apa pun, jadi pada dasarnya itu berarti laba-laba dapat mengakses semua bagian situs Anda.

Related Posts

Post a Comment

Subscribe Our Newsletter