Pelajari cara membuat file robots.txt untuk mengendalikan crawler dan meningkatkan SEO teknis dengan panduan praktis dan langsung.

Generate robots.txt: Panduan SEO Singkat

Ringkasan: Pelajari cara membuat dan menerapkan file robots.txt untuk mengendalikan crawler, melindungi konten, dan mengoptimalkan anggaran perayapan dengan contoh praktis.

Pendahuluan

File robots.txt yang disusun dengan baik memberi Anda kendali atas crawler mana yang dapat mengakses situs Anda, membantu melindungi konten berharga, dan memfokuskan anggaran perayapan pada halaman yang penting. Panduan ini menunjukkan langkah-langkah praktis dan jelas untuk membuat, menguji, dan memperbarui robots.txt sehingga mesin pencari dan bot yang sopan berperilaku sesuai yang Anda inginkan.

Untuk memulai

Buat file teks biasa bernama robots.txt, tambahkan direktif seperti User-agent: dan Disallow:, lalu unggah ke root situs Anda di https://yourdomain.com/robots.txt. Satu file itu berfungsi sebagai set instruksi sederhana untuk crawler mesin pencari dan bot lainnya.

Mengapa file robots.txt Anda adalah alat SEO yang kritis

Dua robot mainan dan sebuah perisai yang menjaga layar laptop yang menampilkan file 'Robot.txt'.

Bermain-main dengan robots.txt mungkin terasa teknis, tetapi ini adalah penjaga gerbang situs web Anda. Digunakan dengan benar, ia menghemat sumber daya server dan mengarahkan crawler ke halaman bernilai tinggi—meningkatkan pengindeksan dan peringkat. Protokol Pengecualian Robots (Robots Exclusion Protocol) sudah ada sejak web awal, dan perannya telah berkembang menjadi bagian kunci dari infrastruktur situs.¹

robots.txt yang terfokus membantu Anda mengarahkan crawler ke halaman yang membawa lalu lintas, prospek, dan pendapatan sambil menjauhkan mereka dari area yang membuang anggaran perayapan, seperti halaman admin, hasil pencarian internal, dan versi halaman ramah cetak yang duplikat.

File robots.txt lebih dari sekadar daftar pengecualian; ia adalah panduan strategis untuk mesin pencari. Ia memberi tahu mereka di mana harus menghabiskan waktu terbatas di situs Anda, yang secara langsung memengaruhi halaman mana yang diindeks dan diberi peringkat.

Pada akhirnya, mengatur robots.txt dengan benar berarti kinerja SEO yang lebih baik, sumber daya server yang terjaga, dan penemuan yang lebih jelas untuk konten Anda yang paling berharga.

Memahami bahasa crawler web

Sebuah buku catatan dengan direktif robots.txt tulisan tangan, kaca pembesar yang menunjukkan 'Disallow: /admin', dan sebuah pena.

Robots.txt adalah percakapan singkat dengan crawler. File ini menggunakan direktif sederhana untuk menunjukkan pintu mana yang terbuka atau tertutup. Perintah-perintah ini lugas dan membentuk dasar strategi SEO teknis yang sehat.

Penjelasan direktif inti robots.txt

Directive	What it does	When to use it
User-agent	Specifies which crawler the rules apply to. `*` is a wildcard for all bots.	Use `User-agent: *` for general rules, or specify `Googlebot` or `Bingbot` for targeted instructions.
Disallow	Tells bots not to crawl a specific file or directory.	Block admin login pages (`/wp-admin/`), internal search results, or unhelpful thank-you pages.
Allow	Overrides a `Disallow` for a specific subfolder or file.	Allow a single file inside a disallowed directory.
Sitemap	Points crawlers to your sitemap XML file so they can discover important pages.	Always include this to speed discovery of pages you want indexed.

Perintah sederhana ini memberi Anda kontrol kuat atas perilaku crawler. Menguasainya membantu Anda membuat file robots.txt yang efektif.

Menerapkan direktif dalam praktik

Jika Anda memiliki alat interaktif penting—misalnya, kalkulator yang menghasilkan prospek—Anda ingin mesin pencari merayapi dan mengindeksnya. Pada saat yang sama, Anda akan memblokir halaman yang tidak menambah nilai SEO. Contoh robots.txt yang umum dan praktis terlihat seperti ini:

User-agent: *
Disallow: /wp-admin/
Disallow: /private-files/
Disallow: /cgi-bin/
Sitemap: https://yourdomain.com/sitemap.xml

Pengaturan ini menggunakan User-agent: * untuk menargetkan semua bot, memblokir beberapa folder non-publik yang umum, dan mengarahkan crawler ke sitemap. Ini bersih dan efisien.

Untuk mempelajari lebih lanjut tentang bagaimana crawler berperilaku, analisis log server dan data pengunjung. Setelah Anda memahami bot mana yang mengunjungi situs Anda, Anda dapat menyusun aturan yang mendukung tujuan bisnis Anda.

Panduan praktis untuk membuat file robots.txt secara manual

Terkadang Anda harus membuat file secara manual. Gunakan Notepad atau TextEdit, simpan file sebagai teks biasa dengan nama robots.txt (huruf kecil), dan unggah ke root situs Anda melalui FTP atau pengelola file penyedia hosting Anda. Jika Anda menyimpannya sebagai .docx atau .rtf, crawler akan mengabaikannya.

Letakkan di https://yourdomain.com/robots.txt. Mengunggahnya ke subfolder, seperti /blog/robots.txt, membuatnya tidak terlihat oleh crawler.

Menyusun aturan untuk tujuan bisnis dunia nyata

Contoh: situs layanan keuangan dengan Kalkulator Hipotek yang menghasilkan prospek. Anda ingin alat itu diindeks, tetapi Anda tidak ingin area admin atau halaman terima-kasih muncul di hasil pencarian. Atur aturan Anda seperti ini:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /thank-you-for-your-submission/

Sitemap: https://www.yourfinancialsite.com/sitemap.xml

Ini memberi tahu semua crawler bahwa mereka boleh merayapi situs kecuali /admin/ dan halaman terima-kasih, dan mengarahkannya ke sitemap. Sertakan baris sitemap seperti ini untuk membantu crawler menemukan halaman dalam atau penting lebih cepat.

Catatan: Urutan penting dalam file yang lebih kompleks. Untuk aturan Allow dan Disallow yang saling tumpang tindih, aturan yang paling spesifik sebaiknya diletakkan terlebih dahulu untuk Googlebot, atau Anda berisiko secara tidak sengaja memblokir konten.

Membuat dan menguji robots.txt adalah langkah inti dalam setiap audit SEO teknis.

Mengelola gelombang baru crawler AI dan LLM

Lanskap crawler kini mencakup bot khusus AI seperti GPTBot dan Common Crawl. Crawler ini berkembang pesat, dan banyak situs menyesuaikan aturan untuk menanganinya. Crawler AI yang sopan akan mematuhi robots.txt, tetapi pengikis jahat mungkin tidak.²

Diagram tiga langkah yang menggambarkan proses pembuatan robots.txt: buat, sunting, dan unggah.

Mengapa Anda mungkin memblokir crawler AI

Memblokir crawler AI dapat melindungi konten asli dari pengikisan dan penggunaan untuk pelatihan model tanpa atribusi atau kompensasi. Jika Anda telah membangun alat online unik, Anda mungkin tidak ingin logika atau data dari alat tersebut diambil oleh pihak ketiga. Timbang manfaat visibilitas di platform berbasis AI dengan risiko konten Anda digunakan kembali.

Menganalisis file log membantu Anda melihat bot mana yang mengunjungi situs Anda dan memberi informasi apakah perlu memblokirnya.³

Cara memblokir bot AI umum

Tambahkan baris User-agent spesifik untuk setiap crawler yang ingin Anda blokir. Contoh termasuk GPTBot, CCBot, Google-Extended, dan Anthropic-AI. Untuk memblokir sebuah bot sepenuhnya:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Ingat, robots.txt adalah sistem kehormatan. Crawler bereputasi akan menghormati aturan Anda, tetapi aktor jahat dapat mengabaikannya. Untuk perlindungan yang lebih kuat, pertimbangkan Web Application Firewall (WAF) atau solusi manajemen bot khusus.

Menghindari kesalahan robots.txt yang umum dan mahal

Satu baris yang salah tempat bisa secara tidak sengaja menghapus seluruh situs Anda dari indeks. Kesalahan klasik adalah Disallow: /, yang memberi tahu semua crawler untuk tidak merayapi halaman apa pun. Jika situs Anda tiba-tiba menghilang dari hasil pencarian, periksa robots.txt terlebih dahulu.

Memblokir file penting

Memblokir CSS atau JavaScript dapat mencegah Google merender halaman dengan benar, yang merugikan SEO. Misalnya, jangan memblokir /assets/js/ jika situs Anda bergantung pada JavaScript untuk memuat konten penting. Sebagai gantinya gunakan Allow: untuk sumber daya tersebut bila diperlukan:

Sebelumnya (salah): Disallow: /assets/js/
Sesudah (benar): Allow: /assets/js/

Aturan yang saling bertentangan dan kesalahan sintaks

Aturan dibaca dari atas ke bawah, dan aturan yang lebih spesifik sebaiknya diletakkan sebelum yang lebih umum. Jika Anda ingin memblokir folder /private/ tetapi mengizinkan satu PDF di dalamnya, letakkan aturan Allow terlebih dahulu untuk Googlebot:

Allow: /private/public-report.pdf
Disallow: /private/

Perhatikan juga kesalahan ketik. Direktif yang salah eja seperti "dissallow" akan diabaikan. Gunakan robots.txt Tester di Google Search Console sebelum menerapkan perubahan.

Ingat, robots.txt adalah permintaan yang sopan, bukan jaminan. Banyak penerbit besar memblokir bot pelatihan AI, tetapi pengikis yang tekun dapat mengabaikan file Anda sepenuhnya.⁴

Pertanyaan umum tentang file robots.txt

Robots.txt vs. noindex: apa bedanya?

Robots.txt menghentikan perayapan, sementara tag noindex menghentikan pengindeksan. Gunakan robots.txt untuk mencegah crawler mengunjungi bagian seperti halaman admin; gunakan noindex pada halaman yang ingin Anda biarkan dirayapi tetapi tidak ditampilkan di hasil pencarian, seperti halaman landing sementara.

Haruskah saya menambahkan sitemap ke file robots.txt saya?

Ya. Menambahkan Sitemap: https://www.yourdomain.com/sitemap.xml membantu crawler menemukan dan mengindeks konten bernilai tinggi yang terhubung dalam lebih cepat. Jika Anda menggunakan beberapa sitemap, tambahkan satu baris Sitemap: per file.

Bisakah robots.txt menghentikan bot jahat dan pengikis?

Robots.txt membantu tetapi tidak sempurna. Ini efektif terhadap crawler yang berperilaku baik, tetapi pengikis jahat sering mengabaikannya. Untuk perlindungan yang kuat, gabungkan robots.txt dengan kontrol tingkat server, WAF, dan alat manajemen bot.

Siap meningkatkan keterlibatan situs dan SEO Anda dengan alat interaktif? Dengan MicroEstimates, Anda dapat membuat dan menyematkan kalkulator kustom di situs Anda. Coba alat-alat ini untuk mendukung pengumpulan prospek dan keterlibatan pengguna:

Tanya Jawab Singkat — pertanyaan umum pembaca

Apa robots.txt paling sederhana untuk sebagian besar situs?

Mulai dengan:

User-agent: *
Disallow: /wp-admin/
Sitemap: https://yourdomain.com/sitemap.xml

Bagaimana cara memblokir GPTBot atau crawler AI lainnya?

Tambahkan direktif User-agent untuk setiap crawler dan atur Disallow: / di bawahnya.

Bagaimana cara menguji robots.txt sebelum diterapkan?

Gunakan robots.txt Tester di Google Search Console dan periksa log server untuk mengonfirmasi perilaku yang Anda harapkan.

Asal dan sejarah Protokol Pengecualian Robots. https://en.wikipedia.org/wiki/Robots_exclusion_standard

Laporan tentang lalu lintas bot otomatis dan bagiannya dalam lalu lintas web. https://www.imperva.com/learn/bot-management/bot-traffic/

Analisis dan saran tentang mengelola crawler AI dan analisis file log. https://developers.google.com/search/docs/advanced/robots/intro

Liputan penerbit yang memblokir bot pelatihan AI. https://www.searchenginejournal.com/most-major-news-publishers-block-ai-training-retrieval-bots/564605/

Kuasi SEO: buat file robots.txt dengan panduan cepat ini