Modern SEO İçin Nihai Robots.txt Rehberi
Bir robots.txt dosyası aslında web sitenizin "kapı görevlisidir". Bir arama motoru botu (örneğin Googlebot) alan adınıza geldiğinde, aradığı ilk dosya siteniz.com/robots.txt dosyasıdır. Bu düz metin dosyası, bota hangi dizinleri taramasına izin verildiğini ve hangi özel alanları (yönetici paneli vb.) görmezden gelmesi gerektiğini söyler.
Yapay Zeka Tehdidi (AI Scraping)
Son yıllarda, OpenAI'nin GPTBot'u ve Common Crawl'un CCBot'u gibi devasa yapay zeka botları, dil modellerini eğitmek için içerik üreticilerine hiçbir kredi veya trafik (hit) vermeden web sitelerini acımasızca kazımaktadır (scrape). Bu botlar için özel "Disallow" yönergeleri eklemek, fikri mülkiyetinizi korur.
Site Haritası Yönergesi
Robots.txt dosyanızın en altına her zaman XML Site Haritası URL'nizi ekleyin. Bu, Google ve Bing için doğrudan bir yol haritası görevi görerek yeni makalelerinizi ve ürünlerinizi standart bağlantı taramasından çok daha hızlı keşfetmelerine yardımcı olur.
"Disallow" sayfanın dizine eklenmeyeceği anlamına mı gelir?
Bu SEO dünyasında bilinen en yaygın yanlışlardan biridir. Disallow botun sayfayı taramasını engeller, ancak başka bir site o sayfaya link verirse Google URL'yi yine de dizine ekleyebilir (genellikle arama sonuçlarında "Bu sayfa için bilgi mevcut değil" uyarısı göstererek). Bir sayfayı Google'dan tamamen gizlemek istiyorsanız, sayfanın kendi kodlarına noindex meta etiketi eklemelisiniz.