Blog details

X-Robots-Tag ile PDF ve Görsel İndeksini Doğru Yönetmek

X-Robots-Tag ile PDF ve Görsel İndeksini Doğru Yönetmek

PDF dosyaları ve görseller, yanlış bir kural yüzünden ya gereğinden fazla görünür olur ya da arama sonuçlarından çıkmaz. Sorun çoğu zaman robots.txt’de değil, indeks talimatının yanlış yerde verilmesindedir.

Bir PDF indirilebilir kalsın ama sonuçlarda görünmesin istiyorsanız, çoğu durumda çözüm X-Robots-Tag başlığıdır. Görsellerde de aynı mantık çalışır, ancak görsel dosyasıyla onu taşıyan sayfayı ayrı ele almak gerekir.

Asıl fark, taramayı mı durdurduğunuz yoksa indeks kararını mı yönettiğinizdir. Teknik olarak doğru uygulama bu ayrımla başlar.

Tarama engelleme ile indeksleme engelleme aynı şey değil

En sık hata şu: Bir dosya robots.txt ile engelleniyor, sonra da arama motorunun onu dizinden çıkaracağı sanılıyor. Oysa robots.txt, botun URL’yi tarayıp içeriği görmesini sınırlar. Bu dosya yine de bağlantılar, site haritası ya da eski kayıtlar yüzünden dizinde kalabilir.

X-Robots-Tag ise HTTP yanıtında gelir ve arama motoruna indeks kararı verir. Bu farkı net görmek için robots.txt ile X-Robots-Tag farkını anlatan teknik yazı iyi bir referanstır.

Aşağıdaki tablo pratik farkı özetler:

YöntemNe yaparNerede uygulanırKritik not
robots.txtTaramayı sınırlarAlan adının kökündeki robots.txt dosyasıİndekslenmeyi garanti olarak durdurmaz
X-Robots-Tagİndeks ve görüntüleme talimatı verirHTTP response headerBotun yanıtı görebilmesi gerekir
Meta robotsİndeks talimatı verirHTML sayfanın <head> bölümüPDF ve görsel gibi HTML olmayan dosyalarda kullanılamaz
Search Console geçici kaldırmaKısa süreli görünürlük gizlerAraç bazlı işlemKalıcı çözüm değildir

robots.txt ile engellenen bir PDF’yi bot tarayamaz. Bu yüzden aynı URL’deki noindex başlığını da göremez.

Bu nedenle “tarama engelleme” ile “indeksleme engelleme”yi ayrı kararlar olarak düşünün. PDF ya da görsel dizinden çıksın istiyorsanız, önce botun yanıtı görmesine izin vermeniz gerekir.

X-Robots-Tag nasıl çalışır ve nerede uygulanır?

X-Robots-Tag, sunucunun verdiği HTTP yanıt başlığıdır. Tarayıcıda görünmez, ama bot ilk istekte bunu okur. Bu yüzden HTML dışındaki içeriklerde, yani PDF, JPEG, PNG, WebP ve benzeri dosyalarda çok kullanışlıdır.

A single server rack stands illuminated in a dark room as glowing lines of blue and white light travel across the floor, symbolizing the flow of complex digital network data.

Temel mantık basittir. Sunucu yanıtında X-Robots-Tag: noindex varsa, bot o URL’yi sonuçlarda tutmamalıdır. PDF’lerde çoğu zaman buna noarchive da eklenir. Böylece önbelleğe alınmış kopya da gösterilmez. Daha geniş teknik açıklama için X-Robots-Tag HTTP başlık rehberi faydalıdır.

Tipik bir PDF yanıtında şu satırlar görülür: HTTP/1.1 200 OK, Content-Type: application/pdf, X-Robots-Tag: noindex, noarchive. Görsel dosyasında ise Content-Type: image/webp ya da benzeri bir içerik türü yer alır.

Burada küçük ama önemli bir ayrıntı var. noimageindex, çoğu zaman görseli taşıyan HTML sayfa için anlamlıdır. Doğrudan görsel dosyası URL’sini dizinden çıkarmak istiyorsanız, genelde noindex daha net bir seçimdir.

Doğrulama adımı ihmal edilmemeli. curl -I https://site.com/dosya.pdf komutu başlığı görmek için yeterlidir. Ayrıca tarayıcı geliştirici araçlarında Network sekmesinden gerçek response header’ı kontrol edebilirsiniz. Düzenli denetim için kapsamlı SEO analizi ve denetimi de işinizi kolaylaştırır.

PDF dosyalarını arama sonuçlarında gizleme

Kataloglar, teknik föyler, fiyat listeleri ve sözleşme ekleri sık görülen örneklerdir. Bu dosyalar kullanıcı için gerekli olabilir, fakat arama sonuçlarında bağımsız birer giriş olarak görünmeleri çoğu zaman istenmez.

Burada doğru akış şudur: PDF erişilebilir kalır, robots.txt ile engellenmez, ama response header içinde noindex verilir. Eğer dosya zaten indekslenmişse, bot yeniden taradığında bu talimatı görür ve URL zamanla dizinden çıkar.

Aşağıdaki örnek doğrudan kullanılabilecek kadar nettir:

HTTP/1.1 200 OK
Content-Type: application/pdf
X-Robots-Tag: noindex, noarchive

Sunucu kuralını yalnızca PDF’lere uygulamak da kolaydır. Apache tarafında sık görülen örnek şu şekildedir: <FilesMatch ".pdf$"> Header set X-Robots-Tag "noindex, noarchive" </FilesMatch>. Nginx için eşdeğer mantık location ~* .pdf$ { add_header X-Robots-Tag "noindex, noarchive"; } kuralıdır.

Yalnızca belirli PDF gruplarına kural vermek istiyorsanız, uzantı yerine dizin bazlı eşleme daha güvenli olabilir. Mesela yalnızca /brochure/ altındaki dosyalar gizlenecekse, kuralı o yol için tanımlayın. Böylece teknik dökümanlar indekslenirken kampanya broşürleri gizli kalabilir.

Eğer PDF şu an robots.txt ile engelliyse, önce o engeli kaldırın. Sonra X-Robots-Tag başlığını ekleyin. Ardından yeniden taramayı bekleyin. Hızlı bir örnek için Google Yardım topluluğundaki PDF noindex örneği yararlı olabilir.

Acil kaldırma gereken durumlarda Search Console geçici kaldırma aracı yardımcı olur. Yine de kalıcı çözüm, erişilebilir PDF üzerinde noindex başlığını sunmaktır.

Görsellerin indeksini sınırlandırırken hangi kuralı nereye vermelisiniz?

Görsellerde iki ayrı senaryo vardır. İlki, doğrudan görsel dosyası URL’sinin dizine girmemesi. İkincisi, sayfa indekslenmeye devam ederken o sayfadaki görsellerin görsel aramada çıkmaması. Aynı başlık her iki işi birden yapmaz.

Doğrudan görsel dosyasını dizinden çıkarmak

Basın kitleri, lisanslı fotoğraflar ya da büyük boy ürün görselleri buna örnektir. Sayfada kullanılmaya devam ederler, ama kullanıcıların görsel aramadan doğrudan dosyaya ulaşması istenmez.

Bu durumda görsel dosyasının yanıtına X-Robots-Tag: noindex ekleyin. Örnek yanıt şu şekilde olabilir: HTTP/1.1 200 OK, Content-Type: image/jpeg, X-Robots-Tag: noindex.

Nginx tarafında yalnızca belirli görsel tiplerine uygulamak için location ~* .(jpg|jpeg|png|webp|gif|avif)$ { add_header X-Robots-Tag "noindex"; } kuralı kullanılabilir. Böylece PDF’ler ya da videolar etkilenmez. Eğer bazı görsellerin indekslenmesi isteniyorsa, kuralı tüm görsellere değil, belirli klasörlere uygulayın.

Burada bir hata sık görülür. Site sahibi HTML sayfaya noindex vermeden, yalnızca görseli barındıran sayfayı değiştirir ve dosya URL’sinin kaybolmasını bekler. Oysa doğrudan görsel URL’si için talimat, o dosyanın response header’ında olmalıdır.

Sayfadaki görselleri görsel aramadan sınırlamak

Bazı durumlarda sayfa sıralama almaya devam etsin, ama o sayfadaki görseller Google Görseller’de görünmesin istenir. Bu durumda uygun direktif noimageindex olur. Ancak bu talimatı genelde HTML sayfa yanıtına verirsiniz.

Yani ürün sayfası açık kalır, ama sayfanın response header’ında X-Robots-Tag: noimageindex bulunur. Aynı şey meta robots ile de yapılabilir, fakat HTML dışındaki dosyalarda meta etiket kullanamazsınız.

Bu ayrımı net tutun: doğrudan görsel dosyası için çoğu zaman noindex, sayfadaki görseller için noimageindex. İkisini karıştırırsanız ya görsel dosyası dizinde kalır ya da gereksiz yere sayfanın görünürlüğü düşer.

Uygulama kontrol listesi ve sık görülen sorunlar

Canlıya almadan önce kısa bir kontrol yapmak büyük fark yaratır:

  • PDF veya görsel URL’si robots.txt ile engellenmiyor olmalı.
  • Dosya 200 OK ya da uygun durumda 304 Not Modified dönmeli.
  • X-Robots-Tag hedef URL’nin gerçek response header’ında görünmeli.
  • CDN, proxy ya da güvenlik katmanı başlığı silmemeli.
  • Dizinden çıkmasını istediğiniz dosyalar XML site haritasında kalmamalı.
  • Son kontrol curl -I ve tarayıcı Network sekmesiyle yapılmalı.

Sorun çıktığında bakılacak yerler de bellidir:

  • URL hâlâ dizinde görünüyorsa, bot yeni başlığı henüz görmemiş olabilir. İç linkleri ve site haritasını da kontrol edin.
  • Başlık yalnızca HTML sayfada varsa, PDF ya da görsel URL’sine hiç uygulanmamış olabilir.
  • noimageindex verilmişken doğrudan görsel URL’si sonuçlarda kalıyorsa, görsel response’unda noindex eksik olabilir.
  • Yönlendirme varsa, başlık ara URL’de değil son URL’de bulunmalıdır.
  • CDN eski header’ı sunuyorsa önbelleği temizleyin ve tekrar test edin.

Bir de yumuşak hata durumu vardır. Sunucu dosyayı teknik olarak 200 OK ile döndürür, ama içerik aslında hata sayfasıdır. Böyle bir durumda bot beklediğiniz gibi davranmayabilir. Bu yüzden içerik türünü ve gerçek dosya yanıtını birlikte doğrulayın.

Kurumsal sitelerde bu kurallar tek seferlik iş değildir. Yayın süreçleri, CDN ayarları ve şablon değişiklikleri yüzünden başlıklar zamanla bozulabilir. Daha geniş yapı denetimi gereken durumlarda kapsamlı SEO danışmanlığı ile düzenli kontrol fayda sağlar.

Sonuç

PDF ve görsel yönetiminde en kritik ayrım, tarama ile indeksleme arasındaki farktır. robots.txt botu durdurur, X-Robots-Tag ise URL hakkında indeks kararı verir.

Bir PDF’nin sonuçlardan çıkması için botun dosyayı görmesi gerekir. Görsellerde de önce hedefi net seçmek gerekir, dosya URL’si mi gizlenecek, yoksa yalnızca sayfadaki görseller mi sınırlandırılacak.

Doğru başlık doğru response’ta yer aldığında, PDF ve görsel indeksini temiz, ölçülebilir ve güvenli biçimde yönetirsiniz.

This post may contain affiliate links. If you make a purchase through these links, I may earn a small commission at no extra cost to you.