Blog details

Büyük Sitelerde Sitemap Index Dosyası Nasıl Kurulur?

Büyük Sitelerde Sitemap Index Dosyası Nasıl Kurulur?

Milyonlarca URL olan bir sitede sorun, site haritası üretmek değildir. Sorun, doğru URL kümelerini doğru sırayla ve temiz sinyallerle arama motoruna sunmaktır. Bu yüzden bir XML sitemap index, büyük sitelerde sadece teknik bir detay değil, doğrudan indeksleme performansını etkileyen bir technical SEO mimari kararıdır. Bu sitemap index dosyası, büyük çaplı projelerde verimli bir tarama süreci için stratejik bir temel oluşturur.

Ürün, haber, kategori, ülke sayfası ve arşiv aynı sepete atıldığında tablo bulanıklaşır. Hangi bölüm güncel, hangi bölüm bozuk, hangisi tarama bütçesini yiyor; görmek zorlaşır. Sağlam bir kurgu, hem geliştirici ekibin işini kolaylaştırır hem de SEO tarafında gereksiz gürültüyü azaltır.

Aşağıdaki çerçeve, büyük e-ticaret, haber ve çok dilli kurumsal sitelerde işe yarayan pratik bir yaklaşım sunar.

Key Takeaways

  • İş Mantığı ile Parçalayın: Sitemap dosyalarınızı URL sayısına göre değil; içerik türü, güncellik hızı ve dil/pazar bazlı iş mantığına göre bölerek sorun izolasyonu sağlayın.
  • Kalite Kontrolü Şarttır: Sadece 200 OK dönen, kanonik olan ve noindex etiketi içermeyen sayfaları dosyaya ekleyin; hatalı veya düşük kaliteli URL’ler tarama bütçenizi boşa harcar.
  • Lastmod Etiketini Doğru Kullanın: lastmod değerini sadece içerik gerçekten güncellendiğinde değiştirin; otomatik ve tutarsız tarih güncellemeleri arama motorlarının güvenini zedeleyebilir.
  • Tarama Verimliliğini Artırın: Sitemap index dosyasını teknik bir zorunluluk değil, tarayıcıların içeriğinizi daha hızlı keşfetmesini sağlayan stratejik bir pusula olarak tasarlayın.

Sitemap index dosyası neden ayrı bir mimari ister?

Küçük sitelerde tek bir XML site haritası çoğu zaman yeterlidir. Büyük sitelerdeyse tek dosya yaklaşımı hızla dağılır; çünkü burada amaç yalnızca URL listelemek değil, URL kümelerini anlamlı paketlere ayırarak crawling and indexing süreçlerini optimize etmektir.

Etkili bir XML sitemap index dosyası, çok sayıda alt site haritasını bir arada tutar. Search engine crawlers önce bu ana dosyayı okur, sonra ilgili alt dosyalara yönelir. Kağıt üzerinde basit görünse de büyük ölçekte bu yapı; içerik tipleri, güncelleme sıklığı, host ayrımı ve yayın akışıyla birlikte kurgulanmalıdır.

Aynı dosyada ürün detayları, filtreli sayfalar, kampanya açılışları ve kurumsal statik sayfalar bir arada bulunursa sorun başlar. Bir hata meydana geldiğinde hangi kümenin bozulduğunu anlamak güçleşir. Ayrıca her içerik değişikliğinde tüm dosyaların yeniden yazılması, gereksiz işlem yükü ve yanlış lastmod sinyali üretilmesine neden olur.

Tarama bütçesiyle olan ilişki tam da burada devreye girer. Arama motorları sınırsız kaynak harcamaz. Eğer site haritası içerisinde çok sayıda zayıf, kopya veya indekslenmeye uygun olmayan URL yer alıyorsa, tarayıcılar değerli sayfalara ulaşmakta gecikebilir. Özellikle ürün stok güncellemeleri, son dakika haberleri veya yeni ülke sayfaları için bu durum ciddi bir performans kaybıdır. Multiple sitemaps kullanımı, bu karmaşayı önlemek ve tarayıcıların içeriğinizi daha verimli keşfetmesini sağlamak için en sağlıklı çözümdür.

Sitemap index dosyasını dosya sayısını azaltmak için değil, URL kümelerini görünür kılmak ve tarama verimliliğini artırmak için tasarlayın.

Bir başka kritik nokta da sorumluluk paylaşımıdır. Büyük organizasyonlarda ürün ekibi, içerik ekibi ve yazılım ekibi farklı kaynaklardan URL üretir. Tek parça bir yapı, bu ekiplerin hatalarını birbirine karıştırır. Ayrı kümeler oluşturmak ise hem raporlamayı kolaylaştırır hem de teknik müdahale hızını artırır.

Parçalama kuralını URL sayısına göre değil, iş mantığına göre kurun

En sık yapılan hata, “50 bin URL dolduysa yeni dosya açalım” mantığıdır. Teknik olarak doğru görünür, ama yönetim açısından zayıftır. Büyük sitelerde daha iyi yaklaşım, dosyaları iş mantığına göre bölmektir. Eğer büyük bir web sitesine sahipseniz, Google tarafından önerilen sınırları yönetmek ve tarama verimliliğini artırmak için split large sitemaps stratejisini benimsemeniz kritik önem taşır.

Aşağıdaki tablo, hangi parçalama modelinin hangi durumda uygun olduğunu özetler:

Parçalama modeliNe zaman mantıklıAvantajıRiski
İçerik tiplerine göreÜrün, kategori, blog, yardım merkezi farklı davranıyorsaSorun izolasyonu kolaylaşırEkipler kurala uymazsa dosya kirliliği oluşur
Güncellik hızına göreBazı sayfalar saatlik, bazıları aylık değişiyorsaTarama önceliği daha net görünürSahte lastmod kullanılırsa güven kaybı olur
Dil veya pazar bazındaÇok dilli, çok ülkeli yapı varsaYerel ekipler ayrı yönetirKanonik ve hreflang uyumu bozulabilir
Host veya platform bazındaBlog, mağaza, destek merkezi ayrı altyapıdaysaTeknik sınırlar netleşirFazla parçalanma takip yükünü artırır

Örneğin büyük bir e-ticaret sitesinde “ürün”, “kategori”, “marka”, “kurumsal sayfalar” ve “editoryal içerik” gibi farklı içerik tipleri ayrı çocuk sitemap dosyalarında tutulmalıdır. Ayrıca fiyat ve stok durumu sık değişiyorsa, yoğun trafik alan ürünleri daha küçük gruplara bölmek için multiple sitemaps kullanmak tarama bütçesi yönetimi açısından oldukça mantıklıdır. Buna karşılık filtre kombinasyonları, sıralama parametreleri ve oturum bazlı URL’ler sitemap dışında kalmalıdır.

Haber sitelerinde bölüm bazlı ayrım çoğu zaman daha iyi çalışır. Gündem, spor, ekonomi ve arşiv aynı tempoda değişmez. Son 24 veya 48 saatte güncellenen haberler için ayrı bir çocuk sitemap, keşfi hızlandırabilir. Arşiv ise daha büyük ama daha yavaş güncellenen dosyalarda tutulabilir.

Çok dilli kurumsal sitelerde ülke veya dil bazlı ayrım daha temizdir. tr-tr, en-us, de-de gibi kümeler ayrı yönetildiğinde, hangi pazarın sorun çıkardığı hemen anlaşılır. Ancak burada kural nettir, kanonik URL ile dil varyantı mantığı birbiriyle çelişmemelidir.

A complex network of glowing data nodes interconnected by thin lines glows against a dark background. This digital map illustrates the structural hierarchy of a large-scale website architecture and navigation paths.

İyi kurgulanmış bir XML structure, hangi URL kümesinin ne işe yaradığını görünür kılar.

Dosya isimlendirmesinde de düzen şarttır. products-1.xml.gz, products-2.xml.gz gibi sabit kalıplar izlemeyi kolaylaştırır. Rastgele isimler, tarih damgalı dosya patlaması ve her gün yeni yol üretmek, gereksiz karmaşa yaratır.

Hangi URL’ler sitemap içine girmeli, hangileri girmemeli?

Büyük sitede en iyi sitemap index dosyası bile kötü URL seçimi yüzünden değer kaybeder. Ana kural basittir, yalnızca indekslenmesini gerçekten istediğiniz, erişilebilir ve kanonik URL’leri ekleyin.

Pratik filtre şu olmalı:

  • URL, 200 OK dönmeli.
  • Nihai hedef URL olmalı, yönlendirme olmamalı.
  • noindex taşımamalı.
  • Kanonik etiketi başka bir adrese işaret etmemeli.
  • robots.txt dosyası ile anlamsız biçimde engellenmemeli.
  • Soft 404 benzeri boş, geçici veya hatalı sayfa olmamalı.

Bunun karşı tarafı da nettir. Parametreli filtre URL’leri, iç arama sonuçları, oturum linkleri, UTM’li kopyalar, sıra değiştiren varyasyonlar ve test ortamı adresleri sitemap’e girmemelidir. Çünkü sitemap’e eklenen her URL, bunu taramaya ve değerlendirmeye değer buluyorum mesajı verir.

Sitemap’e giren kötü URL sayısı arttıkça, iyi URL’lerin crawling and indexing performansı ve görünürlüğü zayıflar.

Büyük e-ticarette bu konu daha sert hissedilir. Örneğin 500 bin ürününüz olabilir, ama bunun 120 bini tükenmiş, 40 bini yönlendirilmiş, 60 bini de parametreli varyantsa gerçek sinyal bozulur. Haber sitelerinde benzer sorun, etiket sayfaları ve arama sonuçları yüzünden oluşur. Kurumsal sitelerdeyse eski kampanya sayfaları ve yayından kalkmış dil versiyonları gürültü üretir.

Google Search Console tarafında görülen pek çok hata, aslında URL seçimindeki bu dağınıklıktan çıkar. Bu noktada sitemap errors ve çözüm rehberi pratik bir kontrol noktası sağlar. Özellikle host uyuşmazlığı, bozuk XML, yanlış protokol ve indekslenmemesi gereken URL’lerin dosyaya sızması büyük sitelerde sık görülür.

Sınırlar, sıkıştırma ve güncelleme akışı

Protokol tarafında sınırlar oldukça nettir. Sitemap protocol kuralları uyarınca, her bir sitemap dosyası en fazla 50,000 URLs içerebilir ve sıkıştırılmamış hali 50MB limit değerini aşamaz. Bir sitemap index dosyası da kendi içinde en fazla 50.000 sitemap listeleyebilir ve aynı dosya boyutu sınırı bu yapı için de geçerlidir. XML format kullanarak oluşturduğunuz bu dosyalar için Gzip sıkıştırması kullanmak, özellikle büyük veri setlerine sahip sitelerde performans açısından iyi bir fikirdir.

Asıl mesele bu URL limit değerinin altına inmekten ziyade, güncelleme akışını verimli yönetmektir. Her deploy sonrası tüm alt dosyaları yeniden oluşturmak yerine, yalnızca değişen kümeleri güncelleyin. Bu yaklaşım hem sistem üzerindeki işlem maliyetini düşürür hem de lastmod tag değerinin daha anlamlı kalmasını sağlar.

lastmod tag içeriği, dosyanın oluşturulduğu anı değil, içeriğin arama motorları için en son güncellendiği zamanı yansıtmalıdır. Her gece otomatik olarak tüm dosyalara güncel tarih basmak kısa vadede kolay görünse de, arama motorları tutarsız sinyaller içeren bu yapıya zamanla daha az güvenebilir.

Bir ana dizin örneği olan sitemapindex tag kullanımı şu şekilde görünebilir:

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

<sitemap><loc>https://ornek.com/sitemaps/products-1.xml.gz</loc><lastmod>2026-06-01</lastmod></sitemap>

<sitemap><loc>https://ornek.com/sitemaps/categories.xml.gz</loc><lastmod>2026-05-31</lastmod></sitemap>

<sitemap><loc>https://ornek.com/sitemaps/blog.xml.gz</loc><lastmod>2026-05-28</lastmod></sitemap>

</sitemapindex>

Bir çocuk sitemap dosyasında ise her bir giriş loc tag ile belirtilmeli ve şu yapıda olmalıdır:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

<url><loc>https://ornek.com/urun/abc</loc><lastmod>2026-06-01</lastmod></url>

<url><loc>https://ornek.com/urun/xyz</loc><lastmod>2026-06-01</lastmod></url>

</urlset>

Ayrıca host kuralını da göz ardı etmeyin. Farklı subdomain veya ülke domain yapılarınız varsa, her host için ayrı bir sitemap organizasyonu kurmak çok daha temiz bir yöntemdir. Örnek olarak example.com ile de.example.com siteleri aynı mantıksal iş akışını paylaşabilir, ancak bu URL’lerin aynı çocuk dosyada karışması hata payını artıracaktır.

Üç büyük site senaryosu: kısa ve uygulanabilir örnekler

Büyük e-ticaret sitesi

200 bin ürün, 8 bin kategori ve milyonlarca filtre kombinasyonu olan bir mağazada tek sitemap yaklaşımı kısa sürede dağılır. Burada ürünleri kendi içinde parçalara bölmek gerekir. Örneğin stokta olan ürünler ayrı, uzun süredir güncellenmeyen ürünler ayrı yönetilebilir. Kategori ve marka sayfaları ürünlerden ayrılmalıdır. Filtre URL’leri, sıralama parametreleri ve arama sonuçları ise dışarıda kalmalıdır.

Bu yapı, ürün yayına alındığında daha hızlı keşif sağlar. Ayrıca sorun olduğunda yalnızca ilgili çocuk dosyaya bakarsınız.

Haber sitesi

Haber sitelerinde hız her şeydir. Son birkaç günün içerikleri için küçük ve sık güncellenen çocuk sitemap dosyaları oluşturmak, Googlebot tarafından yapılan yeni içerik keşfini hızlandırır. Arşiv haberlerini ise bölüm bazında daha büyük dosyalar halinde XML format ile tutabilirsiniz. Böylece yeni içerik keşfi ile tarihsel arşiv aynı kuyruğa girmez.

Yaygın hata, yayından kalkmış haberlerin, taşınmış URL’lerin veya etiket çöplüğünün sitemap dosyasına girmesidir. Bu durum hem taramayı dağıtır hem de kapsama raporunu kirletir.

Çok dilli kurumsal site

Kurumsal yapılarda URL sayısı daha düşük olabilir, ama sürüm karmaşası daha yüksektir. Türkçe, İngilizce ve Almanca sayfalar farklı ekiplerce yönetiliyorsa, dil bazlı çocuk sitemap kullanmak mantıklıdır. Her kümede yalnızca o dilin kanonik, yayınlanmış ve erişilebilir sayfaları yer almalıdır.

Burada en sık sorun, kanonik ile hreflang arasında tutarsızlık çıkmasıdır. Bir dil varyantı başka ülke sayfasını kanonik gösteriyorsa sitemap sinyali boşa gider. Sonuçta sorun sitemap içinde değil, URL niyetinin dağılmasındadır.

En sık yapılan hatalar ve görünmeyen maliyeti

Büyük ölçekli web sitelerinde aynı hatalar tekrar eder, ancak bu hataların yarattığı hasar ilk bakışta fark edilmez. Bu süreçlerin uzun vadeli maliyeti ise doğrudan teknik SEO performansını zedeler.

İlk hata, indekslenmemesi gereken URL’leri sitemap içine doldurmaktır. Bu durum tarama bütçesini boşa harcar. Arama motorları düşük kaliteli sayfaları ayıklamaya çalışırken, değerli içeriklerinizin taranması gecikir.

İkinci hata, tüm çocuk dosyaları her gün yeniden oluşturmaktır. Görünürde güncel bir yapı oluşsa da, lastmod tag değerinin anlamsızlaşmasına neden olur. Bu durum, arama motorunun hangi bölümün gerçekten değiştiğini ayırt etmesini zorlaştırır.

Üçüncü hata, tüm içeriği tek bir dev “catch-all” dosyaya hapsetmektir. Bu yaklaşım hata ayıklamayı imkansız hale getirir. Sitemap dosyasının 50.000 URL limit değerine yaklaşması veya aşılması, hem teknik yönetimi zorlaştırır hem de raporda tüm siteyi kirli gösterir.

Dördüncü hata, boş veya neredeyse boş dosyaları kalıcı hale getirmektir. Geçici durumlarda bu kabul edilebilir olsa da, sürekli boş kalan çocuk sitemap dosyaları zayıf bir teknik bakım sinyali verir. Beşinci hata ise, yeni URL’leri henüz yayına çıkmadan sitemap dosyasına eklemektir. Özellikle kuyruk yapısıyla çalışan sistemlerde bu detay genellikle gözden kaçar.

Bu sorunların etkisi çoğu zaman raporlarda parçalı görünür. Bir kısım kapsam hatası, bir kısım keşfedildi ama indekslenmedi uyarısı, bir kısım da yönlendirme sorunu olarak karşınıza çıkar. Böyle durumlarda, webmaster tools üzerinde düzenli bir teşhis akışı kurmak kritik önem taşır. Unutmayın ki sitemap dosyası indeksleme problemlerini doğrudan çözmez; sadece sorunun nerede başladığını daha net bir şekilde görmenizi sağlar.

İzleme ve doğrulama için pratik kontrol akışı

Kurgu tamamlandıktan sonra iş bitmez. Büyük sitelerde asıl farkı izleme disiplini yaratır. Haftalık veya en azından iki haftalık bir kontrol akışı kurun.

  1. Önce kaynak envanteri ile sitemap sayısını karşılaştırın. Veritabanında indekslenebilir görünen URL adedi ile sitemap içindeki gerçek adet birbirine yakın olmalı. Modern bir sitemap builder kullanarak bu üretim sürecini otomatize etmek, envanter uyumsuzluklarını minimize eder.
  2. Sonra çocuk dosyalardan örnek alın. Her dosyada rastgele URL’lerin 200, kanonik ve indekslenebilir olduğunu doğrulayın. Sitemap protocol standartlarına uygun hareket edip etmediğinizi kontrol etmek, indeksleme kalitesini doğrudan artırır.
  3. Ardından lastmod mantığını kontrol edin. Hiç değişmeyen bir dosya her gün güncellenmiş görünüyorsa sorun vardır.
  4. Google Search Console üzerinde gönderilen ve okunan sitemap verilerini düzenli izleyin. Okunmayan, hata veren veya ani düşüş yaşayan dosyaları ayırın.
  5. Log verisine bakın. Botların gerçekten hangi çocuk sitemap dosyalarını çektiğini görün. Eğer alt alan adlarını yönetiyorsanız, cross-site submission yapılandırmasının doğru çalışıp çalışmadığını bu aşamada doğrulayabilirsiniz.
  6. Son olarak keşif hızını izleyin. Yeni içerikler ne kadar sürede taranıyor, bunu haftalık trend olarak tutun. Milyonlarca sayfalı yapılarda birden fazla dosyaya bölünen multiple sitemaps stratejisi, operasyonu yönetilebilir kılar.

Milyonlarca sayfalı yapılarda ekipler, daha küçük ve tutarlı çocuk dosyaların operasyonu kolaylaştırdığını sık paylaşır. Bu konuda topluluk içindeki büyük UGC site deneyimi de benzer bir pratik soruna işaret ediyor. Buradaki fikir basit; teorik üst sınırı zorlamak yerine gözlemlenebilir kümeler kurmak daha iyi sonuç veriyor.

İyi bir doğrulama akışı, yalnızca XML dosyasının teknik geçerliliğine bakmaz. Dosyanın içindeki URL niyeti, kanonik yapısı ve gerçek yayın durumu da kontrol edilir. Çünkü temiz görünen bir dosya, yanlış URL’lerle doluysa yine zayıf bir sinyal üretir.

Frequently Asked Questions

Sitemap index dosyasını neden 50 bin URL sınırına göre bölmemeliyim?

URL sayısına göre bölmek sadece teknik bir kısıtlamayı karşılar ancak yönetimsel bir fayda sağlamaz. İş mantığına (örneğin ürünler, blog yazıları veya kategori sayfaları) göre bölmek, bir hata oluştuğunda hangi içerik grubunun etkilendiğini hızla tespit etmenize olanak tanır.

Sitemap dosyasına noindex sayfalarını eklemeli miyim?

Hayır, sitemap içerisine yalnızca indekslenmesini istediğiniz kanonik URL’leri eklemelisiniz. Noindex sayfalarını veya yönlendirmeleri sitemap içinde tutmak, arama motorlarına karışık sinyaller gönderir ve tarama bütçenizin verimsiz kullanılmasına neden olur.

Lastmod etiketi neden kritiktir?

Lastmod etiketi, arama motoru botlarına içeriğin en son ne zaman anlamlı bir şekilde güncellendiğini bildirir. Eğer bu etiketi her gün tüm dosyalar için rastgele güncellerseniz, arama motorları sisteminize olan güvenini kaybeder ve gerçek güncellemeleri ayırt etmekte zorlanır.

Sitemap dosyalarımda Gzip sıkıştırması kullanmalı mıyım?

Evet, özellikle büyük veri setlerine sahip sitelerde XML dosyalarını Gzip ile sıkıştırmak, hem dosya boyutlarını küçülterek limitleri aşmanızı engeller hem de tarama performansını optimize eder. Google standartlarında da bu yöntem önerilen bir uygulamadır.

Sonuç

Büyük ölçekli web sitelerinde etkili bir sitemap index dosyası, basit bir URL listesinden çok daha fazlasını ifade eder. Stratejik olarak kurgulanan bir yapı, tarama bütçesini optimize ederek sitenizin teknik altyapısını güçlendirir ve hangi içerik gruplarının öncelikli olduğunu arama motorlarına daha net bir şekilde aktarır.

En temel kural, parçalama mantığını teknik zorunluluklar yerine iş süreçlerine dayandırmaktır. Ardından, her bir alt dosyada yalnızca indekslenmesi hedeflenen kaliteli URL’lere yer vermelisiniz.

Uygulama sürecinde şu kontrol listesini takip etmek süreçlerinizi verimli hale getirir:

  • Çocuk sitemap dosyalarını içerik türü, güncellik veya dil seçeneklerine göre kategorize edin.
  • Yalnızca 200 durum koduna sahip, kanonik ve indekslenebilir URL’leri dahil edin.
  • Parametreli, yönlendirme içeren, noindex etiketli veya soft 404 veren sayfaları mutlaka dışarıda bırakın.
  • Her bir sitemap dosyasının 50,000 URLs sınırını aşmadığından emin olun.
  • lastmod alanını içeriğinizde gerçek bir değişiklik olduğunda güncelleyin.
  • Her yazılım güncellemesinden sonra tüm dosyaları yeniden oluşturmak yerine akıllı bir güncelleme mekanizması kullanın.
  • Search Console, log analizleri ve örnek URL testleriyle düzenli doğrulama yapın.
  • Sorun anında müdahale edebilmek için parçalanmış dosyalarda isimlendirme düzenine sadık kalın.

Doğru planlanmış bir XML structure ile yönetilen bu yapı, sadece teknik bir dosya dizini değil, aynı zamanda search engine crawlers için verimliliği artıran bir pusuladır. Bu sistem kurulduğunda sitemap yönetimi bir bakım yükü olmaktan çıkar ve siteniz büyüdükçe karmaşa yaratmak yerine dijital varlığınız için tam bir netlik sağlar.

This post may contain affiliate links. If you make a purchase through these links, I may earn a small commission at no extra cost to you.