Waar moet ik op letten bij een sitemap

Waar moet ik op letten bij een sitemap-seo?

De sitemap van een website zal Google helpen bij het crawlen van jouw website. In deze blogpost helpen wij jou graag om de plattegrond van jouw website verder te optimaliseren

Suggereren is niet gelijk aan indexeren

Eerst en vooral, een XML-sitemap zal er niet automatisch voor zorgen dat jouw pagina’s geïndexeerd worden. Een sitemap-seo is een hulpmiddel voor de Google bots die jouw website crawlen. Deze zullen de pagina’s op jouw websites enkel effectief indexeren indien ze volgens hen kwalitatief genoeg zijn om dat te doen.

Wanneer je dus een XML-sitemap toevoegt aan Google Search Console doe je dus niets minder, maar zeker ook niets meer dan een suggestie aan Google over de pagina’s die het volgens jou waard zijn om geïndexeerd te worden.

Wees consequent

Zorg voor een heldere en vooral eenduidige boodschap richting de robots die het web crawlen. Wanneer je aan de ene kant een bepaalde pagina opneemt in het robots.txt-bestand om te verhinderen dat deze geïndexeerd wordt en aan de andere kant wel opneemt in de XML-sitemap, zaai je verwarring. Idem wanneer je voor bepaalde pagina’s meta robots instelt met "noindex, follow" om te verhinderen dat Google deze pagina’s na het crawlen ook indexeert, maar diezelfde pagina’s vervolgens wel doodleuk opneemt in de sitemap.

Met andere woorden, indien je van bepaalde pagina’s op jouw website graag zou hebben dat ze die pagina’s worden waarop iemand landt vanuit de SERP, doe dan nooit het volgende. Ga deze niet blokkeren in je robots.txt-bestand en ervoor een meta robots toevoegen is ook niet op z’n plaats.

Eén zwaluw maakt de SEO-lente niet

Weet dat Google de kwaliteit van jouw ganse website bekijkt om deze te ranken.

Stel dat jouw website een paar steengoede pagina’s heeft waarop mensen vanuit de zoekresultaten landen. Maar wat als ze vervolgens doorklikken naar andere pagina’s op jouw website die helemaal niet bedoeld zijn als landingspagina. Zoals log-in pagina’s, pagina’s om te reageren op commentaren, een paswoord te recupereren, …Pagina’s die wel degelijk hun gebruiksnut hebben, maar door de ‘Googlebril’ niet als evenwaardig aan contentpagina’s aanzien worden.

Bij het maken van een XML-sitemap kan je er dus deze pagina’s maar beter tussenuit laten. Geef in de sitemap die pagina’s mee waarvan jij overtuigd bent dat ze goede content bevatten. Op die manier scheidt je al het kaf van het koren en maak je duidelijk aan de Google bot dat je wel degelijk weet welke pagina’s voldoende goede content hebben om in de XML-sitemap te komen en welke niet. Op basis van de pagina’s die de bot in jouw XML-sitemap terugvindt zal hij jouw website beoordelen en ranken.

Onterecht geïndexeerde pagina’s

Met de XML-sitefolder kan je dus zoals al eerder gezegd wel een suggestie doen aan Google van wat jij denkt dat waardevolle pagina’s zijn, maar dat belet de bots niets om ook andere pagina’s op jouw website te crawlen en deze te indexeren (tenzij deze in je robots-txt bestand zitten of je er een meta robots voor toegevoegd hebt).

Er bestaat met andere woorden wel degelijk nog een kans dat pagina’s worden gecrawld en geïndexeerd waarvan je het liever niet hebt.

Om deze volgens jou onterecht geïndexeerde pagina’s terug te vinden kan je in Google zoeken op site: gevolgd door de url van jouw website. De pagina’s die volgens jou niet in dit overzicht thuishoren, kan je een meta robots “noindex,follow” geven of toevoegen aan je robots.txt-bestand. De zwakste schakels vind je meestal op de laatste pagina van deze zoekresultaten.

Wat is het verschil tussen meta robots en een robots.txt-bestand?

Wanneer je een pagina opneemt in een robots.txt-bestand verhinder je, in tegenstelling tot wanneer je meta robots gebruikt, meteen ook dat er enige linkwaarde wordt meegegeven aan de pagina’s naar waar het linkt.

Neem nu een contactpagina met link in de footer en dus op elke pagina van jouw website voorkomt. Daar is het verstandiger om met meta robots te werken, waardoor er toch nog linkwaarde kan worden doorgegeven aan de andere pagina’s op jouw website.

Houd rekening met het crawlbudget

Wanneer je heel veel pagina’s hebt die niet bedoeld zijn als landingspagina’s kan je er meta robots “noindex,follow” aan toekennen. Weet dan dat je dreigt heel wat van het crawlbudget te laten gebruiken om deze pagina’s te crawlen en de Google bots eenvoudigweg niet meer toekomt aan die pagina’s waarvan het voor jou wel belangrijk is dat ze geïndexeerd worden. In die optiek is het gebruik van een robots.txt-bestand waarin je alle niet-contentmatige pagina’s opneemt interessanter

Stel, je hebt een webshop met paginas waarvan de content regelmatig wijzigt (blogpagina of productcategoriepagina’s). Daarnaast heb je uiteraard ook heel wat productpagina’s waarvan je ook graag zou hebben dat Google deze indexeert. Hoewel niet tegen de prijs dat de bot niet toekomt aan het regelmatig crawelen en indexeren van pakweg je productcategoriepagina’s. Voeg daarom deze laatste toe aan je sitemap. Op die manier weet Google dat deze voor jou belangrijker zijn dan de individuele productpagina’s die weliswaar ook geïndexeerd worden, maar niet in de XML-sitemap komen.

Maak meerdere XML-sitemaps

Je weet ondertussen hoe je een XML-sitemap moet maken en hebt een goed idee van welke pagina’s erin thuishoren en welke niet. Vol trots ga je na enige tijd in Google Search Console de door jou gemaakte sitemap checken. Je krijgt er een overzicht van het aantal pagina’s dat geïndexeerd werd. Alleen krijg je geen zicht op over welke pagina’s het nu exact gaat.

We grijpen opnieuw terug naar ons voorbeeld van een webshop. Met meer dan 200.000 producten, honderden tot wel duizenden productcategoriepagina’s en nog eens een veelvoud aan subcategoriepagina’s.

Je gooit alles in één sitemap en ziet vervolgens in Google Search Console dat zo’n 80.000 pagina’s geïndexeerd werden, maar welke pagina’s?

Je wil tegelijk ook weten:

  • hoeveel daarvan productcategoriepagina’s zijn,
  • hoeveel subcategoriepagina’s,
  • hoeveel individuele productpagina’s?

Vandaar is het misschien interessanter om in dit geval minstens drie afzonderijke sitemaps te maken.

Als je nu voor bv. de sitemap van de subcategoriepagina’s ziet dat niet alle pagina’s geïndexeerd werden, kan je specifieker gaan werken op bepaalde type pagina’s.

Ga de pagina’s die jij graag zou laten indexeren onder verdelen in verscheidene sitefolders met een aantal theoriën in gedachten:

  • 1. Pagina’s die geen productfoto hebben, worden niet geïndexeerd,
  • 2. Pagina’s met een meta description van minder dan 200 woorden ook niet,
  • 3. Evenmin pagina’s zonder reviews

Maak nu sitemaps met een voldoende aantal pagina’s die in één van de bovengenoemde categorieën thuishoort.

Vervolgens kan je gaan kijken naar het percentage van pagina’s uit een sitemap dat geïndexeerd werd. Op die manier kan je sneller zien welke factoren ervoor zorgen of een pagina al dan niet geïndexeerd wordt.

Van zodra je weet waar het schoentje wringt kan je ofwel de content gaan aanpassen ofwel voeg je een noindex toe indien het sop de kolen niet waard is. Voor pagina’s met een meta description van minder dan 50 woorden is de kans sowieso eerder gering dat deze geïndexeerd worden. Vergeet bij het gebruik van noindex, ze ook niet uit de sitemap te verwijderen

Dynamische sitemap

Deze manuele methode waarbij je sitemaps en meta robots op elkaar afstemt is uiteraard niet werkbaar voor wie een webshop heeft met honderdduizenden pagina’s.

Weet dan dat het ook anders kan en je ook meer dynamische sitemaps kan maken.

Je kan zogenaamde “rules” instellen om aan te geven of pagina in de XML-sitemap wordt opgenomen of niet. Je kan deze logica ook doortrekken bij het bepalen van de meta robots voor elke pagina.

Zo zal een productpagina die plots een meta description krijgt van meer dan 50 woorden, opeens wel in de sitemap worden opgenomen en een meta robots “index,folow” krijgen.

Meer info vind je hier

Wij hopen dat u met deze tips weer een stap dichter bent om de Google bots duidelijk te maken welke pagina’s op uw website voor u echt belangrijk zijn.