crawl budget optimalisatie

Crawl budget optimalisatie

Dit is een vervolg op onze blogpost over SEO Log File Analyse. Na een dergelijke SEO analyse wordt je quasi steeds geconfronteerd met zogenaamde Low value URLs of Duplicate content die het SEO Crawl Budget van je website vervuilen. In dit artikel leer je hoe je aan crawl budget optimalisatie kan doen.

Canonical tag

De belangrijkstemanier om met URLs van lage waarde om te gaan is volgens ons gebruik te maken van de canonical tag.

Wat is een canonical URL ook al weer ?

Stel, we hebben een webpagina met URL XYZ en enkele andere URLs XXYZZ die er goed gelijken. Indien we nu een rel="canonical" tag toevoegen in de head van de URLs XXYZZ, zeggen we tegen de zoekmachines "Jullie moeten de URL XYZ indexeren en ranken. Alle andere URL’s, die erg goed lijken op deze URL XYZ, mogen jullie vergeten. Het is XYZ die belangrijk is, de anderen niet".

Voorbeeld

  • URL1 = https://www.voorbeeld.be/versie1
  • URL2 = https://www.voorbeeld.be/versie2
  • URL 3 = https://www.voorbeeld.be?ref=stock&price=123
  • URL 4 = https://www.voorbeeld.be/print.html

Bovenstaande 4 URL’s kunnen perfect quasi dezelfde content bevatten. Als URL 1 nu bijvoorbeeld de enige juiste webpagina is, kunnen we door volgende stukje html-code in de <head> van URL 2, 3 en 4 te plaatsen, namelijk <link rel="canonical" href="https://www.voorbeeld.be/versie1"> , weet Google "Aha, die pagina’s 2, 3 en 4 zijn een kopie van versie 1; het is versie 1 die ik moet ranken".

Het mooie van canonical-tags is dat ze ook de linkwaarde doorgeven aan de hofd-url. Schematisch ziet het er als volgt uit:

rel=canonical

Goed om weten

  1. Het is gebruikelijk dat versie 1 naar zich zelf verwijsd en dus ook de tag <link rel="canonical" href="https://www.voorbeeld.be/versie1"> in haar head-sectie opneemt.
  2. Het kan ook domeinoverschrijdend gebruikt worden. Stel dat we ook identieke content op een andere domein hadden staan, kunnen we dezelfde rel=canonical tag plaatsen naar versie 1.

Wanneer canonicalize ?

  1. Wanneer de content van 2 of meer web-urls zeer gelijkaardige of exacte copiën zijn
  2. Wanneer je 2 webpagina’s hebt waarvan de content niet identiek is, maar wel over hetzelfde onderwerp gaan. Dan kan het interessant zijn om de oude versie 1 te canoliseren naar de nieuwe versie 2
  3. Wanneer je een webpagina refreshed of update

Canonical is de beste manier om zoekmachines duidelijk te maken welke webpagina’s echt belangrijk zijn en dus aan crawl budget optimalisatie te doen. Weet dat er nog andere manieren hiervoor zijn, die soms ook te gebruiken zijn.

301-redirect

301 redirect

Zodra een bezoeker landt op pagina X, wordt deze letterlijk geforwarded naar versie Y. Terwijl bij een canonical de bezoeker op de oorspronkijke page blijft. Met een 301 zeggen we eigenlijk tegen Google "Hé, eigenlijk is versie 2 een vergissing, het is een oude webpagina die nooit hadmogen bestaan & vergeet deze en als bezoekers op deze pagina’s komen, stuur ze naar versie 1, die de enige juiste is".

URL-parameters

  • Sommige websites maken dezelfde content toegankelijk via verschillende URL’s door zogenaamde URL parameters in te zetten.
  • Wanneer een surfer bijvoorbeeld op een landingspagina van een webshop een aantal filter-opties gebruikt (merk, prijs, kleur ect), dan krijgt elke combinatie een andere URL, terwijl ze meestal quasi dezelfde inhoud bevatten.
  • Wanneer Google dergelijke webpages met dubbele inhoud ontdekt, zal het proberen de beste URL te tonen in de ranings. Vaak zijn dat niet URLs die je wenst. In dat geval kan je URL-parameters inzetten.
  • Zeker voor grote websites waarbij de IT afdeling niet meteen de capaciteit hebben om canonical-logica op te leveren, kunnen URL-parameters een tijdelijke oplossing zijn.
  • Je kan dit zelf instellen via je Search Console account onder > Crawlen > URL-parameters

Robots.txt

robots.txt

  • Met een robots.txt-bestandje kan je bepaalde delen van een website weren voor zoekrobots. Het is een manier om te voorkomen dat bepaalde delen van je internet-site toegankelijk zijn voor de zoekmachine-crawlers.
  • Het is een van de oudste manieren, maar tegenwoordig in veel gevallen verouderd.
  • Als het om duplicate content te blokken is, gebruik dan robots.txt niet.
  • Immers, eventuele ranking-signalen (zoals externe backlinks) die op bijvoorbeeld https://www.voorbeeld.be/versie2 binnen zouden komen, worden nu NIET meer doorgeven aan https://www.voorbeeld.be/versie1 . Terwijl dat met rel=canonical, 301-redirect en URL-parameters WEL het geval is.
  • dezelfde redenering gaat op voor de meta-robots opdracht <follow, noindex>

404 en 302

  • gebruik ook geen 404, want je verliest dan alle linksignalen van versie 2.
  • gebruik steeds de 301-redirect om linking-power correct door te geven; vermijd 302, 307 en andere 3xx, ook al heeft Google vorige jaar gezegd dat ze die "vaak" op dezelfde manier behandelen als een 301

 

Moz

Bovenstaande problematiek wordt door SEO specialist Rand Fishkin van Moz zoals steeds perfect uitgelegd in onderstaande video

.