Crawler
Een crawler, ook wel spider genoemd, is een soort spin die pagina’s binnen een website crawlt en indexeert. Elke zoekmachine heeft zijn eigen crawler, zo heet die van Google “Googlebot”.
Een zoekmachine stuurt de crawlers het wereldwijde web in om pagina’s te doorzoeken en de content te indexeren. Het belang van een goede linkstructuur en de aanwezigheid van een sitemap is om die reden groot.
Het belang van crawlers
Elke website heeft een bepaald crawlbudget bij een crawler. Belangrijke pagina’s op je website zullen vaker gecrawld worden. Om het crawlbudget onder controle te houden en ervoor te zorgen dat onbelangrijke pagina’s niet gecrawld worden, kan je de crawler op bepaalde delen van je website blokkeren.
Crawlers blokkeren
Er zijn verschillende manieren om crawers te verbieden om (bepaalde delen van) je website te crawlen en te indexeren.
Robots.txt
Met dit bestand kan je een deel van je website afsluiten voor zoekrobots om te voorkomen dat deze geïndexeerd worden. Het Robots.txt-bestand kan ook specifieke spiders blokkeren.
Meta Tag Robot
Deze tag wordt gebruikt voor het uitsluiten van specifieke pagina’s en staat meestal in de header van de pagina.
Canonical tag
Om aan te tonen wat de hoofd-url van een pagina is, wordt een canonical tag gebruikt. Deze wordt hoofdzakelijk toegepast bij pagina’s met dezelfde content. De canonical tag maakt duidelijk welke pagina wel geïndexeerd moet worden tussen twee duplicaten.
Ontdek meer SEO-termen!