robots.txt

Robots.txt, een vaak vergeten SEO bestandje

Wat is een robots.txt bestand?

Een robots.txt bestand is een bestandje met een protocol die webmasters toelaat om bepaalde delen van een website af te schermen voor de zoekcrawlers van Google / Yahoo / Bing ect. Het is dus een handig tooltje om te verhinderen welke delen van je internet-site niet toegankelijk mogen zijn voor de zoekmachine-crawlers. En om aldus te voorkomen dat die content geïndexeerd wordt en in de zoekresultaten verschijnt.

Het Robots-protocol kan eveneens ingezet worden om specifieke webspiders te blokkeren, bijvoorbeeld de Chinese zoekmachine Baidu. Als je toch geen zaken doet met Azië en wetende dat het spideren van een website soms tot langere laadtijden kan leiden, is dit de oplossing. Wordt ook wel Robots Exclusion Protocol (REP) genoemd.

Als we SEO audits uitvoeren, controleren we standaard ook de robots.txt . En ja, we komen zeer regelmatig fouten tegen waardoor zoekbots zoals Googlebot onbewust worden geblokkeerd, met onverklaarbaar verlies aan website-bezoekers als pijnlijk gevolg.

Voorbeeld robots.txt van Online Marketing Monkey

Wil jij graag het voorbeeld zien van een goede robots.txt? Dan geven we je de robots.txt van onszelf, Online Marketing Monkey, mee.

Andere voorbeelden van robots.txt

Het werkt als volgt. Voordat een spider een website bezoekt, controleert die eerst of er een robots-file aanwezig is. Dit hoort normaliter steeds te staan in de hoofddirectory. Dus voor de website https://www.test.be , dient het robots.txt-bestand te staan op https:// www.test.be/robots.txt .

Wat moeten we in zo’n robotsfile zetten ? Een Robots.txt, waarbij de txt de afkorting is van text,  is een tekst bestand die meestal slechts een paar lijnen bevat, zoals in Voorbeeld 1 hieronder.

Voorbeeld 1 robots.txt file

Zie voorbeeld 1 hierboven. User-agent : * betekent zoveel als dat dit gedeelte van de website van toegankelijk is voor alle robots of crawlers.
Disallow: /geheim.html, op de volgende lijn: aan alle zoekbots wordt gevraagd om de pagina /geheim.html niet te crawlen.

Voorbeeld 2 robots.txt bestand

Wil je de volledige geheim-directory uitsluiten, gebruik dan een traling slash = / , zie Voorbeeld 2 hierboven.

Voorbeeld 1 robots-file

Voorbeeld 3 vraagt aan de bots geen enkele pagina van deze volledige site te spideren. Of anders gezegd: de website met een dergelijke robots.txt bestandje zal gewoon met al haar URL’s niet vindbaar zijn in de zoekresultaten.

Voorbeeld 1 robots-file

Voorbeeld 4 verzoekt aan alle spiders om de volledige website te analyseren. Het is dus precies het tegenovergestelde van voorbeeld 3. Een andere mogelijkheid is om de file gewoon leeg te laten of er helemaal geen te maken.

Voorbeeld 1 robots-file

Met Voorbeeld 5 tracht je de spider ‘spambot’ uit te sluiten.

Voorbeeld 6 robots.txt

Wil je slechts 1 specifiek crawlbot op je website toelaten, bijvoorbeeld die van Google, dan kan je Voorbeeld 6 hanteren.

Deze 7 feiten over robots.txt moet je kennen

    1. Sommige bots houden geen rekening met robots.txt :
      • het is op de eerste plaats een conventie , een algemeen aanvaarde regel, het is echter geen garantie. Het zijn slechts richtlijnen die met name respectabele bots naleven.
      • malware-bots, die het internet scannen op zoek naar bijvoorbeeld email adressen voor spammers, houden zich veelal niet aan de robots.txt-conventie.
      • dus is wel het mogelijk om slechte crawlrobots te blokkeren ? In theorie wel, in de praktijk vaak niet. Ook al ken je de naam van een spider die je website scant (en vaak ook nog vertraagt) en zet je hem in de robots-file, spambots zullen vaak gewoon de robots.txt file negeren. Wat je dan wel kan doen is het IP adres van die spambot blokkeren via je firewall en server.
    2. Het robots-protocol is openlijk toegankelijk: iedereen kan dus zien welke delen je niet wil laten spideren. Dus gebruik het niet om bepaalde info te verstoppen voor gewone bezoekers. Scherm dat af met een wachtwoord of zet het gewoonweg niet op je site.
    3. Zet het robots-bestand steeds in de hoofddirectory van je website.
    4. Het is gebruikelijk om ook de sitemaps in de robots-file te vermelden.
    5. Vaak staat ook de term crawl-delay vermeld in het robots.txt tekstbestand. Deze term zegt aan de crawlers hoe lang ze moet wachten na een bepaalde crawl actie.
      1. Crawl-delay: 5 zegt zoveel als ‘wacht 5 seconden na elk crawl’.
      2. Let op: met een crawl-delay van 5 seconden kan een zoekmachine slechts 17.280 URLs per dag bezoeken. Zeker voor omvangrijke websites vrij weinig.
      3. Crawl delay wordt gebruikt als de webmaster merkt dat de user-agents zodanig veel crawlen op een website dat de laadsnelheid eronder lijdt.
    6. Alhoewel (respectabele) zoekmachines de webpagina’s, die in de robots-file opgegeven zijn, niet zullen crawlen, kan het toch gebeuren dat de URLs ervan in de zoekresultaten opduiken. Zoals door backlinks die op andere websites staan. Om er zeker van te zijn dat de inhoud zeker niet voorkomt in de SERPs (Search Engine Result Pages), is het dus soms ook aangewezen om de robots.txt-file toe te passen samen met de meta robots parameters “noindex, follow”. Kijk maar eens hieronder naar de robotsfile van Bol.com
    7. Besef ook dat dergelijke disallowed-pagina’s geen rankingpower meer kunnen doorgeven aan andere pagina’s. Om individuele pagina’s uit de zoekmachine-indexen te weren, gebruik best de meta . De volgende maal dat de webpagina wordt gespidered met deze code, ontdekt de bot de metatag noindex en wordt de pagina helemaal uit de zoekresultaten gelaten, ongeacht of andere websites een verwijzing ernaar bevatten. Opgelet: de noindex is enkel maar zinvol als de pagina NIET wordt geblokkeerd door de robots-file. Anders kan de bot de noindex immers niet zien en kan de pagina nog steeds opduiken in de SERPs.

Praktijkvoorbeeld

Hieronder een voorbeeld van de robots.txt file van Bol.com . Zie bijvoorbeeld dat ze de directory /sdd/ blokkeren.

robots bol

Kijk wat er gebeurt wanneer deze je deze URL opzoekt in Google. De zoekmachinegigant pikt
nog meer dan 11.000 resultaten op…

SERP bol.com

Wat is het verschil tussen robots.txt en noindex?

  • Blocken met robots.txt = “bericht aan spiders: bezoek de URL niet, maar je mag hem nog wel in de zoekresultaten zetten”. Met die nuance dat de pagina’s waarop de robots-file betrekking hebben, erg slecht scoren in de zoekresultaten. Maar ze blijven wel vindbaar.
  • Blocken met noindex = “bericht aan spiders: jullie mogen de URL bezoeken, maar zet hem niet in de zoekresultaten”.

Hoe een /robots.txt creëren ?

  • Zet de file in de root directory van je website. Indien een bot het robots-bestand opzoekt, dan zal het alles in de domeinnaam negeren vanaf de eerste enkele slash en vervangen door de /robots.txt. Bijvoorbeeld voor https:// www.test.be/index.html wordt dat dus https:// www.test.be/robots.txt .
  • gebruik steeds kleine letters als bestandsnaam: dus niet Robots.Txt , maar wel robots.txt
  • vergeet de ‘s’ niet, want anders gaat het fout. Een robot.txt zal niet worden opgemerkt door de zoekmachines.
  • hanteer 1 disallow per lijn
  • als programma kan je notepad, wordpad, textedit en zelfs Word gebruiken. Sla het bestand wel steeds op als tekst-bestand, dus in .txt
  • test het bestand via de google-robots.txt-tester

Definities van de gebruikte robots.txt-termen

  • De term user-agent staat gewoon voor de naam van de crawler van de zoekmachine. Google’s useragent heet Googlebot, die van Bing wordt BingBot genoemd, Baidu is dan weer Baiduspider genoemd, ect.
  • Disallow is een commando aan useragents om de vermelde URL’s niet te crawlen
  • Allow, het tegenovergestelde van disallow, maakt Googlebot duidelijk een specifieke directory WEL te crawlen, ook al zijn bovenliggende disallowed.

Samenvattend

Een robots.txt-bestandje gebruik je om specifieke webpagina’s zoveel als mogelijk uit de zoekresultaten te houden en bepaalde webcrawlers te weren.