robots.txt

Robots.txt, een vaak vergeten SEO bestandje

Wat is een robots.txt bestand?

Een robots.txt bestand is een klein tekstbestandje met een protocol die webmasters toelaat om bepaalde delen van een website af te schermen voor de zoekcrawlers van Google / Yahoo / Bing ect. Het is dus een handig tooltje om search engines te sturen welke website directories mogen gecrawld worden. Zo kan je aldus voorkomen dat bepaalde content geïndexeerd wordt en in de zoekresultaten verschijnt.

Het Robots-protocol kan eveneens ingezet worden om specifieke webspiders te blokkeren, bijvoorbeeld de Chinese zoekmachine Baidu. Als je toch geen zaken doet met China en wetende dat het spideren van een website soms tot langere laadtijden kan leiden, is dit de oplossing. Wordt ook wel Robots Exclusion Protocol (REP) genoemd.

Als we SEO audits uitvoeren, controleren we standaard ook de robots.txt . En ja, we komen zeer regelmatig fouten tegen waardoor zoekbots zoals Googlebot onbewust worden geblokkeerd, met onverklaarbaar verlies aan website-bezoekers als pijnlijk gevolg.

Voorbeeld robots.txt van Online Marketing Monkey

Wil jij graag het voorbeeld zien van een goede robots.txt? Dan geven we je de robots.txt van onszelf, Online Marketing Monkey, mee.

Meer voorbeelden van het robots.txt bestand

De robots-txt-file werkt als volgt. Voordat een crawler een website bezoekt, controleert die eerst of er een robots-file aanwezig is. Dit hoort normaliter steeds te staan in de hoofddirectory of root van de website. Dus voor de website https://www.test.be , dient het robots.txt-bestand te staan op https://www.test.be/robots.txt .

Wat moeten we in zo’n robotsfile zetten ? Een Robots.txt, waarbij de txt de afkorting is van text,  is een tekst bestand die meestal slechts een paar lijnen bevat, zoals in Voorbeeld 1 hieronder.

Voorbeeld 1 robots.txt file

  • Zie voorbeeld 1 hierboven.
  • User-agent : * betekent zoveel als dat de volledige website van toegankelijk is voor alle robots of crawlers.
  • Disallow: /geheim.html: wil zeggen aan alle zoekbots “jullie mogen alles crawlen, behalve echter de pagina /geheim.html”.

Voorbeeld 2 robots.txt bestand

  • Wil je de volledige geheim-directory uitsluiten ?
  • Gebruik dan een traling slash = / , zie Voorbeeld 2 hierboven.

Voorbeeld 1 robots-file

  • Voorbeeld 3 vraagt aan de bots geen enkele pagina van deze volledige site te spideren.
  • Of anders gezegd: de website met een dergelijke robots.txt bestandje zal gewoon met al haar URL’s niet vindbaar zijn in de zoekresultaten.

Voorbeeld 1 robots-file

  • Voorbeeld 4 verzoekt aan alle spiders om de volledige website te analyseren.
  • Het is dus precies het tegenovergestelde van voorbeeld 3.
  • Een andere mogelijkheid is om de file gewoon leeg te laten of er helemaal geen te maken.

Voorbeeld 1 robots-file

  • Met Voorbeeld 5 tracht je de spider ‘spambot’ uit te sluiten.
  • Deze bot wordt dus vriendelijk verzocht de website links te laten liggen.

Voorbeeld 6 robots.txt

  • Wil je slechts 1 specifiek crawlbot op je website WEL toelaten op je website, bijvoorbeeld die van Google, dan kan je Voorbeeld 6 hanteren.
  • Alle andere user-agents wordt gevraagd de website niet te crawlen.

Deze 5 feiten over robots.txt moet je kennen

    1. Sommige bots houden geen rekening met robots.txt :
      • het is op de eerste plaats een conventie,  een algemeen aanvaarde regel, het is echter geen garantie. Het zijn slechts richtlijnen die met name respectabele bots naleven.
      • malware-bots, die het internet scannen op zoek naar bijvoorbeeld email adressen voor spammers, houden zich veelal niet aan de robots.txt-conventie.
      • is het dan wel mogelijk om slechte crawlrobots te blokkeren ? In theorie wel, in de praktijk vaak niet. Ook al ken je de naam van een spider die je website scant (en vaak ook nog vertraagt) en zet je hem in de robots-file, spambots zullen vaak gewoon de robots.txt file negeren. Wat je dan wel kan doen is het IP adres van die spambot blokkeren via je firewall en server.
    2. Het robots-protocol is openlijk toegankelijk: iedereen kan dus zien welke delen je niet wil laten crawlen. Dus gebruik het niet om bepaalde info te verstoppen voor gewone bezoekers. Scherm dat af met een wachtwoord of zet het gewoonweg niet op je site.
    3. Zet het robots-bestand steeds in de hoofd-directory van je website.
    4. Het is gebruikelijk om ook de sitemaps in de robots-file te vermelden.
    5. Vaak staat ook de term crawl-delay vermeld in het robots.txt tekstbestand. Deze term zegt aan de crawlers hoe lang ze moet wachten na een bepaalde crawl actie.
      1. Crawl-delay: 5 zegt zoveel als ‘wacht 5 seconden na elk crawl’.
      2. Let op: met een crawl-delay van 5 seconden kan een zoekmachine slechts 17.280 URLs per dag bezoeken. Zeker voor omvangrijke websites vrij weinig.
      3. Crawl delay wordt gebruikt als de webmaster merkt dat de user-agents zodanig veel crawlen op een website dat de laadsnelheid eronder lijdt.

Praktijkvoorbeeld

Alhoewel (respectabele) zoekmachines de webpagina’s, die in de robots-file opgegeven zijn, niet zullen crawlen, kan het toch gebeuren dat de URLs ervan in de zoekresultaten opduiken. Zoals door backlinks die op andere websites staan. Om er zeker van te zijn dat de inhoud zeker niet voorkomt in de SERPs (Search Engine Result Pages), is het dus soms ook aangewezen om de robots.txt-file toe te passen samen met de meta robots parameters “noindex, follow”. Kijk maar eens hieronder naar de robotsfile van Bol.com

Hieronder een voorbeeld van de robots.txt file van Bol.com . Zie bijvoorbeeld dat ze de directory /sdd/ blokkeren.

robots bol

Kijk wat er gebeurt wanneer je dit sdd-gedeelte opzoekt in Google. De zoekmachinegigant pikt
nog meer dan 11.000 resultaten op…

SERP bol.com

Wat is het verschil tussen robots.txt en noindex?

  • Blokkeren met robots.txt = “bericht aan zoekmachines: bezoek de URL niet, maar je mag hem nog wel in de zoekresultaten zetten”. Met die nuance dat de pagina’s waarop de robots-file betrekking hebben, erg slecht scoren in de zoekresultaten. Maar ze blijven wel vindbaar.
  • Blokken via noindex = “bericht aan search engines: jullie mogen de URL bezoeken, maar zet hem niet in de zoekresultaten”.
  • Disallowed-pagina’s kunnen geen linkkracht meer doorgeven aan andere pagina’s. Om individuele pagina’s uit de zoekmachine-indexen te weren, gebruik best de meta robots. De volgende maal dat de webpagina wordt gespidered met deze code, ontdekt de bot de metatag noindex en wordt de pagina helemaal uit de zoekresultaten gelaten, ongeacht of andere websites een verwijzing ernaar bevatten. Opgelet: de noindex is enkel maar zinvol als de pagina NIET wordt geblokkeerd door de robots-file. Anders kan de bot de noindex immers niet zien en kan de pagina nog steeds opduiken in de SERPs.

Hoe een /robots.txt creëren ?

  • Zet de file in de root directory van je website. Indien een bot het robots-bestand opzoekt, dan zal het alles in de domeinnaam negeren vanaf de eerste enkele slash en vervangen door de /robots.txt. Bijvoorbeeld voor https:// www.test.be/index.html wordt dat dus https:// www.test.be/robots.txt .
  • gebruik steeds kleine letters als bestandsnaam: dus niet Robots.Txt , maar wel robots.txt
  • vergeet de ‘s’ niet, want anders gaat het fout. Een robot.txt zal niet worden opgemerkt door de zoekmachines.
  • hanteer 1 disallow per lijn
  • als programma kan je notepad, wordpad, textedit en zelfs Word gebruiken. Sla het bestand wel steeds op als tekst-bestand, dus in .txt
  • test het bestand via de google-robots.txt-tester

Definities van de gebruikte robots.txt-termen

  • De term user-agent staat gewoon voor de naam van de crawler van de zoekmachine. Google’s useragent heet Googlebot, die van Bing wordt BingBot genoemd, Baidu is dan weer Baiduspider genoemd, ect.
  • Disallow is een commando aan useragents om de vermelde URL’s niet te crawlen
  • Allow, het tegenovergestelde van disallow, maakt Googlebot duidelijk een specifieke directory WEL te crawlen, ook al zijn bovenliggende disallowed.

Samenvattend

Een robots.txt-bestandje gebruik je om specifieke webpagina’s zoveel als mogelijk uit de zoekresultaten te houden en bepaalde webcrawlers te weren.

Vragen over Robots.txt ?