robots.txt

Robots.txt, een vaak vergeten SEO bestandje

Als we SEO opdrachten uitvoeren, controleren we standaard ook de robots.txt . En ja, we komen zeer regelmatig fouten tegen waardoor zoekbots zoals Googlebot onbewust worden geblokkeerd, met onverklaarbaar verlies aan website-bezoekers als pijnlijk gevolg.

What the f*** is een robots.txt ?

Ook wel Robots Exclusion Protocol (REP) genoemd. Het is een bestandje met een protocol die webmasters toelaten om bepaalde delen van een website te weren voor zoekrobots als Google / MSN / Yahoo / Bing ect. Het is handig om te verhinderen welke delen van je internet-site niet toegankelijk zijn voor de zoekmachine-crawlers, om aldus te verhinderen dat die inhoud geïndexeerd wordt. Het Robots-protocol kan eveneens ingezet worden om specifieke webspiders te blokkeren, bijvoorbeeld van de Chinese zoekmachine Baidu. Als je toch geen zaken doet met Azië en wetende dat het spideren van een website soms tot langere laadtijden kan leiden, is dit de oplossing.

Praktische voorbeelden

Het werkt als volgt. Voordat een spider een internetsite bezoekt, controleert die eerst of er een robots-file aanwezig is. Dit hoort normaliter steeds te staan in de hoofddirectory. Dus voor de website http://www.test.be , dient het robots.txt-bestand te staan op http:// www.test.be/robots.txt .

Wat moeten we in zo’n robotsfile zetten ? Robots.txt is een text file, die meestal slechts een paar lijnen bevat, zoals in voorbeeld 1 hieronder.

Voorbeeld 1 robots-file

User-agent : * betekent zoveel als dat dit gedeelte van het bestandje van toepassing is op alle robots.
Disallow: /geheim.html, op de volgende lijn: aan alle zoekbots wordt gevraagd om de pagina /geheim.html niet te scannen.

Voorbeeld 1 robots-file

Wil je dat de volledige geheim-directory uitgesloten wordt, gebruik dan een traling slash = / , zie voorbeeld 2 hierboven.

Voorbeeld 1 robots-file

In voorbeeld 3 wordt aan de bots gevraagd geen enkele pagina van deze site te spideren.

Voorbeeld 1 robots-file

Voorbeeld 4 verzoekt aan alle spiders om de volledige website te analyseren. Een andere mogelijkheid is om de file gewoon leeg te laten of er helemaal geen te maken.

Voorbeeld 1 robots-file

Met Voorbeeld 5 tracht je de spider ‘spambot’ uit te sluiten.

Voorbeeld 1 robots-file

Wil je slechts 1 bot toelaten, bijvoorbeeld die van Google, dan kan je voorbeeld 6 hanteren.

3 belangrijke kanttekeningen

    1. Sommige bots houden geen rekening met /robots.txt :
      • het is op de eerste plaats een conventie , een algemeen aanvaarde regel, het is geen garantie. Het zijn slechts richtlijnen die met name respectabele bots naleven.
      • malware-bots, die het internet scannen op zoek naar bijvoorbeeld email adressen voor spammers, houden zich veelal niet aan de robots.txt-conventie.
      • dus is het mogelijk om slechte robots te blokkeren ? In theorie wel, in de praktijk niet. Ook al ken je de naam van een spider die je website scant (en vaak vertraagt) en zet je hem in de robots-file, spambots zullen vaak gewoon de /robots.txt negeren. Wat je dan wel kan doen is het IP adres van die spambot blokkeren via je firewall en server.
    2. Het robots-protocol is openlijk toegankelijk; iedereen kan dus zien welke delen je niet wil laten spideren. Dus gebruik het niet om bepaalde info te verstoppen voor gewone bezoekers. Scherm dat af met een wachtwoord of zet het gewoonweg niet op je site.
    3. Alhoewel (respectabele) zoekmachines de inhoud, die door de robots-file verhinderd wordt, niet zullen crawlen, kan het gebeuren dat het toch in de zoekresultaten opduikt. Bijvoorbeeld door ankerteksten van links op andere websites. Om er zeker van te zijn dat de inhoud zeker niet voorkomt in de SERPs, is het aangewezen om de robots.txt-file toe te passen samen met een wachtwoord en meta robots parameters “noindex, follow”. Kijk maar eens naar onderstaande voorbeeld van Bol.com

Voorbeelden

Hieronder een voorbeeld van de robots.txt file van Bol.com . Zie bijvoorbeeld dat ze de directory /sdd/ blokkeren.

robots bol

Kijk wat er gebeurt wanneer deze je deze URL opzoekt in Google. De zoekmachinegigant pikt
nog meer dan 11.000 resultaten op…

SERP bol.com

  1. Besef ook dat dergelijke disallowed-pagina’s geen rankingpower meer kunnen doorgeven aan andere pagina’s. Om individuele pagina’s uit de zoekmachine-indexen te weren, gebruik best de meta <meta name= robots" content="noindex>. De volgende maal dat de webpagina wordt gespidered met deze code, ontdekt de bot de metatag noindex en wordt de pagina helemaal uit de zoekresultaten gelaten, ongeacht of andere websites een verwijzing ernaar bevatten. Opgelet: de noindex is enkel maar zinvol als de pagina NIET wordt geblokkeerd door de robots-file. Anders kan de bot de noindex immers niet zien en kan de pagina nog steeds opduiken in de SERPs.

Het verschil tussen robots.txt en noindex

  • Blocken met robots.txt = “bericht aan spiders: bezoek de URL niet, maar je mag hem nog wel in de zoekresulaten zetten”. Met die nuance dat de pagina’s waarop de robots-file betrekking hebben, erg slecht scoren in de zoekresultaten. Maar ze blijven wel vindbaar.
  • Blocken met noindex = “bericht aan spiders: jullie mogen de URL bezoeken, maar zet hem niet in de zoekresulaten”.

Hoe een /robots.txt creëren ?

  • Zet de file in de root directory van je website. Indien een bot het robots-bestand opzoekt, dan zal het alles in de domeinnaam negeren vanaf de eerste enkele slash en vervangen door de /robots.txt. Bijvoorbeeld voor http:// www.test.be/index.html wordt dat dus http:// www.test.be/robots.txt .
  • gebruik steeds kleine letters als bestandsnaam: dus niet Robots.Txt , maar wel robots.txt
  • vergeet de ‘s’ niet, want anders gaat het fout. Een robot.txt zal niet worden opgemerkt door de zoekmachines.
  • hanteer 1 disallow per lijn
  • als programma kan je notepad, wordpad, textedit en zelfs Word gebruiken. Sla het bestand wel steeds op als tekst-bestand, dus in .txt
  • test het bestand via de google-robots.txt-tester

Samenvattend

Een robots.txt-bestandje gebruik je om specifieke webpagina’s zoveel als mogelijk uit de zoekresultaten te houden en bepaalde webcrawlers te weren.