website indexatie

Website indexatie

Je kan maar gevonden met je website worden op het internet, als de pagina’s ervan ook geïndexeerd zijn door de zoekmachines. Is dat niet het geval, dan kunnen die geen organisch zoekverkeer aantrekken. Daarom is het best wel interessant te weten welke pagina’s er niet worden geïndexeerd door Google en co, zodat je dit probleem kunt oplossen en je SEO posities weer een boost geven.

Wat is indexeren precies ?

Zoekmachines hebben eigenlijk 3 grote taken:

  1. Het vinden (= crawling) van internet-informatie
  2. Het catalogiseren (indexing) van die gevonden web-info
  3. Een zo accuraat antwoord bieden op zoekopdrachten

crawlen

Het crawlproces van search engines lijkt wel een beetje op een metro-netwerk. Beschouw elke metrohalte als een unieke webpagina, video, afbeelding ect. en de weg naar elke halte als een link. Om de hele metroplattegrond (lees het internet) in kaart te brengen en alle stopplaatsen (lees webpagina’s) te ontdekken, gebruikt de metro (lees de zoekmachine) de meest geschikte weg (lees links). Hyperlinks zijn dus hét bindmindel op het world wide web en laten zoekmachines toe de vele miljarden webcontent te bereiken. De engines gaan dus van link naar link en sturen de gevonden info terug naar hun servers. Is een webpagina niet verbonden met andere pages, dan kan het niet gecrawled of geindexeerd worden. Deze “wezen” zullen dus niet in de search results verschijnen.

De Google-bot crawlt dus het internet en plaats nieuwe en bijgewerkte webpagina’s in enorme databases, die op hun beurt de basis vormen voor indexatie. Dit zoekproces start met een lijst van UR’s van eerdere zoekprocessen en wordt aangevuld met de sitemapdata. Google-bot doorzoekt al deze sites en de gevonden hyperlinks worden opgenomen in de lijst van te crawlen pagina’s. Nieuwe websites & bestaande bijgewerkte pagina’s & broken backlinks worden alzo geanalyseerd en gebezigd om de index te actualiseren.

Alle gecrawlde pagina’s worden verwerkt in een enorme index, die alle gevonden woorden en meta-informatie bevat, samen met de locatie ervan op elke pagina. Zodra een surfer een zoekwoord intypt in zijn browser, wordt die mega-index doorzocht op de meest relevante resultaten, die dan in een fractie van een seconde in de zoekresultaten weergegeven worden. Samengevat, indien een URL is geïndexeerd, dan is deze vindbaar, om weergegeven te kunnen worden in de zoekresultaten voor een bepaalde zoekopdracht.

Site:

Een mogelijkheid om te controleren hoeveel bladzijden van een website zijn geïndexeerd, is het commando site: met de naam van de website er direct tegenaan (zonder de http://www ) in de zoekbaar van Google te typen. Bijvoorbeeld site:onlinemarketingmonkey.be . Deze manier van website indexatie is niet altijd even betrouwbaar omdat de resultaten al eens durven te wijzigen.

site: commando

 

site: opdracht

Eerst is het resultaat 166 op google.be. Als je een paar pagina’s verder scrollt, zijn het er plots maar 67. Doen we hetzelfde op google.nl, dan is het resultaat 165. Je wordt met dezelfde veranderende cijfers ook geconfronteerd in Bing (geeft als resultaten een range van 522 en 156) en Yahoo (resultaten tussen 526 en 158) . Bij dit laatste 2 merk je, als je surft naar de laatste resultatenpagina, dat het aantal resp. 156 en 158 is. Samen met de Google score krijg je zo wel een beeld van de orde van grootte van het aantal gecrawlde pagina’s, die waarschijnlijk voor dit voorbeeld momenteel rond de 160 zal liggen.

Herhalen we bovenstaande voor een grote website als bol.com, dan geeft google.be 2.160.000 resultaten, google.nl 2.180.000, maar liefst 20.000 stuks meer. Niet bepaald betrouwbaar dus. En toch komt het voor dat (sommige) online managers dit fluctuerende getal als een KPI durven gebruiken …

Search Console

Als we nu in Google Search Console gaan kijken, zien we bij Google-index / Indexeringsstatus de score 166 staan. Er van uitgaande dat site:-opdracht niet 100% betrouwbaar is, is het wel een goed teken dat deze resultaten ongeveer overeenkomen.

indexeringsstatus

Sitemap

Kijken we bij “sitemaps”, dan is het resultaat echter maar 134 index-pagina’s, van de 136 ingezonden, dus zo’n 30 stuks minder. Vreemd. Betekent dit nu dat de sitemap-data in GSC niet accuraat is ? We geven hieronder de verklaring.

Ter info: het versturen van de sitemap via Google Search Console helpt de zoekmachine om de website structuur beter te begrijpen. Soms ontdekt het zelfs URL’s die tijdens het normale crawl proces niet zijn opgepikt. Echter, een sitemap garandeert niet dat zoekmachines alle opgegeven webpagina’s zal crawlen of zal indexeren. Zie het op de eerste plaats als een soort advies-tool. Sitemaps vertellen aan search engines welke pagina’s ze moeten crawlen, zonder garantie dat die ook daadwerkelijk geïndexeerd gaan worden.

sitemap

Analytics

Ook een mogelijkheid: kijk in Google Analytics ( via Rapportage / Acquisitie / Zoekmachineoptimalisatie / Bestemmingspagina’s) welke landingspages verkeer ontvangen, zie afbeelding hieronder. Dit getal vertelt hoeveel unieke pagina’s minstens 1 bezoek van de google-crawler hebben ontvangen. Indien je dit cijfer elke maand checkt, kan het je meer inzicht geven of je pages meer organische bezoekers aantrekken of niet. Opgelet, net als bij de sitemap, zegt dit cijfer niet het exacte aantal geïndexeerde webpagina’s, maar geeft dus wel het aantal URL’s weer die minimaal 1 bezoek van een zoekmachine gekregen hebben, wat ons inziens het meest interessant is.

Waarom ? Wel, indexcijfers alleen zijn eigenlijk zinloos. Immers, het betekent dat die pages in de index zijn geraakt. Mooi, maar dat wil nog niet zeggen dat die pages ook webverkeer ontvangen. Anders gesteld: SEOers & webmasters moeten niet bezorgd zijn of URLs in de index staan, maar wel of die ook echt bezoekers aantrekken. Het cijfer vertelt of engines je URLs ook echt crawlen, indexeren én vermelden in de zoekresultaten.

GA

Niet geindexeerde URL’s opsporen

Hoe nu niet-geindexeerde webpages opzoeken ? Wel, dat is eigenlijk moeilijker dan gedacht. De Search Console en site:-opdracht geven daarover namelijk geen info.

  • Een oplossing is afzonderlijk 1 voor 1 elk webpagina’s te checken of ze in de index staan via het site:commando. Maar dit is veel te tijdrovend, zeker als je enkele honderden pagina’s dient te controlerengoogle-indexatie
  • Een andere optie is de opdracht ‘inurl:’ of ‘info’ te hanteren, mar dit is ook handmatig uit te voeren.
  • Het snelst gaat met een combinatie van (betalende) SEO tools als Screaming Frog, URL Profiler en Excel:
    • met screaming-frog scan je eerst alle URL’s van je website (in het voorbeeld zijn dat er 141)
    • vervolgens kan je via URLProfiler met hun handige functie “indexed in Google ” automatisch per pagina van je sitemap checken of die geïndexeerd is (voor het voorbeeld zijn dit er 132 van 134)
    • vervolgens kan je in Excel met de functie =ALS.FOUT(VERT.ZOEKEN(A2;F:F;1;0);”Niet geindexeerd”) snel die pagina’s opzoeken die niet in de google index staan
    • op deze manier krijg je op een semi automtische wijze een beeld van de website indexatie; voor ons voorbeeld zijn dat er 9, waarvan het perfect logisch oogt dat ze niet opgenomen zijn (zie volgend punt).

Echter, in plaats van alle individuele non-indexed pages te overlopen, is het beter ervoor te zorgen dat elke pagina high-quality content heeft en dat de site veel backlinks kent. Weet dat Google geen enkele waarde aan de niet-geïndexeerde pagina’s schenkt, de welke dus niet kunnen ranken noch online bezoekers kunnen aantrekken

Waarom zijn bepaalde webpagina’s niet geïndexeerd ?

Zoekmachines ontdekken web-pagina’s via links van andere sites en via de ingediende XML-sitemaps in deSearch Console. De engines crawlen de pagina’s om te bepalen of de content voldoende waardevol is voor surfers en hun respectievelijke zoekopdrachten. Ze komen in aanmerking voor website indexatie indien indien voldoende relevant.

Redenen waarom sommige webpages niet geindexeerd zijn + uitleg waarom de resultaten van de sitemap verschillen van de google indexeringsstatus:

  • soms staan de pagina’s wel in de searchresults, maar bijvoorbeeld pas op positie 725, waardoor het lijkt alsof ze geen index-status hebben
  • bij nieuwe sites duurt het een tijdje vooraleer de Googlebot deze heeft opgemerkt. De goede oplossing hiervoor is een backlink van een andere, al bestaande geindexeerde website te zetten naar de jouwe waardoor de bots bij het crawlen ook de jouwe ontdekken
  • houd er ook rekening mee dat de zoekmachines soms ook gewoon niet aan sommige pagina’s kunnen omdat ze gewoon te “diep” liggen. Kan opgelost worden door internal linking, bijvoorbeeld vanaf de homepage of via pagina’s er juist onder en door nieuwe pagina’s zo dicht als mogelijk bij de domeinnaam zelf te houden.
  • al vaker ter sprake op onze blog: omdat je per ongeluk de bots verbiedt je pagina’s te scannen met je robots.txt file, die dan uiteraard aangepast dient te worden.
  • door duplicate content. Is het gemakkelijkst uit te leggen voor een webwinkel. Heb je bijvoorbeeld 500 artikelen, dan heb je hiervoor normaliter ook 500 individuele webpagina’s. Als deze productpagina’s bijvoorbeeld alleen maar van elkaar verschillen in bijvoorbeeld de kleur of een ander klein technisch detail, dan kunnen de search engines die pagina’s wel eens als hetzelfde beschouwen en er slechts enkele van indexeren. Zorg dus steeds voor unieke content voor iedere pagina !
  • pas een nieuwe sitemap ingediend of heel wat nieuwe URLs ? Wees geduldig, want het duurt een tijdje vooraleer alle pagina’s geïndexeerd zijn.
  • een pagina die toegankelijk is met en zonder www telt voor de sitemap als 1 pagina, voor de indexstatus als 2
  • idem voor pagina’s met resp. http en https
  • oude content die soft 404’s hebben, in plaats van 401 of 301
  • verder hanteert Google de sitemap als een soort website-plattegrond om URL’s te ontdekken, maar deze bepaalt echter niet wat daarvan nu wel of niet geïndexeerd dient te worden. De map kan dus URL’s bevatten die enkel voorkomen in haar bestand, maar die een surfer niet zal aantreffen in de search results omdat de engines ze niet voldoende kwalitatief vindt voor relevant zoekopdrachten
  • We hebben de indruk dat bovenstaande scores met opzet onbetrouwbaar gemaakt worden om te voorkomen hoe de algoritmes precies werken en te kunnen checken wat het onmiddelijke effect is van iedere kleine wijziging.
  • verder vermoeden we dat google niet alle pagina’s uit de sitemap indexeert omdat ze ervan uitgaat dat de geïndexeerde URL’s als voldoende representatief beschouwt voor het totaal aantal aangeleverd, met als redenering dat met nog meer geïndexeerde URL’s de search results niet beter zullen worden. Om het met Google’s eigen woorden te zeggen:

    We indexeren miljarden webpagina’s en proberen dit aantal voortdurend te verhogen. We kunnen echter niet garanderen dat we alle pagina’s van een site crawlen. Google crawlt niet alle pagina’s op internet en we indexeren niet alle pagina’s die we crawlen. Het is volstrekt normaal dat niet alle pagina’s op een site worden geïndexeerd.

Samenvattend

Het niet-indexeren van webpagina’s door zoekmachines is nadelig voor je vindbaarheid en je SEO posities. Het kan diverse oorzaken hebben. Verbeter je website indexatie door bovenstaande adviezen toe te passen. De KPI die je het best opvolgt is het aantal bezochte bestemmingspagina’s in Google Analytics. Het verband tussen en SEO en crawling, indexering en ranking wordt visueel uitgelegd in onderstaande infographic.

infographic website-indexatie