SEO Log file analyse

SEO Log file analyse wordt op de eerste plaats toegepast in het kader van website beveiliging. Veel minder bekend is dat het ook erg interessant is om logfile analysis toe te passen in SEO of zoekmachine optimalisatie.

Wat is SEO Log file analyse precies ?

Log file analyse voor SEO is het proces waarbij je aan de hand van de logs van je website nagaat welke webpagina’s van je site precies opgepikt worden door search engines. In de website-logs staat immers informatie over elke interactie op de site, zowel van mensen als van search-bots. Log file analyse is het proces bij uitstek om het Crawl budget van een website zo optimaal mogelijk in te zetten.

Aan de hand van de log file(s) van je website, die elke webmaster je kan bezorgen of die je zelf kan downloaden van de server, en met behulp van een Analysis tool ( zoals bijvoorbeeld Screaming Frog ) kan je nagaan of je website wel correct functioneert qua SEO. Logs bevatten ongelofelijke accurate data die je toelaten veel beter te begrijpen hoe zoekmachines je internetsite interpreteren.

Waarom Log File analyse voor SEO belangrijk is ?

SEO Log file analyse is dé manier om na te gaan of een website een goede crawl-efficiëntie kent; immers, wanneer een site qua zoekmachine optimalisatie niet optimaal werkt, komt dit tot uiting in de crawling.
En een suboptimale crawling heeft een direct negatieve impact op je zoek rankings.
Dit is eigenlijk de reden waarom technische SEO zo belangrijk is: vooraleer je site kan ranken op de juiste zoekwoorden, moeten zoekmachines je site eerst correct kunnen crawlen;
Controleert precies welke URLs wel en welke niet gecrawld kunnen worden door de search bots;
Controleert of ‘low-value-URLs’ worden gecrawld en geïndexeerd;
Checkt de response codes die zoekmachines tegenkomen tijdens het crawlen;
Identificeert crawl manco’s;
Detecteert aan welke pagina’s de zoekmachine voorrang geven & als de belangrijkste beschouwen;
Informeert je over een hele reeks vaak onbekende technische SEO problemen die je anders nooit had opgemerkt;
Ontdekt ‘crawl budget waste’
- crawl budget’ : het aantal URLs die Google kan en wil crawlen. Deze hoeveelheid URLs wordt bepaald door de zogenaamde domain authority (DA).
- hoe hoger de DA, hoe hoger het crawl budget dat een zoekmachine wil toewijzen aan een website.
- mits dit crawl budget niet onbeperkt is, moeten we dus voorkomen dat Google niet relevante pagina’s aan het crawlen is.

Output nader bekeken

Crawled URLs identificeren

Welke URLs werden door de Search Engines nu eigenlijk gecrawld voor een bepaalde periode ?
Dit zijn dus webpagina’s waarvan zoekmachines weet dat ze bestaan
Weet dat naast de Google-bot, er nog andere search bots bestaan:
- de bekendste hiervan is Bing-bot,
- maar je hebt bijvoorbeeld ook Baidu (China) en Yandex (Rusland)

Low value URLs identificeren

Je ontdekt welke URLs frequent worden gecrawld
Hierbij ontdek je ongetwijfeld webpages die door de search-bots veel frequenter worden bezocht, maar die eigenlijk voor de site helemaal niet belangrijk zijn
Hiermee kan je het crawl-budget efficiënter gaan inzetten

Minste / Meeste gecrawlde webpagina’s

Hoe frequent een searchbot een pagina bezoekt hangt onder meer af van de zogenaamde google freshness
Het gaat jammer genoeg niet vanzelf om je belangrijkste URLs vaker te laten crawlen;
Daarom best handig om te ontdekken welke van je belangrijke pages frequent bezocht worden en welke juist niet, om alzo een eventueel onderliggend probleem te ontdekken;
Omgekeerd geldt natuurlijk ook: je ontdekt of irrelevante URLs van lage kwaliteit worden gecrawld en geïndexeerd. Zeker voor grote websites wil je dit vermijden door dergelijke niet gebruiksvriendelijke pagina’s te blokkeren via bijvoorbeeld de robots.txt file.

Bezoekfrequentie Bots

Welke user-agents bezoeken de website het vaakst ?
Voor de meeste Europese websites is Googlebot veel belangrijker dan bijvoorbeeld de Baiduspider.
Wordt dit niet bevestigd in je logdata, dan is dit interessant om verder te onderzoeken, bijvoorbeeld door het robots.txt bestand grondig onder de loep te nemen.

Crawlfouten

Je kan op eenvoudige manier eveneens een inzicht krijgen welke webpagina’s niet konden bekeken worden door de bots
Dit door te filter op ‘response-code=404’
Zitten er hoog-converterende URL’s tussen, dan weet je wat te doen.

En zoveel meer

Je kan met Log file analyse voor SEO nog veel meer insights bekomen; het zou ons te veer leiden om ze allemaal te spreken
Weet dat je ook volgende data kan bekomen:
- crawlfrequentie per subdirectory en productgroep
- crawlhoeveel per dag / week / maand
- check van search bots IP-adressen
- ontdekken van URLs die ’te zwaar’ en/of te traag zijn
- welke spambots bezoeken je website

Adviezen om het crawl budget te verbeteren

Kan het crawlbudget van een website verbeterd worden? Ja zeker, op de eerste plaats door de site-overkoepelde technische issues op te lossen. Hieronder 8 tips voor een hoger crawl budget :

Verhoog je link autoriteit
Zorg voor goed gestructureerde sitemaps
Verbeter de laadsnelheid van de website
Vermijd 404-links en 301 redirect paden
Verwijder pagina’s met quasi dezelfde content
Bouw een logische site architectuur op
Gebruik Google Search console om crawl errors te ontdekken: hoe staat het met de fout-pagina’s, uitgesloten URLs, crawlafwijkingen, webpagina’s met omleiding, uitgesloten 404’s, alternatieve pagina’s, ect ?
Verifieer op regelmatige basis via SEO logo file analyse welke pagina’s Google Bot bezoekt.

Tools om crawling en indexering te sturen

Als SEOer beschik je gelukkig over een aantal tools om de crawling en indexering van een website te sturen. Deze methodes hebben alleen een andere invloed op de crawlbaarheidheid, indexeerbaarheid en doorgave van de linkwaarde van een webpagina.

Een URL, met een canonical tag die niet self referencing is, wordt nog steeds gecrawld, is niet meer indexeerbaar, maar zal wel nog linkwaarde doorgeven aan de verwijzende URL. Pagina’s die in het robots.txt bestand zijn opgenomen als ‘disallow’, zullen niet meer gecrawld worden, bijgevolg zijn ze ook niet meer indexeerbaar en geven ze geen linkwaarde meer door. Webpagina’s die een robots directieve als noindex in de ‘head’ hebben, zijn wel nog crawlbaar, maar niet meer indexbaar en geven geen Google juice door. URLs met het Hreflang attribuut blijven crawlbaar, indexeerbaar, maar geven geen linkautoriteit door, waar bij paginatie dit laatste wel het geval is.

In onderstaande tabel een overzicht van de diverse controle methodes en hun invloed op het crawl- en index-proces.

Tool	Crawlbaar ?	Indexeerbaar ?	Doorgave linkwaarde ?
Canonical tag	ja	nee	ja
Robots.txt	nee	nee	nee
Robots directives	ja	nee	nee
Hreflang	ja	ja	nee
Paginatie	ja	ja	ja

Besluit

Met een SEO log file analyse leer je veel beter te begrijpen hoe search engines een website precies crawlen en welke informatie ze erop vinden. Je ontdekt eventuele SEO problemen die op een andere manier veel moeilijker gevonden kunnen worden.

SEO verbeteren? Contacteer ons