duplicate content

Duplicate content

21 augustus 2015

In 2011 lanceerde Google haar ondertussen beruchte Panda update. Een belangrijk onderdeel hiervan had betrekking op duplicate content, een SEO probleem dat al lang bestaat maar met Panda strenger wordt aangepakt.

In dit artikel bespreken we 1) wat duplicate content precies is, 2) waarom het van belang is voor zoekmachine optimalisatie, 3) welke soorten er zijn, 4) waarom het voorkomt, 5) hoe het te ontdekken en tenslotte 6) hoe het op te lossen.

1. Wat is duplicate content ?

Duplicate content, of “dubbele inhoud” in het Nederlands, wil zeggen dat er 2 of meerdere webpagina’s identiek of quasi identiek zijn qua inhoud op 1 bepaalde website of op verschillende sites. Onderstaande figuur maakt dit visueel duidelijk.

dubbele inhoud

2. Waarom is het een probleem?

Dubbele content kan SEO problemen veroorzaken. Voor Google heeft slechts de originele webpagina waarde; de kopieën ervan generen geen toegevoegde waarde. Die dubbele pagina’s bevuilen dus de Google-index. Indien de zoekmachine grote hoeveelheden duplicate content tegenkomt op een internetsite (bijvoorbeeld duizenden interne zoekopdrachten), is de kans reël dat het die pagina’s niet meer crawlt voor indexatie, met als gevolg dat ook de dieper gelegen pagina’s (zoals bijvoorbeeld de veel belangrijkere produktpagina’s) niet meer geïndexeerd worden. Vóór Panda was de algemene opvatting dat duplicated content alleen maar de betreffende pagina’s kon benadelen en eigenlijk niet echt een SEO probleem was. Na de oplevering van Panda kan dubbele inhoud een gehele website treffen, dus ook non-duplicated-content. Het is dus niet langer een alleenstaand probleem.

Wat gebeurt er indien externe backlinks, die bedoeld zijn voor een welbepaalde webpagina, opgesplitst worden naar verschillende URL’s ? Juist: de linkwaarde wordt eveneens gesplitst. Is dat het geval voor bijvoorbeeld de homepage (zie ook punt 4.1.), de belangrijkste pagina van een site, dan is dat negatief voor de gehele site-SEO.

3. Soorten

3.1. Echte-duplicate-content

Dit zijn webpagina’s die 100% gelijk zijn qua content aan een andere pagina. Visueel ziet dit er zo uit :

echte-duplicate-content

3.2. Bijna-duplicate-content

Dit zijn webpagina’s die slechts voor een klein gedeelte verschillen van een andere pagina. Visueel ziet dit er zo uit :

bijna-duplicate-content

Google zelf spreekt van substantiële blokken die aanzienlijk op elkaar lijken, maar laat in het midden wat ‘substantieel’ is.

3.3. Externe-duplicate-content

Dit zijn webpagina’s die quasi of 100% gelijk zijn aan de content van andere websites. In de meeste gevallen ziet Google welke site de oorspronkelijke webpagina heeft gepubliceerd, en zal het de andere site bestraffen. Visueel geeft dat volgende beeld:

externe-duplicate-content

4. Waarom ontstaan gedupliceerde pagina’s ?

Veelal ontstaat dubbele content gewoon … per ongeluk en zijn niet misleidend bedoeld. De volgende voorbeelden maken dat duidelijk.

4.1. www versus non-www

  • waarschijnlijk de grootste veroorzaker van duplicate pages
  • zowel de www als de non-www pagina’s worden geïndexeerd
  • voorbeeld:
    • http://www.website.be
    • http://website.be

4.2. Trailing /

  • technisch gezien is een URL met traling / een andere dan een URL zonder de /
  • voorbeeld:
    • http://www.website.be/schoenen
    • http://www.website.be/schoenen/
  • was vroeger een groter issue dan tegenwoordig, omdat de meeste zoekmachines nu zelf de / toevoegen en beide URL’s als dezelfde beschouwen

4.3. Https

  • met de huidige trend naar meer https-pagina’s, is dit issue actueler dan ooit
  • de kans is aanwezig dat per ongeluk zowel de https als de http pagina’s worden geïndexeerd
  • voorbeeld:
    • http://www.website.be
    • https://www.website.be

4.4. Test-website

  • de dubbele pagina’s ontstaan zodra een nieuwe website ‘onder constructie’ wordt ontwikkeld
  • meestal gebeurd dat onder een nieuwe URL, zoals bijvoorbeeld http://onderconstructie.website.be
  • maar het gebeurt frequent dat de ontwikkelaars na de live-gang vergeten de onder-constructie-site te blokkeren voor de crawlers
  • gevolg: de pagina’s van zowel de onder-constructie-site als de vernieuwde site worden geïndexeerd
  • voorbeeld:
    • http://www.website.be
    • http://onderconstructie.website.be

4.5. Zoek-paginatie

  • ontstaat wanneer een interne zoekopdracht op een website wordt gesplitst over verschillende pagina’s
  • voorbeeld:
    • http://www.website.be/zoekresultaten?categorie=schoenen
    • http://www.website.be/zoekresultaten?categorie=schoenen?page=2
  • hoewel het resultaat wel verschilt per URL, wordt het probleem veroorzaakt omdat de belangrijkste meta’s van de pagina’s (zoals title tag, header, meta description) steeds dezelfde zijn.

4.6. Nog veel meer varianten

  • er bestaan nog veel meer veroorzakers van gedupliceerde content
  • ze lijken min of meer op de bovenstaande voorbeelden
  • het zou ons te ver lijden om ze allemaal individueel te bespreken
  • hierbij kort nog enkele andere varianten:
    • affiliate duplicates: http://www.website.be vs http://www.website.be?affiliate=12345
    • sessie-id’s : http://www.website.be vs http://www.website.be?sessie=12345
    • product-duplicates: http://www.website.be/schoenen/clarkschoen1/zwart vs http://www.website.be/schoenen/clarkschoen1/bruin
    • internationale duplicates: http://www.website.be/schoenen vs http://www.website.nl/schoenen

4.7. Gekopieerde content

  • is content dat bewust gekopieerd is van andere websites, al dan niet met toestemming van de eigenaar van de content
    • indien met toestemming: weet dat dezelfde content ook elders in 1 of meerdere versies op het internet beschikbaar is, dat jouw gekopieerde content vaak de zoekresultaten niet haalt en dat je hoort terug te linken naar de oorspronkelijke bron
    • indien zonder toestemming: doe dit niet, het is niet wettelijk. Bovendien loop je het risico dat Google je volledige website uit de zoekresultaten verwijderd als uit onderzoek blijkt dat er sprake is van misleidende praktijken.

5. Diagnose tools

Met de onderstaande tools kan je duplicate content ontdekken op een site.

5.1. Google Webmaster tools

Ga naar de rubriek ‘Zoekopmaak’ van je Google-webmaster-tools en klik op ‘HTML-verbeteringen’: zie onderstaande figuur.

Webmaster tools

Klik op ‘Dubbele beschrijvingen in meta-tags’ en ‘Dubbele title tags’ om vast te stellen waar je dubbele teksten hebt.

5.2. Site:

Een andere praktische tool is Google’s site: command. Wil je achterhalen of bijvoorbeeld een bepaalde landingspagina duplicaten bevat, dan kan je onderstaande opdracht in de zoekbar zetten:

Site commande

5.3. Online tools

Online tools als Plag Spotter en Copyscape zijn eveneens handig om dubbele teksten op te sporen.

6. Oplossingen

Ok, nu we weten wat dubbele content is en hoe we het kunnen ontdekken, willen we uiteraard het ook oplossen. Dat kan via de volgende technieken

6.1. Redirect 301

Via de 301-redirect kunnen pagina’s, zowel voor bezoekers als robots permanent verplaatst worden naar een andere locatie.

6.2. Verwijderen 404

De meest eenvoudige oplossing is de gedupliceerde content verwijderen en een 404 error pagina terugsturen. Indien de content echt geen waarde heeft qua zoekverkeer en links, dan is dit een correcte oplossing.

6.3. Canonical tag

Indien unieke content toegankelijk is via meerdere URL’s, dan dient de voorkeurs-URL aan de search engine bekend gemaakt te worden. Dit kan door gebruik te maken van de zogenaamde canonical tag (wanneer beide URL’s operationeel moeten blijven), zie voorbeeld hieronder. Hiermee zeg je aan Google dat het de linkwaarde naar de originele pagina dient toe te kennen.

canonical tag

6.4. Robots.txt

Een andere optie is de gedupliceerde pagina’s toegankelijk te laten voor online bezoekers, maar te blockeren voor de crawl-spiders via de robots.txt file.

6.5. Meta robots tag

Een betere SEO oplossing dan 6.5. is aan de zoekmachines te zeggen dat ze een bepaalde webpage niet mogen crawlen & indexeren. Dat kan via onderstaande tag:

robots tag

6.6. Unieke content

Search engines hebben niet liever dat websites unieke, relevante content bieden aan hun online bezoekers. De simpelste manier om dubbele content te voorkomen is dus om zelf onderscheidende content te schrijven. Ontdek je gedupliceerde teksten op je website, dan is de boodschap herschrijven.

Samenvattend

Duplicate content ontstaat in de meeste gevallen onbewust en kan een negatieve invloed hebben op de SEO-posities van een website. Maak gebruik van de diagnose tools én oplossingen in dit artikel en ban dubbele inhoud van je site.