duplicate content

Duplicate content

Duplicate content is een SEO term en zegt dat dezelfde content op meerdere plaatsen op een website of op het internet voorkomt. In dit artikel bespreken we :

  1. Wat is duplicate content precies?
  2. Waarom het van belang is voor SEO?
  3. Welke soorten zijn er?
  4. Oorzaken?
  5. Hoe het te ontdekken?
  6. Tenslotte, hoe duplicate content oplossen?

1. Wat is duplicate content ?

Duplicate content, of “dubbele inhoud” in het Nederlands, wil zeggen dat er 2 of meerdere webpagina’s identiek of quasi identiek zijn qua inhoud op 1 bepaalde website of op verschillende sites. Onderstaande figuur maakt dit visueel duidelijk.

dubbele inhoud

2. Waarom is duplicate content een SEO probleem?

Duplicate content kan SEO problemen veroorzaken. Voor Google heeft slechts de originele webpagina waarde; de kopieën ervan generen geen toegevoegde waarde. Die dubbele pagina’s vervuilen dus de Google-index. Indien de zoekmachine grote hoeveelheden duplicate content tegenkomt op een website (bijvoorbeeld duizenden interne zoekopdrachten), is de kans reëel dat het die pagina’s niet meer crawlt voor indexatie, met als gevolg dat ook de dieper gelegen pagina’s (zoals bijvoorbeeld de veel belangrijkere produktpagina’s) niet meer geïndexeerd worden. Vóór de Google Panda update was de algemene opvatting dat duplicated content alleen maar de betreffende pagina’s kon benadelen en eigenlijk niet echt een SEO probleem was. Na de oplevering van Panda kan dubbele inhoud een gehele website treffen, dus ook non-duplicated-content. Het is dus niet langer een alleenstaand probleem.

Wat gebeurt er indien externe backlinks, die bedoeld zijn voor 1 welbepaalde webpagina, opgesplitst worden naar verschillende URL’s ? Juist: de linkwaarde wordt eveneens gesplitst. Is dat het geval voor bijvoorbeeld de homepage (zie ook punt 4.1.), de belangrijkste pagina van een site, dan is dat negatief voor de gehele website-SEO.

3. Soorten

3.1. Echte-duplicate-content

Dit zijn webpagina’s die 100% gelijk zijn qua content aan een andere pagina. Visueel ziet dit er zo uit :

echte-duplicate-content

3.2. Bijna-duplicate-content

Dit zijn webpagina’s die slechts voor een klein gedeelte verschillen van een andere pagina. Visueel ziet dit er zo uit :

bijna-duplicate-content

Google zelf spreekt van substantiële blokken die aanzienlijk op elkaar lijken, maar laat in het midden wat ‘substantieel’ is.

3.3. Externe-duplicate-content

Dit zijn webpagina’s die quasi of 100% gelijk zijn aan de content van andere websites. In de meeste gevallen ziet Google welke site de oorspronkelijke webpagina heeft gepubliceerd, en zal het de andere site bestraffen. Visueel geeft dat volgende beeld:

externe-duplicate-content

4. Oorzaken van duplicate content?

Veelal ontstaat dubbele content gewoon … per ongeluk en zijn niet misleidend bedoeld. De volgende voorbeelden maken dat duidelijk.

4.1. www versus non-www

  • waarschijnlijk de grootste veroorzaker van duplicate pages
  • zowel de www als de non-www pagina’s worden in dit geval geïndexeerd
  • voorbeeld:
    • https://www.website.be
    • https://website.be

4.2. Trailing /

  • technisch gezien is een URL met trailing / een andere dan een URL zonder de /
  • voorbeeld:
    • https://www.website.be/schoenen
    • https://www.website.be/schoenen/
  • was vroeger een groter issue dan tegenwoordig, omdat de meeste zoekmachines nu zelf de / toevoegen en beide URL’s als dezelfde beschouwen

4.3. Https

  • de huidige standaard is dat een website https is
  • de kans is aanwezig dat per ongeluk zowel de https als de http pagina’s worden geïndexeerd
  • voorbeeld:
    • http://www.website.be
    • https://www.website.be

4.4. Test-website

  • de duplicate content ontstaat zodra een nieuwe website ‘onder constructie’ wordt ontwikkeld
  • meestal gebeurd dat onder een nieuwe URL, zoals bijvoorbeeld https://onderconstructie.website.be
  • maar het gebeurt frequent dat de ontwikkelaars na de live-gang vergeten de onder-constructie-site te blokkeren voor de crawlers
  • gevolg: de pagina’s van zowel de onder-constructie-site als de vernieuwde site worden geïndexeerd
  • voorbeeld:
    • http://www.website.be
    • http://onderconstructie.website.be

4.5. Interne zoekresultaten

  • ontstaat door de interne zoekopdrachten, die bezoekers op een website invoeren
  • deze zoek-pagina’s hebben geen unieke content, maar enkel snippets van andere URLs
  • voorbeeld:
    • https://www.website.be/zoekresultaten?=babolat+pure+strike+tennisracket
    • https://www.website.be/zoekresultaten?categorie=schoenen?page=2
  • hoewel het resultaat wel verschilt per URL, wordt het probleem veroorzaakt omdat de belangrijkste meta’s van de pagina’s (zoals title tag, header, meta description) steeds dezelfde zijn.

4.6. Parameters en filters

  • website maken hier dezelfde content beschikbaar via verschillende URLs door toevoeging van een sessie-ID en andere URLs parameters
  • de sessie-id wordt gebruikt om een klant op een webshop een meer persoonlijk ervaring te geven zoals inhoud van de winkelmandje of filtermogelijkheden
  • Enkele voorbeelden:
    • affiliate duplicates: https://www.website.be vs https://www.website.be?affiliate=12345
    • sessie-id’s : https://www.website.be vs https://www.website.be?sessie=12345
    • product-duplicates: https://www.website.be/schoenen/clarkschoen1/zwart vs https://www.website.be/schoenen/clarkschoen1/bruin
    • internationale duplicates: https://www.website.be/schoenen vs https://www.website.nl/schoenen

4.7. Product varianten

  • komt vaak voor op webshops
  • duplicate content ontstaat dat veel productitems enkel maar verschillen van elkaar qua kleur bijvoorbeeld
  • Voorbeeld:
    • website met 4 items: een witte, rode, blauwe en groene polo
    • er zijn dus 4 URLs
    • alle info op de 4 URLs is quasi dezelfde behalve waarschijnlijk de foto
    • voor de zoekmachine zijn die 4 URLs quasi identiek aan elkaar

4.8. Gekopieerde content

  • is content dat bewust gekopieerd is van andere websites, al dan niet met toestemming van de eigenaar van de content
    • indien met toestemming: weet dat dezelfde content ook elders in 1 of meerdere versies op het internet beschikbaar is, dat jouw gekopieerde content vaak de zoekresultaten niet haalt en dat je hoort terug te linken naar de oorspronkelijke bron
    • indien zonder toestemming: doe dit niet, het is niet wettelijk. Bovendien loop je het risico dat Google je volledige website uit de zoekresultaten verwijderd als uit onderzoek blijkt dat er sprake is van misleidende praktijken.

5. Diagnose tools

Met de onderstaande tools kan je duplicate content ontdekken op een site.

5.1. Google Search Console

Ga naar de rubriek ‘Zoekopmaak’ van je Google-webmaster-tools en klik op ‘HTML-verbeteringen’: zie onderstaande figuur.

Webmaster tools

Klik op ‘Dubbele beschrijvingen in meta-tags’ en ‘Dubbele title tags’ om vast te stellen waar je dubbele teksten hebt.

5.2. Site:

Een andere praktische tool is Google’s site: command. Wil je achterhalen of bijvoorbeeld een bepaalde landingspagina duplicaten bevat, dan kan je onderstaande opdracht in de zoekbar zetten:

Site commande

5.3. Online tools

Online tools als Plag Spotter en Copyscape zijn eveneens handig om dubbele teksten op te sporen.

6. Oplossingen

Ok, nu we weten wat duplicate content is en hoe we het kunnen ontdekken, willen we uiteraard het ook oplossen. Dat kan met de volgende technieken.

6.1. Redirect 301

  • Via de 301-redirect kunnen pagina’s, zowel voor bezoekers als crawlers, permanent verplaatst worden naar een andere locatie.
  • Dus als een bezoeker op URL1 (de oude of slechte pagina) komt, wordt hij via de 301 doorverwezen (redirected) naar de nieuwe, betere URL2.

6.2. Verwijderen 404

De meest eenvoudige oplossing is de gedupliceerde content verwijderen en een 404 error pagina terugsturen. Indien de content echt geen waarde heeft qua zoekverkeer en links, dan is dit een correcte oplossing.

6.3. Canonical tag

Indien unieke content toegankelijk is via meerdere URL’s, dan dient de voorkeurs-URL aan de search engine bekend gemaakt te worden. Dit kan door gebruik te maken van de zogenaamde canonical tag (wanneer beide URL’s operationeel moeten blijven), zie voorbeeld hieronder. Hiermee zeg je aan Google dat het de linkwaarde aan de originele, beste pagina dient toe te kennen.

canonical tag

6.4. Robots.txt

Een andere optie is de gedupliceerde pagina’s toegankelijk te laten voor online bezoekers, maar te blokkeren voor de crawl-spiders via de robots.txt file.

6.5. Meta robots tag

  • Een betere SEO oplossing dan 6.5. is aan de zoekmachines te zeggen dat ze een bepaalde webpage niet mogen crawlen & indexeren. Dat kan via onderstaande tag:

robots tag

  • Via de meta robots tag willen we dus URLs, die reeds in de index zitten, uit die index verwijderen
  • De code zegt dus aan zoekmachines “hallo daar, gelieve deze URL niet langer te indexeren”.

6.6. URL-parameters Search Console

  • Je kan URL parameters managen via “URL-parameters” in (de oude sectie van) Google Search Console
  • daar kan je aan Google zeggen hoe het met bepaalde parameters moet omgaan.

6.7. Unieke content

Search engines hebben niet liever dat websites unieke, relevante content bieden aan hun online bezoekers. De simpelste manier om dubbele content te voorkomen is dus om zelf onderscheidende content te schrijven. Ontdek je gedupliceerde teksten op je website, dan is de boodschap herschrijven.

Samenvattend

Duplicate content ontstaat in de meeste gevallen onbewust en kan een negatieve invloed hebben op de SEO-posities van een website. Maak gebruik van de diagnose tools én oplossingen in dit artikel en ban dubbele inhoud van je site.

Wil jij de SEO-problemen van jouw website te weten komen? Vraag dan een gratis SEO-analyse aan en optimaliseer je website samen met Online Marketing Monkey!