Duplicate Content

Duplicate Content (Oftmals abgekürzt als „DC“) wörtlich übersetzt doppelter Inhalt, beschreibt identische Inhalte, die an mindestens zwei Stellen bzw. unter zwei unterschiedlichen URL’s im Internet vorhanden sind.

Das Gegenteil bezeichnet man als Unique Content.

Doppelte Inhalte (Duplicate Content) können zu Problemen der Indexierung der Inhalte durch Suchmaschinen führen. Wenn es mehrere Teile von, wie Google es nennt , „merklich ähnlichen“ Inhalten an mehr als einem Ort im Internet gibt, kann es für Suchmaschinen schwierig sein, zu entscheiden, welche Version für eine bestimmte Suchanfrage relevanter ist. Google „bestraft“ das unter Umständen mit einem schlechten Ranking der jeweiligen Seiten bzw. Inhalte bis hin zum kompletten Ausschluss der Seite aus dem Index. In einem solchen Fall wären die Inhalte dann nicht mehr über die Google-Suche auffindbar.

Unterschiedliche Ausprägungen von Duplicate Content

Es gibt unterschiedliche Ausprägungen von Duplicate Content. So wird beispielsweise unterschieden ob Teile (beispielsweise einzelne Textpassagen) oder ganze Seiteninhalte identisch sind.

Des Weiteren wird unterschieden ob die doppelten Inhalte innerhalb einer Domain vorkommen oder auf unterschiedlichen Domains. Populäres Beispiel für Duplicate Content auf unterschiedlichen Domains wären Pressemitteilungen die identisch auf mehreren Pressportalen veröffentlicht werden. Eine solche Form zählt zu einer schwächeren art von Duplicate Content und führt somit zu keiner Sanktion (Ranking Abstrafung) durch Google.

Doppelte Inhalte auf einer Domain (also identische Inhalte die auf unterschiedlichen URL’s auf der eigenen Domain zu finden sind) hingegen sind unbedingt zu vermeiden, da dies häufig zu einem schlechteren Ranking führt, bis hin zum kompletten Ausschluss der Seite aus dem Google-Index. Die jeweiligen Inhalte der Seite sind somit über die Google-Suche kaum oder gar nicht mehr auffindbar – Wertvolles Traffic-Potential wird damit verschenkt.

Wie entsteht Duplicate Content?

Oftmals entsteht Duplicate Content unbeabsichtigt und völlig unbewusst, indem beispielsweise technische Servereinstellungen (der URL-Klärung) falsch vorgenommen werden. So werden beispielsweise Seiten/URL’s mit und ohne www oder http und https Seiten/URL’s mehrfach indexiert.

Beispiele für die Entstehung von Duplicate Content:

1.) URL-Variationen

URL-Parameter wie Klickverfolgung und einige Analysecodes können zu Problemen mit doppeltem Inhalt führen. Dies kann ein Problem sein, das nicht nur durch die Parameter selbst verursacht wird, sondern auch durch die Reihenfolge, in der diese Parameter in der URL selbst angezeigt werden.

2.) URL’s mit Session-ID’s

In ähnlicher Weise sind Sitzungs-IDs ein häufiger Ersteller doppelter Inhalte. Dies tritt auf, wenn jedem Benutzer, der eine Website besucht, eine andere Sitzungs-ID zugewiesen wird, die in der URL gespeichert ist.

Sitzungs-IDs oder -Parameter können doppelten Inhalt erstellen
Druckerfreundliche Versionen von Inhalten können auch zu Problemen mit doppelten Inhalten führen, wenn mehrere Versionen der Seiten indiziert werden.

Druckerfreundliche Seitenversionen können Probleme mit doppelten Inhalten verursachen
Eine Lektion hier ist, dass es oft von Vorteil ist, das Hinzufügen von URL-Parametern oder alternativen Versionen von URLs zu vermeiden (die darin enthaltenen Informationen können normalerweise über Skripte übertragen werden).

3.) HTTP vs. HTTPS oder WWW vs. Nicht-WWW-Seiten

Wenn Ihre Site unter „www.site.com“ und „site.com“ separate Versionen hat (mit und ohne das Präfix „www“) und in beiden Versionen derselbe Inhalt vorhanden ist, haben Sie effektiv Duplikate von jeder dieser Versionen erstellt Seiten. Gleiches gilt für Websites, die Versionen sowohl unter http:// als auch unter https:// verwalten. Wenn beide Versionen einer Seite live und für Suchmaschinen sichtbar sind, kann es zu Problemen mit doppelten Inhalten kommen.

4.) Produktinformationen / Pressemitteilungen

Wenn mehrere verschiedene Online-Shops den gleichen Artikel verkaufen und alle die selben vom Hersteller vorgegebenen Produktbeschreibungen des Artikels verwenden, werden identische Inhalte an mehreren Stellen im Web angezeigt. Gleiches gilt für Pressemitteilungen, die in identischer Formulierung auf mehreren Websites bzw. Presseportalen veröffentlicht werden.

5.) Portale und Branchenverzeichnisse

Branchenverzeichnisse generieren oftmals dynamische URL’s zu bestimmten Inhalten. Beispielsweise Werden fünf Adressen zu Rechtsanwälten mit dem Fokus auf Familienrecht in einem Ort wie Frankfurt ausgegeben. Sucht ein Nutzer über den Ort, wählt dann die Branche und den Fokus aus, kommt beispielsweise folgende URL zustande: www.branchenverzeichnis.de/Frankfurt/Rechtsanwalt/Familienrecht. Sucht der Nutzer jedoch über den Berufszweig und wählt dann den Fokus sowie zuletzt den Ort aus, kommt unter Umständen folgende URL zustande: www.branchenverzeichnis.de/Rechtsanwalt/Familienrecht/Frankfurt. Unter den beiden unterschiedlichen URL’s wären jedoch exakt die gleichen Inhalte zu finden, da in beiden Fällen die fünf Anwaltskanzleien angezeigt werden würden.

6.) Paginierung

Bei CMS basierten Websites (Beispielsweise WordPress) werden häufig automatisch Seiten mit Paginierungen angelegt. Insbesondere auf Kategorieseiten, Tag-Seiten oder Beitragsseiten. Immer dann wenn beispielsweise in der Konfiguration festgelegt wurde, dass maximal pro Seite 10 Beiträge angezeigt werden sollen, aber mehr als 10 Beiträge existieren, legt WordPress automatisch eine Paginierung an. Dabei kann unter Umständen ebenfalls Duplicate Content entstehen.

Problemlösung:

Das Problem von Duplicate Content lässt sich lösen, indem man dem orginären Content erkenntlich macht bzw. auf Seiten mit doppelten Inhalten diese als Duplikate kennzeichnet und mittels Canonical Tag auf die URL des ursprünglichen Inhalts verweist.

Verschiedene Lösungsansätze:

  • Verwenden einer 301-Weiterleitung zur richtigen URL
  • Konsolidierung von Inhalten
  • Verwendung eines Attributs rel = canonical
  • Verwendung des No-Index Tag
  • Verwenden des Tools zur Parameterbehandlung in der Google Search Console.

Weiterleitung per 301 Redirect (permanently moved):

In vielen Fällen besteht die einfachste Lösung darin, doppelte Inhalte per 301-Weiterleitung von der „doppelten“ Seite/URL zur URL der orginären bzw. ursprünglichen Inhaltsseite einzurichten. Die Weiterleitungen können in der .htaccess Datei eingerichtet werden. Um eine Vielzahl von Weiterleitungen nicht für jede einzelne URL angeben zu müssen, können in der .htaccess Datei auch ganze Verzeichnisse weitergeleitet werden. Dies bitte sich im Falle der Behebung von Duplicate Content meist nicht an.

Konsolidierung von Inhalten:

Wenn mehrere Seiten mit dem Potenzial, ein gutes Ranking zu erzielen aber durch (teilweise) doppelte Inhalte miteinander konkurrieren, so sollten diese besser zu einer einzigen Seite zusammengefasst werden. Diese Möglichkeit biet sich immer dann an, wenn nur einzelne Teile (z.B. Textpassagen) zweier Seiten identisch sind. Zum einen konkurrieren somit nicht mehr miteinander, zum anderen erzielen solche ganzumfassenden, holistischen Seiten (holistic content) auch insgesamt eine höhere Relevanz zu dem Thema und werden von Google meist mit einem guten Ranking (Platzierung) belohnt.

Canonical Tag (rel = canonical):

Eine weitere Option für den Umgang mit doppelten Inhalten ist die Verwendung des Attributs rel = canonical. Dies teilt Suchmaschinen mit, dass eine bestimmte Seite so behandelt werden soll, als wäre sie eine Kopie einer angegebenen URL. Alle Links und seitenspezifischen Metriken wie Trust-Rank, Link-Juice, etc. die Suchmaschinen auf diese Seite anwenden, sollten dann der angegebenen URL gutgeschrieben werden.

Das Attribut rel = „canonical“ ist Teil des HTML-Heads einer Webseite und wird im folgenden Format angegeben:

<head> … [anderer Code, der sich möglicherweise im HTML-Kopf Ihres Dokuments befindet] … <link href = „URL DER ORIGINALSEITE“ rel = „kanonisch“ />…[anderer Code, der sich möglicherweise in Ihrem Dokument befindet HTML-Kopf] … </ head>

Das Attribut rel = canonical sollte dem HTML-Kopf jeder doppelten Version einer Seite hinzugefügt werden, wobei der Abschnitt „URL OF ORIGINAL PAGE“ oben durch einen Link zur ursprünglichen (kanonischen) Seite ersetzt wird. Stellen Sie dabei sicher, dass Sie die Anführungszeichen beibehalten.

Meta-Robots „Noindex“:

Mit einem Meta-Robots Tag und dem Attribut „noindex“ lässt sich eine einzelne Seite aus dem Google Index entfernen bzw. den Suchmaschinen mitteilen, dass diese Seite nicht von Suchmaschinen indexiert werden darf. Dies kann beim Umgang mit doppelten Inhalten besonders nützlich sein. Macht man dies für das Duplikat, löst man damit das Duplicate Content Problem.

Das Tag kann dem HTML-Head jeder einzelnen Seite hinzugefügt werden, die von der Indexierung durch Suchmaschinen ausgeschlossen werden soll.

Beispiel:

<head> … [anderer Code, der sich möglicherweise im HTML-Kopf Ihres Dokuments befindet] … <meta name = „robots“ content = „noindex, follow“> … [anderer Code, der sich möglicherweise im HTML-Kopf Ihres Dokuments befindet ] … </ head>

  • Mit dem „noindex“ Attribut (Gegenteil von „index“), lässt sich die Seite von der Indexierung ausschließen.
  • Mit dem „follow“ Attribut (Gegenteil von „nofollow“), lässt man zu, dass der Google-Bot die Links crawlen darf.

Mit dem oben angegebenen Meta-Robots Tag können Suchmaschinen die Links auf einer Seite crawlen, die Seite jedoch nicht indexieren. Es ist wichtig, dass die doppelte Seite weiterhin gecrawlt werden kann, auch wenn Sie Google anweisen, diese nicht zu indizieren. Google warnt ausdrücklich davor, den Crawling-Zugriff auf doppelte Inhalte auf Ihrer Website einzuschränken, weshalb man immer das Attribut „follow“ hinzufügen sollte, wenn man eine Seite mit dem „noindex“ Tag von der Indexierung ausschließen möchte.

Diese Methode beschreibt eher eine „harte“ (Not)Lösung, der elegantere Weg ist sicherlich die Verwendung eines Canonical Tag. Die Verwendung von Meta-Robots ist hingegen eine gute Lösung bei Duplicate Content Problemen die im Zusammenhang mit Seiten-Paginierungen entstehen können.

Google Search Console:

Die Nutzung der Google Search Console ist in den allermeisten Fällen, der bevorzugte Lösungsweg um Duplicate Content zu vermeiden bzw. zu beheben.

Mit der Google Search Console lässt sich die bevorzugte Domain Ihrer Website festlegen (z.B. http://yoursite.com anstelle von http://www.yoursite.com) und angeben, ob der Googlebot verschiedene URL-Parameter unterschiedlich crawlen soll.

Abhängig von der URL-Struktur ihrer Website und der Ursache Ihrer Probleme mit doppelten Inhalten kann das Einrichten Ihrer bevorzugten Domain- und/oder die Parameterbehandlung eine Lösung zur Behebung oder Vermeidung von Duplicate Content sein.

Nachteil der Google Search Console:

Der wesentliche Nachteil bei der Nutzung der Google Search Console besteht darin, dass die von Ihnen vorgenommenen Änderungen nur für Google funktionieren. Mit der Google Search Console festgelegte Regeln haben keinen Einfluss darauf, wie Bing oder die Crawler anderer Suchmaschinen Ihre Website interpretieren. Hierfür müssen Sie die Webmaster-Tools für die jeweils anderen Suchmaschinen verwenden.