Unique und Duplicate Content
Autor
Flitze
Klicks 105627
Bewertungen 7
Rating 5.7
Stand 25.06.2013
Keywords:
Unique Content, Duplicate Content, einzigartige Texte, Uniqueness Calculation, Einzigartigkeit berechnen, Duplicate Content Penalty, Google Unique Content
Klicks 105627
Bewertungen 7
Rating 5.7
Stand 25.06.2013
Keywords:
Unique Content, Duplicate Content, einzigartige Texte, Uniqueness Calculation, Einzigartigkeit berechnen, Duplicate Content Penalty, Google Unique Content
Breadcrumb:
Artikel » Unique und Duplicate Content
In diesem Artikel möchte ich die Unique Content bzw. Duplicate Content Thematik etwas eingehender erläutern. Unique Content bedeutet übersetzt so viel wie einzigartiger Inhalt. Der Begriff wird meist im Zusammenhang mit Webseiten benutzt und besagt, dass der Inhalt (bzw. Teile des Inhaltes) einer Webseite nicht bereits an einer anderen Stelle veröffentlicht wurde. Konkret meint "andere Stelle" hierbei eine andere URL.
Da ich häufig gefragt werde, wie man Unique Content erstellt bzw. wie ich Duplicate Content vermeide, verweise ich an dieser Stelle auf den Article Spinner von MySEOSolution. Das Video auf der Seite eklärt alles Weitere
Die Bedeutung von Unique Content ist vor allem aus 2 Gesichtspunkten interessant:
Auf den ersten Punkt möchte ich an dieser Stelle nicht weiter eingehen, da mit hierzu das rechtliche Basiswissen fehlt. Generell darf man allerdings nicht einfach Texte (auch nicht auszugsweise) von einer anderen Quelle (Webseite, PDF Dokument, etc.) kopieren ohne die Zustimmung des jeweiligen Autors dazu zu haben.
Der zweite Punkt, die Suchmaschinenoptimierung, ist das Kriterium, dass ich in diesem Artikel bezüglich der der Unique Content Thematik vertiefen will.
Im Fokus der Suchmaschinenoptimierung steht die Suchmaschine Google. Google hat über die Zeit hinweg die eingesetzten Ranking und Filtermechanismen immer weiter verfeinern können und konnte dadurch die Qualität der SERPS (Search Engine Result Pages - Ergebnisseiten der Suchmaschinen) stetig verbessern.
Eine konkrete Verbesserungsmaßnahme ist die Erkennung von sog. Duplicate Content. Damit sind Dokumente im Web gemeint, die anderen Dokumenten stark ähneln bzw. sogar gleichen. Duplicate Content ist somit sozusagen das negative Pendant von Unique Content. Für Benutzer von Google macht es keinen Sinn, die gleiche Information mehrfach angezeigt zu bekommen. Deshalb hat Google beschlossen, Duplikate zu erkennen und diese vom Ranking auszuschließen.
An dieser Stelle möchte ich mit einem Gerücht aufräumen, dass von einer sog. Duplicate Content Penalty (also einer Strafe auf Grund von Duplicate Content) handelt. Dabei wird davon ausgegangen, dass eine Webseite abgestraft wird, wenn sie Duplicate Content enthält und das dies zu einer negativen Bewertung (und damit Rankingeinbußen) für die komplette Domain führt.
Gelinde gesagt ist dieses Gerücht absoluter Blödsinn. Das sagt auch ein Google Mitarbeiter in dem folgenden Video:
Es gibt als keine "Abstrafung" für Seiten, die Duplicate Content beinhalten. Das schlimmste, was passieren kann, ist eine nicht-Aufnahme in den Google Index. Duplicate Content kann also sehr wohl negativ sein, führt aber nicht zu einer Penalty. Anzumerken ist hier, dass das Gerücht wahrscheinlich dadurch entstanden ist, dass Duplicate Content häufig auch ein Merkmal von Spam Seiten war bzw. ist. Damit sind Seiten gemeint, die allein für die Manipulation von Suchmaschinen erstellt werden und keinen Besuchernutzen haben. Diese wurde zu Recht abgestraft, aber die Abstrafung erfolgte aufgrund der Spam-Problematik und nicht durch den Duplicate Content.
Ich habe bisher bewusst neutrale Aussagen über "andere Dokumente" getroffen, wenn es darum ging Dokumente bezüglich der Unique/Duplicate Content Eigenschaft zu prüfen. Der Hintergrund dafür liegt darin, dass Duplicate Content nicht nur auf unterschiedlichen Domains auftreten kann, sondern auch innerhalb einer Domain. Die folgenden Beispiele sind exemplarische für Duplicate Content auf der eigenen Webseite:
Wie gesagt wird das nicht zu einer Penalty führen, aber unter Umständen dazu, dass Linkpower verschenkt wird. Wenn zum Beispiel die Startseite einer Domain mit-und ohne www. aufrufbar ist, und mal auf die eine, mal auf die andere Art verlinkt wird, dann teilt man die Linkpower auf. Da aber nur eine Version wirklich im Index von Google landen wird, ist diese geteilte Linkpower verschwendet.
Um diese Probleme zu lösen gibt es verschiedene Ansätze wie zum Beispiel
Der geneigte Leser mag sich an dieser Stelle die Thematik in diesem Artikel zur Canonical-isierung weiterführend über die Vermeidung von Duplicate Content informieren
Die Erkennung von Duplikaten ist gar nicht so einfach und es ist eine riesen Leistung von Google, dass sie Duplikate in einem Datenbestand von mehreren Milliarden Dokumenten erkennen. Da bei Google einige (sehr) helle Köpfe arbeiten werden dazu mit Sicherheit interessante Ansätze verwendet. Zwar sind die genau eingesetzte Algorithmen zur Erkennung von Duplikaten nicht bekannt, aber es gibt gewisse Hinweise (zum Beispiel das u.a. von Google Mitarbeitern veröffentlichte Paper Detecting Near-Duplicates for Web Crawling.
Ein wesentlicher Algorithmus, der mit sehr hoher Wahrscheinlichkeit zum Einsatz kommt, ist die Shingle Technik. Ich werde das Verfahren kurz einführen, damit zumindest eine grobes Verständnis für die Duplikatberechnung den Einzug in die Allgemeinheit findet Zuvor noch kurz die Anmerkung, dass die Dokumente von Google zuvor wahrscheinlich normalisiert werden. Es werden also Stoppwörter entfernt, das Layout einer Seite wird herausgefiltert, "Boilerplatecode" (Text der auf jeder Seite auftaucht) wird entfernt, etc.
Der Shingle Algorithmus wurde unter anderem von Andrei Z. Broder in der wissenschaftlichen Arbeit Identifying and Filtering Near Duplicate Content eingeführt. Die generelle Funktionsweise basiert darauf, dass ein Text in sog. Shingles eingeteilt wird. Jedes Shingle besteht dabei aus einer gewissen Anzahl von Worten. Das folgende Beispiel verdeutlicht die Level-3-Shingles, also solche, die aus 3 Worten bestehen:
Zitat:
Daraus ergeben sich die Shingles
Die einzelnen Worte in den Shingles überlappen sich also. Nachdem ein Text in diese Shingles zerlegt wurde, wird jedem Shingle nun eine Zahl zugewiesen. Ein Verfahren, dass hierzu eingesetzt wird, ist zum Beispiel das Rabin Fingerprinting. Das ist wichtig, weil im nächsten Schritt die einzelnen Shingle-Menge von zwei Texten verglichen werden um deren Überlappung festzustellen - und das geht mit Zahlen wesentlich besser als mit Texten.
Nehmen wir hierzu den Beispielsatz
Zitat:
Dieser hat die Shingles
Um nun die Einzigartigkeit bzw. Uniqueness zu bestimmen, werden nun die Shingle-Mengen mit der folgenden Formel verglichen:
Code:
Die Schnittmenge hat bezogen auf die Beispiele oben 3 Elemente, während die Vereinigungsmenge 9 Elemente besitzt:
Schnittmenge
Vereinigungsmenge
Das Ergebnis nach Einsetzung in die Formel laute demnach: 3 geteilt durch 9 = 0,333. Die beiden Texte gleichen sich also zu 33,3%.
In diesem Artikel wurden die Begriffe Unique Content und Duplicate Content erläutert und mit Google in Beziehung gesetzt. Es wurde ein grundsätzliches Verfahren vorgestellt, wie Duplikate von Google erkannt werden können. Für die SEOs ist dieses Wissen auf jeden Fall hilfreich, weil sie somit einen Anhaltspunkt für Erzeugung von Texten haben. Daher finden diese Erkenntnisse auch im Article Spinning Verwendung.
Zusätzlich zu den im Artikel direkt verlinkten Quellen möchte ich noch einige weitere Webseiten nennen, die relevante Informationen zu Unique und Duplicate Content beinhalten:
Bewerten
Da ich häufig gefragt werde, wie man Unique Content erstellt bzw. wie ich Duplicate Content vermeide, verweise ich an dieser Stelle auf den Article Spinner von MySEOSolution. Das Video auf der Seite eklärt alles Weitere
Die Bedeutung von Unique Content ist vor allem aus 2 Gesichtspunkten interessant:
- Plagiatismus / Urheberrecht
- Suchmaschinenoptimierung
Auf den ersten Punkt möchte ich an dieser Stelle nicht weiter eingehen, da mit hierzu das rechtliche Basiswissen fehlt. Generell darf man allerdings nicht einfach Texte (auch nicht auszugsweise) von einer anderen Quelle (Webseite, PDF Dokument, etc.) kopieren ohne die Zustimmung des jeweiligen Autors dazu zu haben.
Der zweite Punkt, die Suchmaschinenoptimierung, ist das Kriterium, dass ich in diesem Artikel bezüglich der der Unique Content Thematik vertiefen will.
Google und Unique Content
[ADSENSE_LINE]Im Fokus der Suchmaschinenoptimierung steht die Suchmaschine Google. Google hat über die Zeit hinweg die eingesetzten Ranking und Filtermechanismen immer weiter verfeinern können und konnte dadurch die Qualität der SERPS (Search Engine Result Pages - Ergebnisseiten der Suchmaschinen) stetig verbessern.
Eine konkrete Verbesserungsmaßnahme ist die Erkennung von sog. Duplicate Content. Damit sind Dokumente im Web gemeint, die anderen Dokumenten stark ähneln bzw. sogar gleichen. Duplicate Content ist somit sozusagen das negative Pendant von Unique Content. Für Benutzer von Google macht es keinen Sinn, die gleiche Information mehrfach angezeigt zu bekommen. Deshalb hat Google beschlossen, Duplikate zu erkennen und diese vom Ranking auszuschließen.
Duplicate Content Penalty
An dieser Stelle möchte ich mit einem Gerücht aufräumen, dass von einer sog. Duplicate Content Penalty (also einer Strafe auf Grund von Duplicate Content) handelt. Dabei wird davon ausgegangen, dass eine Webseite abgestraft wird, wenn sie Duplicate Content enthält und das dies zu einer negativen Bewertung (und damit Rankingeinbußen) für die komplette Domain führt.
Gelinde gesagt ist dieses Gerücht absoluter Blödsinn. Das sagt auch ein Google Mitarbeiter in dem folgenden Video:
Es gibt als keine "Abstrafung" für Seiten, die Duplicate Content beinhalten. Das schlimmste, was passieren kann, ist eine nicht-Aufnahme in den Google Index. Duplicate Content kann also sehr wohl negativ sein, führt aber nicht zu einer Penalty. Anzumerken ist hier, dass das Gerücht wahrscheinlich dadurch entstanden ist, dass Duplicate Content häufig auch ein Merkmal von Spam Seiten war bzw. ist. Damit sind Seiten gemeint, die allein für die Manipulation von Suchmaschinen erstellt werden und keinen Besuchernutzen haben. Diese wurde zu Recht abgestraft, aber die Abstrafung erfolgte aufgrund der Spam-Problematik und nicht durch den Duplicate Content.
Duplicate Content erkennen und vermeiden
Ich habe bisher bewusst neutrale Aussagen über "andere Dokumente" getroffen, wenn es darum ging Dokumente bezüglich der Unique/Duplicate Content Eigenschaft zu prüfen. Der Hintergrund dafür liegt darin, dass Duplicate Content nicht nur auf unterschiedlichen Domains auftreten kann, sondern auch innerhalb einer Domain. Die folgenden Beispiele sind exemplarische für Duplicate Content auf der eigenen Webseite:
- Erreichbarkeit mit www. und ohne www.
- Bereitstellung einer Druckversion
- Anhängen von Parametern (Session ID, Sortierungsparameter, etc.)
Wie gesagt wird das nicht zu einer Penalty führen, aber unter Umständen dazu, dass Linkpower verschenkt wird. Wenn zum Beispiel die Startseite einer Domain mit-und ohne www. aufrufbar ist, und mal auf die eine, mal auf die andere Art verlinkt wird, dann teilt man die Linkpower auf. Da aber nur eine Version wirklich im Index von Google landen wird, ist diese geteilte Linkpower verschwendet.
Um diese Probleme zu lösen gibt es verschiedene Ansätze wie zum Beispiel
- Verwendung von noindex
- Kanonikalisierung mit rel=canonical
- 301 Weiterleitung
Der geneigte Leser mag sich an dieser Stelle die Thematik in diesem Artikel zur Canonical-isierung weiterführend über die Vermeidung von Duplicate Content informieren
Algorithmen zur Erkennung von Duplicate Content
Die Erkennung von Duplikaten ist gar nicht so einfach und es ist eine riesen Leistung von Google, dass sie Duplikate in einem Datenbestand von mehreren Milliarden Dokumenten erkennen. Da bei Google einige (sehr) helle Köpfe arbeiten werden dazu mit Sicherheit interessante Ansätze verwendet. Zwar sind die genau eingesetzte Algorithmen zur Erkennung von Duplikaten nicht bekannt, aber es gibt gewisse Hinweise (zum Beispiel das u.a. von Google Mitarbeitern veröffentlichte Paper Detecting Near-Duplicates for Web Crawling.
Ein wesentlicher Algorithmus, der mit sehr hoher Wahrscheinlichkeit zum Einsatz kommt, ist die Shingle Technik. Ich werde das Verfahren kurz einführen, damit zumindest eine grobes Verständnis für die Duplikatberechnung den Einzug in die Allgemeinheit findet Zuvor noch kurz die Anmerkung, dass die Dokumente von Google zuvor wahrscheinlich normalisiert werden. Es werden also Stoppwörter entfernt, das Layout einer Seite wird herausgefiltert, "Boilerplatecode" (Text der auf jeder Seite auftaucht) wird entfernt, etc.
Shingles
Der Shingle Algorithmus wurde unter anderem von Andrei Z. Broder in der wissenschaftlichen Arbeit Identifying and Filtering Near Duplicate Content eingeführt. Die generelle Funktionsweise basiert darauf, dass ein Text in sog. Shingles eingeteilt wird. Jedes Shingle besteht dabei aus einer gewissen Anzahl von Worten. Das folgende Beispiel verdeutlicht die Level-3-Shingles, also solche, die aus 3 Worten bestehen:
Zitat:
Duplicate Content ist das Gegenteil von Unique Content
Daraus ergeben sich die Shingles
- Duplicate Content ist
- Content ist das
- ist das Gegenteil
- das Gegenteil von
- Gegenteil von Unique
- von Unique Content
Die einzelnen Worte in den Shingles überlappen sich also. Nachdem ein Text in diese Shingles zerlegt wurde, wird jedem Shingle nun eine Zahl zugewiesen. Ein Verfahren, dass hierzu eingesetzt wird, ist zum Beispiel das Rabin Fingerprinting. Das ist wichtig, weil im nächsten Schritt die einzelnen Shingle-Menge von zwei Texten verglichen werden um deren Überlappung festzustellen - und das geht mit Zahlen wesentlich besser als mit Texten.
Nehmen wir hierzu den Beispielsatz
Zitat:
Unique Content ist das Gegenteil von Duplicate Content
Dieser hat die Shingles
- Unique Content ist
- Content ist das
- ist das Gegenteil
- das Gegenteil von
- Gegenteil von Duplicate
- von Duplicate Content
Um nun die Einzigartigkeit bzw. Uniqueness zu bestimmen, werden nun die Shingle-Mengen mit der folgenden Formel verglichen:
Code:
Schnittmenge(Menge der Shingles vom ersten Text; Menge der Shingles vom zweiten Text) ------------------------------------------------------------------------------------------- = Übereinstimmung Vereinigungsmenge(Menge der Shingles vom ersten Text; Menge der Shingles vom zweiten Text)
Die Schnittmenge hat bezogen auf die Beispiele oben 3 Elemente, während die Vereinigungsmenge 9 Elemente besitzt:
Schnittmenge
- Content ist das
- ist das Gegenteil
- das Gegenteil von
Vereinigungsmenge
- Content ist das
- ist das Gegenteil
- das Gegenteil von
- Duplicate Content ist
- Gegenteil von Unique
- von Unique Content
- Unique Content ist
- Gegenteil von Duplicate
- von Duplicate Content
Das Ergebnis nach Einsetzung in die Formel laute demnach: 3 geteilt durch 9 = 0,333. Die beiden Texte gleichen sich also zu 33,3%.
Fazit
In diesem Artikel wurden die Begriffe Unique Content und Duplicate Content erläutert und mit Google in Beziehung gesetzt. Es wurde ein grundsätzliches Verfahren vorgestellt, wie Duplikate von Google erkannt werden können. Für die SEOs ist dieses Wissen auf jeden Fall hilfreich, weil sie somit einen Anhaltspunkt für Erzeugung von Texten haben. Daher finden diese Erkenntnisse auch im Article Spinning Verwendung.
Weitere Informationen
Zusätzlich zu den im Artikel direkt verlinkten Quellen möchte ich noch einige weitere Webseiten nennen, die relevante Informationen zu Unique und Duplicate Content beinhalten:
- Google: Duplicate content - Eine offizielle Aussage von Google zu der Duplicate Content Thematik und wie sie vermieden werden kann.
- New Google Process for Detecting Near Duplicate Content - Ein ausführlicher Blogartikel über Google, Duplicate Content und Verfahren die zu dessen Erkennung eingesetzt werden (könnten).
Bewerten