Unique und Duplicate Content

Autor Flitze
Klicks 108351
Bewertungen 7
Rating 5.7
Stand 25.06.2013
Keywords:
Unique Content, Duplicate Content, einzigartige Texte, Uniqueness Calculation, Einzigartigkeit berechnen, Duplicate Content Penalty, Google Unique Content

Breadcrumb:
Artikel » Unique und Duplicate Content

Seite : 1 Bewerten

Article Wizard - deutscher Article Spinner

In diesem Artikel möchte ich die Unique Content bzw. Duplicate Content Thematik etwas eingehender erläutern. Unique Content bedeutet übersetzt so viel wie einzigartiger Inhalt. Der Begriff wird meist im Zusammenhang mit Webseiten benutzt und besagt, dass der Inhalt (bzw. Teile des Inhaltes) einer Webseite nicht bereits an einer anderen Stelle veröffentlicht wurde. Konkret meint "andere Stelle" hierbei eine andere URL.

Da ich häufig gefragt werde, wie man Unique Content erstellt bzw. wie ich Duplicate Content vermeide, verweise ich an dieser Stelle auf den Article Spinner von MySEOSolution. Das Video auf der Seite eklärt alles Weitere

Die Bedeutung von Unique Content ist vor allem aus 2 Gesichtspunkten interessant:

Plagiatismus / Urheberrecht
Suchmaschinenoptimierung

Auf den ersten Punkt möchte ich an dieser Stelle nicht weiter eingehen, da mit hierzu das rechtliche Basiswissen fehlt. Generell darf man allerdings nicht einfach Texte (auch nicht auszugsweise) von einer anderen Quelle (Webseite, PDF Dokument, etc.) kopieren ohne die Zustimmung des jeweiligen Autors dazu zu haben.

Der zweite Punkt, die Suchmaschinenoptimierung, ist das Kriterium, dass ich in diesem Artikel bezüglich der der Unique Content Thematik vertiefen will.

Google und Unique Content

[ADSENSE_LINE]
Im Fokus der Suchmaschinenoptimierung steht die Suchmaschine Google. Google hat über die Zeit hinweg die eingesetzten Ranking und Filtermechanismen immer weiter verfeinern können und konnte dadurch die Qualität der SERPS (Search Engine Result Pages - Ergebnisseiten der Suchmaschinen) stetig verbessern.

Eine konkrete Verbesserungsmaßnahme ist die Erkennung von sog. Duplicate Content. Damit sind Dokumente im Web gemeint, die anderen Dokumenten stark ähneln bzw. sogar gleichen. Duplicate Content ist somit sozusagen das negative Pendant von Unique Content. Für Benutzer von Google macht es keinen Sinn, die gleiche Information mehrfach angezeigt zu bekommen. Deshalb hat Google beschlossen, Duplikate zu erkennen und diese vom Ranking auszuschließen.

Duplicate Content Penalty

An dieser Stelle möchte ich mit einem Gerücht aufräumen, dass von einer sog. Duplicate Content Penalty (also einer Strafe auf Grund von Duplicate Content) handelt. Dabei wird davon ausgegangen, dass eine Webseite abgestraft wird, wenn sie Duplicate Content enthält und das dies zu einer negativen Bewertung (und damit Rankingeinbußen) für die komplette Domain führt.

Gelinde gesagt ist dieses Gerücht absoluter Blödsinn. Das sagt auch ein Google Mitarbeiter in dem folgenden Video:

Es gibt als keine "Abstrafung" für Seiten, die Duplicate Content beinhalten. Das schlimmste, was passieren kann, ist eine nicht-Aufnahme in den Google Index. Duplicate Content kann also sehr wohl negativ sein, führt aber nicht zu einer Penalty. Anzumerken ist hier, dass das Gerücht wahrscheinlich dadurch entstanden ist, dass Duplicate Content häufig auch ein Merkmal von Spam Seiten war bzw. ist. Damit sind Seiten gemeint, die allein für die Manipulation von Suchmaschinen erstellt werden und keinen Besuchernutzen haben. Diese wurde zu Recht abgestraft, aber die Abstrafung erfolgte aufgrund der Spam-Problematik und nicht durch den Duplicate Content.

Duplicate Content erkennen und vermeiden

Ich habe bisher bewusst neutrale Aussagen über "andere Dokumente" getroffen, wenn es darum ging Dokumente bezüglich der Unique/Duplicate Content Eigenschaft zu prüfen. Der Hintergrund dafür liegt darin, dass Duplicate Content nicht nur auf unterschiedlichen Domains auftreten kann, sondern auch innerhalb einer Domain. Die folgenden Beispiele sind exemplarische für Duplicate Content auf der eigenen Webseite:

Erreichbarkeit mit www. und ohne www.
Bereitstellung einer Druckversion
Anhängen von Parametern (Session ID, Sortierungsparameter, etc.)

Wie gesagt wird das nicht zu einer Penalty führen, aber unter Umständen dazu, dass Linkpower verschenkt wird. Wenn zum Beispiel die Startseite einer Domain mit-und ohne www. aufrufbar ist, und mal auf die eine, mal auf die andere Art verlinkt wird, dann teilt man die Linkpower auf. Da aber nur eine Version wirklich im Index von Google landen wird, ist diese geteilte Linkpower verschwendet.

Um diese Probleme zu lösen gibt es verschiedene Ansätze wie zum Beispiel

Verwendung von noindex
Kanonikalisierung mit rel=canonical
301 Weiterleitung

Der geneigte Leser mag sich an dieser Stelle die Thematik in diesem Artikel zur Canonical-isierung weiterführend über die Vermeidung von Duplicate Content informieren

Algorithmen zur Erkennung von Duplicate Content

Die Erkennung von Duplikaten ist gar nicht so einfach und es ist eine riesen Leistung von Google, dass sie Duplikate in einem Datenbestand von mehreren Milliarden Dokumenten erkennen. Da bei Google einige (sehr) helle Köpfe arbeiten werden dazu mit Sicherheit interessante Ansätze verwendet. Zwar sind die genau eingesetzte Algorithmen zur Erkennung von Duplikaten nicht bekannt, aber es gibt gewisse Hinweise (zum Beispiel das u.a. von Google Mitarbeitern veröffentlichte Paper Detecting Near-Duplicates for Web Crawling.

Ein wesentlicher Algorithmus, der mit sehr hoher Wahrscheinlichkeit zum Einsatz kommt, ist die Shingle Technik. Ich werde das Verfahren kurz einführen, damit zumindest eine grobes Verständnis für die Duplikatberechnung den Einzug in die Allgemeinheit findet

Zuvor noch kurz die Anmerkung, dass die Dokumente von Google zuvor wahrscheinlich normalisiert werden. Es werden also Stoppwörter entfernt, das Layout einer Seite wird herausgefiltert, "Boilerplatecode" (Text der auf jeder Seite auftaucht) wird entfernt, etc.

Shingles

Der Shingle Algorithmus wurde unter anderem von Andrei Z. Broder in der wissenschaftlichen Arbeit Identifying and Filtering Near Duplicate Content eingeführt. Die generelle Funktionsweise basiert darauf, dass ein Text in sog. Shingles eingeteilt wird. Jedes Shingle besteht dabei aus einer gewissen Anzahl von Worten. Das folgende Beispiel verdeutlicht die Level-3-Shingles, also solche, die aus 3 Worten bestehen:

Zitat:

Duplicate Content ist das Gegenteil von Unique Content

Daraus ergeben sich die Shingles

Duplicate Content ist
Content ist das
ist das Gegenteil
das Gegenteil von
Gegenteil von Unique
von Unique Content

Die einzelnen Worte in den Shingles überlappen sich also. Nachdem ein Text in diese Shingles zerlegt wurde, wird jedem Shingle nun eine Zahl zugewiesen. Ein Verfahren, dass hierzu eingesetzt wird, ist zum Beispiel das Rabin Fingerprinting. Das ist wichtig, weil im nächsten Schritt die einzelnen Shingle-Menge von zwei Texten verglichen werden um deren Überlappung festzustellen - und das geht mit Zahlen wesentlich besser als mit Texten.

Nehmen wir hierzu den Beispielsatz

Zitat:

Unique Content ist das Gegenteil von Duplicate Content

Dieser hat die Shingles

Unique Content ist
Content ist das
ist das Gegenteil
das Gegenteil von
Gegenteil von Duplicate
von Duplicate Content

Um nun die Einzigartigkeit bzw. Uniqueness zu bestimmen, werden nun die Shingle-Mengen mit der folgenden Formel verglichen:

Code:

Schnittmenge(Menge der Shingles vom ersten Text; Menge der Shingles vom zweiten Text) 
------------------------------------------------------------------------------------------- = Übereinstimmung
Vereinigungsmenge(Menge der Shingles vom ersten Text; Menge der Shingles vom zweiten Text)

Die Schnittmenge hat bezogen auf die Beispiele oben 3 Elemente, während die Vereinigungsmenge 9 Elemente besitzt:

Schnittmenge

Content ist das
ist das Gegenteil
das Gegenteil von

Vereinigungsmenge

Content ist das
ist das Gegenteil
das Gegenteil von
Duplicate Content ist
Gegenteil von Unique
von Unique Content
Unique Content ist
Gegenteil von Duplicate
von Duplicate Content

Das Ergebnis nach Einsetzung in die Formel laute demnach: 3 geteilt durch 9 = 0,333. Die beiden Texte gleichen sich also zu 33,3%.

Fazit

In diesem Artikel wurden die Begriffe Unique Content und Duplicate Content erläutert und mit Google in Beziehung gesetzt. Es wurde ein grundsätzliches Verfahren vorgestellt, wie Duplikate von Google erkannt werden können. Für die SEOs ist dieses Wissen auf jeden Fall hilfreich, weil sie somit einen Anhaltspunkt für Erzeugung von Texten haben. Daher finden diese Erkenntnisse auch im Article Spinning Verwendung.

Weitere Informationen

Zusätzlich zu den im Artikel direkt verlinkten Quellen möchte ich noch einige weitere Webseiten nennen, die relevante Informationen zu Unique und Duplicate Content beinhalten:

Google: Duplicate content - Eine offizielle Aussage von Google zu der Duplicate Content Thematik und wie sie vermieden werden kann.
New Google Process for Detecting Near Duplicate Content - Ein ausführlicher Blogartikel über Google, Duplicate Content und Verfahren die zu dessen Erkennung eingesetzt werden (könnten).

Bewerten

»» Zurück zum Menu

Suchmaschinenoptimierung (SEO - Search Engine Optimization)

Jetzt	5
Heute	35
Gestern	1467
Gesamt	2580900

BB Code	8.3
PHP Variablen	8
PHP Ratingsystem	7.7

PHP Loginsystem	8.6
Sessions in PHP	8.2
PHP Bildergalerie	7.1

Ratingbar erstellen	6.4
PHP Diagrammklasse	6.1
Rahmenanzeige	5.2

Linkbuilding bzw. Linkaufbau	7.8
Google Suche optimieren	7
SQL Injection	6.6

Sidebar

Suche

Members

Statistik

Unique und Duplicate Content

Google und Unique Content

Duplicate Content Penalty

Duplicate Content erkennen und vermeiden

Algorithmen zur Erkennung von Duplicate Content

Shingles

Fazit

Weitere Informationen

Ranking

Tutorials (13)

Workshops (3)

Tipps (12)

Artikel (32)

RSS Feeds

Twitter

Partner & Links