PHP Tutorials, PHP lernen, PHP Forum, PHP Community and more ... MyWebsolution.de!

Sidebar

Home News Tutorials Workshops Tipps Artikel Gästebuch Sitemap Pascal Landau

Suche

Members

Forum Login Registrierung

Statistik

Statistikbereich
Jetzt1
Heute67
Gestern214
Gesamt2308170

Unique und Duplicate Content

Autor Flitze
Klicks 102647
Bewertungen 7
Rating 5.7
Stand 25.06.2013
Keywords:
Unique Content, Duplicate Content, einzigartige Texte, Uniqueness Calculation, Einzigartigkeit berechnen, Duplicate Content Penalty, Google Unique Content

Amazon: Website Boosting 2.0
Breadcrumb:
Artikel » Unique und Duplicate Content
Seite : 1 Bewerten
Article Wizard - deutscher Article SpinnerIn diesem Artikel möchte ich die Unique Content bzw. Duplicate Content Thematik etwas eingehender erläutern. Unique Content bedeutet übersetzt so viel wie einzigartiger Inhalt. Der Begriff wird meist im Zusammenhang mit Webseiten benutzt und besagt, dass der Inhalt (bzw. Teile des Inhaltes) einer Webseite nicht bereits an einer anderen Stelle veröffentlicht wurde. Konkret meint "andere Stelle" hierbei eine andere URL.

Da ich häufig gefragt werde, wie man Unique Content erstellt bzw. wie ich Duplicate Content vermeide, verweise ich an dieser Stelle auf den Article Spinner von MySEOSolution. Das Video auf der Seite eklärt alles Weitere ;)

Die Bedeutung von Unique Content ist vor allem aus 2 Gesichtspunkten interessant:
  1. Plagiatismus / Urheberrecht
  2. Suchmaschinenoptimierung

Auf den ersten Punkt möchte ich an dieser Stelle nicht weiter eingehen, da mit hierzu das rechtliche Basiswissen fehlt. Generell darf man allerdings nicht einfach Texte (auch nicht auszugsweise) von einer anderen Quelle (Webseite, PDF Dokument, etc.) kopieren ohne die Zustimmung des jeweiligen Autors dazu zu haben.

Der zweite Punkt, die Suchmaschinenoptimierung, ist das Kriterium, dass ich in diesem Artikel bezüglich der der Unique Content Thematik vertiefen will.

Google und Unique Content

[ADSENSE_LINE]
Im Fokus der Suchmaschinenoptimierung steht die Suchmaschine Google. Google hat über die Zeit hinweg die eingesetzten Ranking und Filtermechanismen immer weiter verfeinern können und konnte dadurch die Qualität der SERPS (Search Engine Result Pages - Ergebnisseiten der Suchmaschinen) stetig verbessern.

Eine konkrete Verbesserungsmaßnahme ist die Erkennung von sog. Duplicate Content. Damit sind Dokumente im Web gemeint, die anderen Dokumenten stark ähneln bzw. sogar gleichen. Duplicate Content ist somit sozusagen das negative Pendant von Unique Content. Für Benutzer von Google macht es keinen Sinn, die gleiche Information mehrfach angezeigt zu bekommen. Deshalb hat Google beschlossen, Duplikate zu erkennen und diese vom Ranking auszuschließen.

Duplicate Content Penalty


An dieser Stelle möchte ich mit einem Gerücht aufräumen, dass von einer sog. Duplicate Content Penalty (also einer Strafe auf Grund von Duplicate Content) handelt. Dabei wird davon ausgegangen, dass eine Webseite abgestraft wird, wenn sie Duplicate Content enthält und das dies zu einer negativen Bewertung (und damit Rankingeinbußen) für die komplette Domain führt.

Gelinde gesagt ist dieses Gerücht absoluter Blödsinn. Das sagt auch ein Google Mitarbeiter in dem folgenden Video:



Es gibt als keine "Abstrafung" für Seiten, die Duplicate Content beinhalten. Das schlimmste, was passieren kann, ist eine nicht-Aufnahme in den Google Index. Duplicate Content kann also sehr wohl negativ sein, führt aber nicht zu einer Penalty. Anzumerken ist hier, dass das Gerücht wahrscheinlich dadurch entstanden ist, dass Duplicate Content häufig auch ein Merkmal von Spam Seiten war bzw. ist. Damit sind Seiten gemeint, die allein für die Manipulation von Suchmaschinen erstellt werden und keinen Besuchernutzen haben. Diese wurde zu Recht abgestraft, aber die Abstrafung erfolgte aufgrund der Spam-Problematik und nicht durch den Duplicate Content.

Duplicate Content erkennen und vermeiden


Ich habe bisher bewusst neutrale Aussagen über "andere Dokumente" getroffen, wenn es darum ging Dokumente bezüglich der Unique/Duplicate Content Eigenschaft zu prüfen. Der Hintergrund dafür liegt darin, dass Duplicate Content nicht nur auf unterschiedlichen Domains auftreten kann, sondern auch innerhalb einer Domain. Die folgenden Beispiele sind exemplarische für Duplicate Content auf der eigenen Webseite:
  • Erreichbarkeit mit www. und ohne www.
  • Bereitstellung einer Druckversion
  • Anhängen von Parametern (Session ID, Sortierungsparameter, etc.)

Wie gesagt wird das nicht zu einer Penalty führen, aber unter Umständen dazu, dass Linkpower verschenkt wird. Wenn zum Beispiel die Startseite einer Domain mit-und ohne www. aufrufbar ist, und mal auf die eine, mal auf die andere Art verlinkt wird, dann teilt man die Linkpower auf. Da aber nur eine Version wirklich im Index von Google landen wird, ist diese geteilte Linkpower verschwendet.

Um diese Probleme zu lösen gibt es verschiedene Ansätze wie zum Beispiel
  • Verwendung von noindex
  • Kanonikalisierung mit rel=canonical
  • 301 Weiterleitung

Der geneigte Leser mag sich an dieser Stelle die Thematik in diesem Artikel zur Canonical-isierung weiterführend über die Vermeidung von Duplicate Content informieren ;)

Algorithmen zur Erkennung von Duplicate Content


Die Erkennung von Duplikaten ist gar nicht so einfach und es ist eine riesen Leistung von Google, dass sie Duplikate in einem Datenbestand von mehreren Milliarden Dokumenten erkennen. Da bei Google einige (sehr) helle Köpfe arbeiten werden dazu mit Sicherheit interessante Ansätze verwendet. Zwar sind die genau eingesetzte Algorithmen zur Erkennung von Duplikaten nicht bekannt, aber es gibt gewisse Hinweise (zum Beispiel das u.a. von Google Mitarbeitern veröffentlichte Paper Detecting Near-Duplicates for Web Crawling.

Ein wesentlicher Algorithmus, der mit sehr hoher Wahrscheinlichkeit zum Einsatz kommt, ist die Shingle Technik. Ich werde das Verfahren kurz einführen, damit zumindest eine grobes Verständnis für die Duplikatberechnung den Einzug in die Allgemeinheit findet :) Zuvor noch kurz die Anmerkung, dass die Dokumente von Google zuvor wahrscheinlich normalisiert werden. Es werden also Stoppwörter entfernt, das Layout einer Seite wird herausgefiltert, "Boilerplatecode" (Text der auf jeder Seite auftaucht) wird entfernt, etc.

Shingles


Der Shingle Algorithmus wurde unter anderem von Andrei Z. Broder in der wissenschaftlichen Arbeit Identifying and Filtering Near Duplicate Content eingeführt. Die generelle Funktionsweise basiert darauf, dass ein Text in sog. Shingles eingeteilt wird. Jedes Shingle besteht dabei aus einer gewissen Anzahl von Worten. Das folgende Beispiel verdeutlicht die Level-3-Shingles, also solche, die aus 3 Worten bestehen:

Zitat:
Duplicate Content ist das Gegenteil von Unique Content


Daraus ergeben sich die Shingles
  • Duplicate Content ist
  • Content ist das
  • ist das Gegenteil
  • das Gegenteil von
  • Gegenteil von Unique
  • von Unique Content

Die einzelnen Worte in den Shingles überlappen sich also. Nachdem ein Text in diese Shingles zerlegt wurde, wird jedem Shingle nun eine Zahl zugewiesen. Ein Verfahren, dass hierzu eingesetzt wird, ist zum Beispiel das Rabin Fingerprinting. Das ist wichtig, weil im nächsten Schritt die einzelnen Shingle-Menge von zwei Texten verglichen werden um deren Überlappung festzustellen - und das geht mit Zahlen wesentlich besser als mit Texten.

Nehmen wir hierzu den Beispielsatz

Zitat:
Unique Content ist das Gegenteil von Duplicate Content


Dieser hat die Shingles
  • Unique Content ist
  • Content ist das
  • ist das Gegenteil
  • das Gegenteil von
  • Gegenteil von Duplicate
  • von Duplicate Content

Um nun die Einzigartigkeit bzw. Uniqueness zu bestimmen, werden nun die Shingle-Mengen mit der folgenden Formel verglichen:

Code:
Schnittmenge(Menge der Shingles vom ersten Text; Menge der Shingles vom zweiten Text) 
------------------------------------------------------------------------------------------- = Übereinstimmung
Vereinigungsmenge(Menge der Shingles vom ersten Text; Menge der Shingles vom zweiten Text)


Die Schnittmenge hat bezogen auf die Beispiele oben 3 Elemente, während die Vereinigungsmenge 9 Elemente besitzt:


Schnittmenge
  1. Content ist das
  2. ist das Gegenteil
  3. das Gegenteil von


Vereinigungsmenge
  1. Content ist das
  2. ist das Gegenteil
  3. das Gegenteil von
  4. Duplicate Content ist
  5. Gegenteil von Unique
  6. von Unique Content
  7. Unique Content ist
  8. Gegenteil von Duplicate
  9. von Duplicate Content


Das Ergebnis nach Einsetzung in die Formel laute demnach: 3 geteilt durch 9 = 0,333. Die beiden Texte gleichen sich also zu 33,3%.

Fazit


In diesem Artikel wurden die Begriffe Unique Content und Duplicate Content erläutert und mit Google in Beziehung gesetzt. Es wurde ein grundsätzliches Verfahren vorgestellt, wie Duplikate von Google erkannt werden können. Für die SEOs ist dieses Wissen auf jeden Fall hilfreich, weil sie somit einen Anhaltspunkt für Erzeugung von Texten haben. Daher finden diese Erkenntnisse auch im Article Spinning Verwendung.

Weitere Informationen


Zusätzlich zu den im Artikel direkt verlinkten Quellen möchte ich noch einige weitere Webseiten nennen, die relevante Informationen zu Unique und Duplicate Content beinhalten:


  Bewerten

»» Zurück zum Menu

Suchmaschinenoptimierung

Suchmaschinenoptimierung (SEO - Search Engine Optimization)

Ranking

Tutorials (13)

8.6
8.4
8

Workshops (3)

8.8
8.7
7.6

Tipps (12)

7.2
6.7
6.5

Artikel (32)

8.4
8
7.2

RSS Feeds

Full Feed Tutorials Workshops Tipps Artikel

Twitter

Follow me on Twitter

Partner & Links


Valid HTML 4.01 Transitional
Valid CSS
nach oben

Diese Seiten unterstützen MyWebsolution:
 
© MyWebsolution.de
2006-2024