Duplicate Content Problem mit Views (erklärt anhand drupalcenter.de)
am 22.06.2009 - 20:02 Uhr in
Hallo,
ich habe ein "gravierendes" Duplicate Content Problem in Zusammenhang mit Views entdeckt und möchte dies zunächst anhand von drupalcenter.de erklären:
Ich nehme an,
http://www.drupalcenter.de/drupalchannel
ist ein View (erzeugt mit dem Modul Views), eine Auflistung aller Inhalte vom Inhaltstyp "Drupalchannel".
http://www.drupalcenter.de/drupalchannel/18039 ist ein einzelner Artikel der auch im View verlinkt ist.
Existiert dieser Artikel nun einige Zeit, dann wird die Artikelseite (also http://www.drupalcenter.de/drupalchannel/18039 ) von Google indiziert und für Google ist das eine ganz normale Einzelseite.
Wird nun dieser Artikel gelöscht, dann kommt kurz danach Google wieder daher und findet an der gleichen Stelle http://www.drupalcenter.de/drupalchannel/18039 keinen 404-Fehler (Seite nicht vorhanden) sondern ein 202-OK, aber angezeigt wird nicht mehr der Artikel, denn der wurde ja gelöscht, sondern angezeigt wird der View!!!
Löscht nun jemand 10 Artikel hat man innerhalb von kurzer Zeit 10fachen duplicate Content!
Hier zum Austesten:
http://www.drupalcenter.de/drupalchannel/17762a1
http://www.drupalcenter.de/drupalchannel/17762a2
http://www.drupalcenter.de/drupalchannel/17762a3
http://www.drupalcenter.de/drupalchannel/17762a4
usw.
17762a1, 17762a2 usw könnten die Artikel, die gelöscht wurden, geheißen haben. In normalfall hat man ja URL aliase und daher ist die Erklärung schon okay so.
Nun das 2. Beispiel:
Ich habe Newsartikel (mehrere hundert oder mehr) unter
/news/artikel-ueber-dies
/news/artikel-ueber-das
/news/artikel-ueber-autos
usw.
Es ist ganz normal, dass einige, vielleicht 20 oder 50 von den ganz vielen Artikeln in ein paar Monaten gelöscht werden.
Google greift aber weiter auf
/news/artikel-ueber-dies
/news/artikel-ueber-das
/news/artikel-ueber-autos
zu und findet dort KEINE 404-Fehler, sondern es wird immer der View, welche auf
/news
zu finden ist, angezeigt.
Damit hat man in kurzer Zeit 20fachen oder 50fachen Duplicate Content für die Seite
/news
welche nichts anders als ein View ist, der dazu dient, alle News-Artikel anzuzeigen, neueste oben.
SEO-Module wie das "Global Redirect Module", welches echt super ist, habe ich schon im Einsatz, allerdings wirkt das nicht bei Views.
Gibt es dafür eine Lösung?
vielen Dank.
- Anmelden oder Registrieren um Kommentare zu schreiben
Lösung gibt es, aber keiner denkt wohl daran!
am 23.06.2009 - 11:03 Uhr
Ich bin gerade dabei, das Problem zu lösen. Ich ändere den Pfad meines Views von
/news
auf
/news/neueste
Die Artikel selbst bleiben unter
/news/artikel-ueber-dies
/news/artikel-ueber-das
/news/artikel-ueber-autos
Und gelöschte Artikel
/news/artikel-geloescht
usw. erzeugen dann keinen Duplicate Content mehr, weil der View selbst nicht unter /news abrufbar ist.
Hier in Drupalcenter.de müsste man den Pfad
/drupalchannel
auf
/drupalchannel/neueste oder
/drupalchannel/all
ändern, dann ist das Problem hier auch gelöst. Hier existiert das Problem wirklich real und es wird Duplicate Content entstehen, allein schon wegen meiner Links oben (die jetzt entschärft wurden, sind jetzt keine direkten Links mehr).
Hat glaube ich nichts mit
am 22.06.2009 - 22:20 Uhr
Hat glaube ich nichts mit Views und/oder gelöschten Nodes zu tun:
http://www.drupalcenter.de/drupalchannel/aaa
geht zur selben Seitehttp://drupal.org/node/51263/hhhgshdgsd
führt zum richtigen Node.Ich weiß, die zwei Beispiele haben nichts mit Duplicated Content zu tun, aber erscheint mir schon wichtig das zu erwähnen.
Außer mit einem grundsätzlichen Problem im Drupal Menu System, kann ich mir das nicht erklären.
Sonst jemand?
vg
--
md - DrupalCenter.de
mdwp*
vg
md - DrupalCenter.de
mdwp* Drupal Consulting & Services
Views-Problem, Duplicate Content
am 22.06.2009 - 23:02 Uhr
Das hat auf jeden Fall mit Views etwas zu tun. Views kann man Argumente übergeben, aber es gibt keine Möglichkeit, das Übergeben der Argumente zu deaktivieren. Daher erscheint die Ansicht auch dann, wenn man irgendein Argument übergibt, aber im Views gar keine Argumente genutzt/ausgewertet werden.
Hier ein Link, der es ermöglicht, Argumente zu deaktivieren:
http://drupal.org/node/378906
Allerdings ist das nur in seltenen Fällen brauchbar und klar ist, dass das nicht die Lösung sein kann, da tausende Webmaster bei noch viel mehr Views vergessen würden, das einzubauen, weil das ja nicht mal die Drupal-Experten kennen.
Es ist ein Views-Problem und es entsteht dabei Duplicate Content!
Ich hab es inzwischen gelöst (siehe Beitrag 2 oben), es ist aber anzunehmen, dass ganz viele Drupal-Webmaster das Problem ebenfalls einbauen, ohne es zu wissen, genauso wie es hier im Drupalcenter eingebaut wurde. Wenn hier Nodes im Drupalchannel gelöscht werden, bleibt Duplicate Content übrig. So ist es nun mal mit den Views, wenn der View den gleichen Pfad hat wie die Nodes.
DrupalFan schrieb Das hat
am 22.06.2009 - 23:11 Uhr
Das hat auf jeden Fall mit Views etwas zu tun. Views kann man Argumente übergeben, aber es gibt keine Möglichkeit, das Übergeben der Argumente zu deaktivieren. Daher erscheint die Ansicht auch dann, wenn man irgendein Argument übergibt, aber im Views gar keine Argumente genutzt/ausgewertet werden.
Hier ein Link, der es ermöglicht, Argumente zu deaktivieren:
http://drupal.org/node/378906
Allerdings ist das nur in seltenen Fällen brauchbar und klar ist, dass das nicht die Lösung sein kann, da tausende Webmaster bei noch viel mehr Views vergessen würden, das einzubauen, weil das ja nicht mal die Drupal-Experten kennen.
Es ist ein Views-Problem und es entsteht dabei Duplicate Content!
Ich hab es inzwischen gelöst (siehe Beitrag 2 oben), es ist aber anzunehmen, dass ganz viele Drupal-Webmaster das Problem ebenfalls einbauen, ohne es zu wissen, genauso wie es hier im Drupalcenter eingebaut wurde. Wenn hier Nodes im Drupalchannel gelöscht werden, bleibt Duplicate Content übrig. So ist es nun mal mit den Views, wenn der View den gleichen Pfad hat wie die Nodes.
Zumindestens für Views2 ist das nicht war!
Man kann einfach Global:Null hinzufügen und dann als Validator immer false außer bei keinem Argument zurückgeben.
=> alle Pfade werden ignoriert
--------------
Blog www.freeblogger.org: Deutscher IRC-Channel: irc.freenode.net #drupal.de ... Jabber-me: dwehner@im.calug.de
SirFiChi ist auch dein Halbgott.
Standardfall betrachten
am 22.06.2009 - 23:22 Uhr
Du meintest das wohl anders:
Was ich sagte, ist schon war, aber Du hast einen Weg gefunden, wie man es lösen kann.
Ich meinte nämlich (war vielleicht schlecht formuliert), wenn man im View selbst nichts dagegen unternimmt, was auch die meisten so tun werden, dann können Argumente übergeben werden und Argumente sind nicht deaktiviert. Das ist der Standardfall und das ist der Fall, den jeder hat, bis auf wenige Experten wie Du, die eine eigene Lösung haben.
Also nochmal:
Erstellt man einen Views, bei dem man die Argumente nicht deaktiviert (das macht doch fast keiner) und lautet der views-Pfad
/news
und stellt dann News-Artikel mit den Pfaden
/news/artikel1
/news/artikel2
ein und löscht dann später, nachdem Google schon die Artikel indiziert hat, 10 Artikel, dann hat Google weiterhin diese 10 Artikel im Index man hat automatisch 10fachen(!!!) Duplicate Content erzeugt.
Dass es hier ein paar Leute gibt, die wie ich, dass entdeckt haben und auch gelöst haben, entweder so wie ich oder eben anders, z. Bsp. so wie Du, das bezweifle ich nicht.
Aber mir geht es hier um die Masse der Leute, die das nicht wissen und die genau dieses Ding, das Duplicate Content erzeugt, einbauen.
Die masse der Leute wissen
am 22.06.2009 - 23:59 Uhr
Die masse der Leute wissen nicht mal was Duplicate Content ist, gelle :D. Das hat wirklich nichts mit Views zutun, rein die flexible Menu-API.
----------------------------------------
http://tobiasbaehr.de/
Gelöste Forenbeiträge mit [gelöst] im Titel ergänzen
Ein Forum ist kein Ersatz für das www (Google.de).
Gelöste Forenbeiträge mit [gelöst] im Titel ergänzen
Das Verhältnis anderen zu helfen muss höher sein, als von anderen Hilfe zu erfragen/erwarten.
Spartacus schrieb Die masse
am 23.06.2009 - 08:32 Uhr
Die masse der Leute wissen nicht mal was Duplicate Content ist, gelle :D. Das hat wirklich nichts mit Views zutun, rein die flexible Menu-API.
Und noch viel weniger haben tatsächlich ein Problem damit. In der Praxis erkennt Google selbständig sehr gut wobei es sich um URL-Parameter handelt und dass es sich nicht um echten DC handelt. Die verwenden auf dererlei Erkennungen schon einen guten Teil ihres Gehirnschmalzes.
--
mortendk: everytime you use contemplate... Thor is striking down from above with his mighty hammer - crushing and killing a kitten!
webseiter.de
Suchmaschinenoptimierung (SEO) & Drupal
Wie ich sagte, das Problem
am 23.06.2009 - 09:40 Uhr
Wie ich sagte, das Problem tritt nicht nur bei Views auf.
Sie - http://drupal.org/node/51263/hhhgshdgsd - oder irgendein anderer node auf dieser Welt.
Ich weiß, dass das Beispiel eigentlich sinnlos ist, aber m.E. sollte in solchen Fällen schon 'page not found' kommen.
Oder mach ich da einen Denkfehler.
vg
--
md - DrupalCenter.de
mdwp*
vg
md - DrupalCenter.de
mdwp* Drupal Consulting & Services
@meinolf: Dein
am 23.06.2009 - 09:49 Uhr
@meinolf:
Dein angesprochenes Problem ist in der Praxis keines. Ich kann ja auch bei einer statischen HTML Website z.b. einen Pfad kontakt.html?id=1234&color=blue aufrufen und erhalte dennoch nur die kontakt.html, der Rest wird ignoriert. Das spielt in der Praxis schlichtweg keine Rolle, so lange es keine internen oder externen Links gibt, die solche URLs verwenden und damit SuMas suggerieren, dass es diese Pfade (also im Zweifelsfall eigene Inhalte) gibt. Wobei auch das im Zweifelsfall nicht schlimm sein muss, da klassische Parameter ja direkt als solche entlarvt werden. Bei Einsatz von Clean URLs ist das für Google schwieriger, weswegen auch geraten wird wieder old-fashion styled URLs zu benutzen.
Etwaige Fehleinschätzungen der SuMas werden auch durch den Einsatz von XML Sitemaps und Canonical Tags abgeschwächt / unterbunden.
--
mortendk: everytime you use contemplate... Thor is striking down from above with his mighty hammer - crushing and killing a kitten!
webseiter.de
Suchmaschinenoptimierung (SEO) & Drupal
Alexander Langer
am 23.06.2009 - 10:13 Uhr
@meinolf:
... weswegen auch geraden wird wieder old-fashion styled URLs zu benutzen.
Ist das dein Ernst? Also selbst wenn das plötzlich für Google besser wäre, würde ich das nicht so machen. M.E. sind saubere URLs insbesondere für Menschen besser.
Mit dem Rest hast du natürlich Recht. Ich hatte tatsächlich nicht im Sinne von 'query strings' gedacht.
vg
--
md - DrupalCenter.de
mdwp*
vg
md - DrupalCenter.de
mdwp* Drupal Consulting & Services
Siehe "Alles über
am 23.06.2009 - 10:28 Uhr
Siehe "Alles über dynamische URLs" aus der Google Webmaster Zentrale.
Das Original liest sich allerdings flüssiger als die Übersetzung.
--
mortendk: everytime you use contemplate... Thor is striking down from above with his mighty hammer - crushing and killing a kitten!
webseiter.de
Suchmaschinenoptimierung (SEO) & Drupal
Problem oder nicht: jeder sieht es eben anders
am 23.06.2009 - 10:53 Uhr
Wie ich sagte, das Problem tritt nicht nur bei Views auf.
Sie - http://drupal.org/node/51263/hhhgshdgsd - oder irgendein anderer node auf dieser Welt.
Ein Problem ist es nur, wenn Links existieren oder existierten. Normalerweise gibt es ja keinen Link nach node/51263/hhhgshdgsd, daher ist dein Bsp. kein Problem.
Wenn aber Links existieren, weil Nodes gelöscht wurden und Google die Nodes noch im Index hat und dann kommt Google und findet genau an der gleichen Stelle, wo zuletzt noch ein "eigener Content", sprich ein aktiver Node war, nur mehr die Kopie des Views vor, welcher halt mit einer anderen URL, so als wäre ein Argument übergeben worden, aufgerufen wird, dann ist das schon ein Problem.
Aber jeder hier und auch jeder im großen weiten Internet sieht das unterschiedlich:
- für manche ist duplicate content überhaupt kein Problem, es ist ihnen egel.
- für manche ist das ein kleines Problem
- für manche ist das ein großes Problem, sieht man ja auch wenn man nach "duplicate content" googelt
Wird noch kommen
am 23.06.2009 - 11:02 Uhr
aber m.E. sollte in solchen Fällen schon 'page not found' kommen.
Es wird früher oder später hier eine Lösung in Drupal geben müssen. Zuerst wird es dafür Module geben, später wird es Teil vom Core werden. Machbar ist es auf jeden Fall.
DrupalFan schrieb - für
am 23.06.2009 - 18:35 Uhr
- für manche ist das ein großes Problem, sieht man ja auch wenn man nach "duplicate content" googelt
Da mag man viel finden, d.h. aber nicht automatisch, dass damit jeder ein Problem hat. Die meisten die von DC schreiben haben überhaupt kein Problem damit, sondern reden sich nur ein eines bekommen zu können.
Nennen wir sie mal DC-Hypochonder.
--
mortendk: everytime you use contemplate... Thor is striking down from above with his mighty hammer - crushing and killing a kitten!
webseiter.de
Suchmaschinenoptimierung (SEO) & Drupal
Danke für den Hinweis
am 07.07.2011 - 15:24 Uhr
Das Problem scheint nicht gelöst zu sein. Bei mir fragt seit Tagen Google für mich bisher absurde URLS ab, die es eigentlich gar nicht geben sollte wie z.B. xyz.de/node/3333. Solche Seiten habe ich nicht und niemals hergestellt. Ich wollte schon über die Google Website mal nachfragen, woher das kommt.