Google indiziert URLs die nach der robots.txt eingentlich verboten sind.
Eingetragen von wflorian (251)
am 05.11.2008 - 09:05 Uhr in
am 05.11.2008 - 09:05 Uhr in
Hallo.
Google indiziert Seiten die laut der robots.txt eigentlich verboten sind.
Mehrere URLs folgender Form wurden indiziert:
www.XXXXX.de/user/register?destination=comment/reply/XXX%XXXXcomment-form
Laut der robots.txt sind allerdings folgende URLs verboten:
Disallow: /user/register/
Hat jemand eine Idee?
Sollte folgendes in die robots.txt hinzugefügt werden?
Disallow: /user/register?destination=comment/reply/
Danke euch.
Florian
- Anmelden oder Registrieren um Kommentare zu schreiben
"Disallow:
am 05.11.2008 - 09:39 Uhr
"Disallow: /user/register/"
ist ein Unterschied zu
"Disallow: /user/register" (ohne Slash)
In "/user/register?destination=comment/reply/" ist auch kein "/" hinter "/user/register"
Ob sich der Spider aber daran hält?
See you at http://drupalcamp.de/
Du hast Recht! Ich habe
am 05.11.2008 - 10:14 Uhr
Du hast Recht!
Ich habe jetzt mal folgende Zeile in die robots.txt hinzugeschrieben:
Disallow: /user/login?destination=comment/reply/
Disallow: /user/register?destination=comment/reply/
Disallow: /comment/reply/
am 12.11.2012 - 00:45 Uhr
Hallo Leute,
habe ein ähnliches Problem. Ich habe in der Robots.txt stehen:
Disallow: /comment/reply/
Jetzt sind aber unterseiten wie z.B. /comment/reply/51 in den index gerauscht...normal kann das ja nicht sein?
Anderes Problem:
Eine einfache Seite heisst zum Beispiel kommentar.htm (dort ist der Post zu sehen + Kommentare)
Wenn ich jetzt auf "Antworten" klicke also z.B. auf den Link /comment/reply/51/ leitet die Seite auf kommentar.htm/1 weiter?
Die URL sollte doch aber eigentlich auf /comment/reply/51/ stehen bleiben?!
Edit: Der Fehler mit der falschen Weiterleitung tritt nur im "Admin" Modus auf...wenn man nicht eingelogged ist, dann gehts.
Oder muss man einfach nur
am 15.11.2012 - 16:08 Uhr
Oder muss man einfach nur schreiben
Disallow: /comment/reply
Also das / weglassen, damit keine comments indexiert werden?
abschließender slash muss sein
am 15.11.2012 - 16:58 Uhr
sonst bezieht sich das Verbot nur auf /comment/reply. Wie lange steht denn der Eintrag in der robots.txt schon? Poste doch mal die Domain, dann kann man mal in die Datei gucken. Vllt. liegt der Fehler an allgemeinen Notationen
ist noch nicht fertig ..noch
am 15.11.2012 - 17:41 Uhr
ist noch nicht fertig ..noch im Aufbau... hier: http://asienrundreise.com
comment/relply/ zu finden unter: http://asienrundreise.com/comment/reply/59/
bei der "site" abfrage bei google nur unter den ausgeblendeten ergebnissen, aber sie sind trotzdem da...
Ehrlich gesagt weiß ich gar nicht wie lange der Befehl in der Robots.txt dort schon steht...wird das nicht standartmäßig von drupal gemacht?
robots.txt ist in Ordnung
am 15.11.2012 - 17:48 Uhr
....nur scheint sich G*** nicht mehr dran zu halten. Ich krieg die URL in Google mit dem Hinweis:
Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar. Weitere Informationen
aber sie ist trotzdem indiziert.
Wenn es dir um die Vermeidung von DC geht, kannst ja auch das Canonical Tag verwenden. Andernfalls bleibt nur das noindex- Metatag. Da gibts auch Module für Drupal.
Gruss Glycid
Also an Modulen habe ich nur
am 15.11.2012 - 18:23 Uhr
Also an Modulen habe ich nur http://drupal.org/project/node_noindex gefunden
Da kann man allerdings nur content-typen auswählen, welche nicht indexiert werden...hm
auch in die robots.txt
am 15.11.2012 - 19:08 Uhr
ach ja, stimmt.
Ich hab es schon gesehen, aber nicht selber getestet, dass man auch in die robots.txt eine noindex Anweisung schreiben kann. Füge doch einfach mal die Zeile:
Noindex: /comment/reply/
in die robots.txt ein. Dann mal 1-2 Wochen warten, ob die URL's noch im Suchindex sind.
Wenn das auch nicht funktioniert, kannst du mit mod_rewrite per 301 auf eine gewünschte URL umleiten, vorrausgesetzt, dein Hosting- Produkt erlaubt den Zugriff per .htaccess
siehe auch: http://de.selfhtml.org/servercgi/server/rewrite.htm
Ihr nutzt doch alle Drupal.
am 15.11.2012 - 20:58 Uhr
Ihr nutzt doch alle Drupal. Ihr gibt mir zwar alle Tipps...aber selbst müsst Ihr es ja auch irgendwie gelöst haben?
Eine Noindex für die Robots.txt setzen? Im Internet steht, man setzt sowas nur page-seitig....aber weiß auch nicht wo ich das in die page einfügen soll.
Habe hier noch was gefunden: http://drupal.org/node/639796 und http://drupal.stackexchange.com/questions/18299/how-to-noindex-comment-r...
Da blickt man aber auch nicht durch - jeder will das irgendwie wissen - aber zu einem Ergebnis kommt keiner.
@301 Weiterleitung
Darüber habe ich auch schon nachgedacht - dies ginge zumindest erstmal, um den vorhandenen DC zu entfernen - das hindert aber google nicht daran, die neuen Comments in seinen index zu schmeissen - zumal man für die 301 weiterleitung ja auch google wieder erlauben muss die comment/reply/ offiziell zu spidern. (das heisst das disallow comment/reply/ wieder aus der Robots.txt entfernen.)
hmmm
Du hast kein wirkliches DC Problem
am 16.11.2012 - 00:05 Uhr
Eine Noindex für die Robots.txt setzen? Im Internet steht, man setzt sowas nur page-seitig....aber weiß auch nicht wo ich das in die page einfügen soll.
Da bist du wohl einseitig informiert. Guck mal hier zum Beispiel
Ihr nutzt doch alle Drupal. Ihr gibt mir zwar alle Tipps...aber selbst müsst Ihr es ja auch irgendwie gelöst haben?
Komm, jetzt bleib mal locker! Das Disallow in der robots.txt reicht völlig aus. Ein Canonical Tag würde ebenfalls ausreichen. Google hat zwar die URL indiziert, weil sie der Meinung sind, da könnte eventuell was relevantes für bestimmte Suchanfragen stehen. Das ist aber auch schon alles. Sie zeigen keine Description aufgrund des Disallow in der robots.txt. Folglich auch kein DC! Du schiebst absolute SEO Anfänger Panik wegen einzelner Kommentare auf ner anderen URL. Ich bin jetzt seit acht Jahren SEO und arbeite seit 2006 mit Drupal. Probleme mit Google hatte ich bislang absolut bei keinem Drupal Projekt. Ernsthaften DC gibts bei deinem Projekt nicht, soweit ich gesehen habe. Also entspann dich und kümmere dich um die wichtigen Dinge wie solide Backlinks, positive Nutzererfahrung durch hochwertige Inhalte, Social Media Buzz etc. Dann klappts auch mit den Rankings.
Gruss Glycid
Alles klar Glycid,eigentlich
am 16.11.2012 - 03:13 Uhr
Alles klar Glycid,
eigentlich haste ja Recht - die robots.txt weist google ja an, dass er den Rotz nicht erlauben soll - nur die URL wird indiziert - der Content nicht - finde trotzdem die Indizierung der links unnötig - habe schon drüber nachgedacht, den antwort-link zu entfernen - das schränkt nur leider die Aktivität der User ein. Ich lasse es einfach erstmal so laufen und kümmere mich mehr um Content und Backlinks :D
Vielen Dank erstmal euch allen für eure Tipps und Tricks.
der Asienfreak :D