Probleme mit Googlebot/Google
am 05.12.2012 - 16:49 Uhr in
Hallo Forum,
ich quäle mich seit einer Woche mit einem Problem. Ich muss auf bestimmte Seiten eines Projekts und Bilder von der Googlesuche/Bot und anderen Bots sperren. Dazu habe ich die Robots.txt angepasst und Webmastertools bestätigt mir die Sperrung. Dennoch werden weiterhin die Bilder und Seiten sowie der Text-Inhalt bei Google angezeigt.
Das Problem wird dadurch erschwert, dass die Seite mehrsprachig ist und für deutsch .de als Endung hat und für englisch .com. Für Google sind das jetzt nicht nur zwei Seiten, sondern vier, weil jeweils sowohl mit www. und ohne www. am Anfang der Adresse. In der htaccess kann ich aber nicht auf nur www. und jeweils .de und .com redirecten (dann ist der englische Content nicht mehr zugänglich) und selbst wenn ich es tue, gibt Google immernoch die Seiten ohne www. als Suchergebnis mit Bild und Text heraus. Ich habe die Seite bei Webmastertools in allen Kombinationen registriert und auch ohne www. wird mir jeweils angezeigt, dass die Seiten/Bilder gesperrt sind, obwohl sie weiterhin angezeigt werden.
Wie kann es sein, dass eine Bilddatei z.B,. die eindeutig gesperrt ist für Bots, trotzdem in den Suchergebnissen angezeigt wird? Was kann man da noch tun? Kann man irgendwie einen View auf noindex oder nofollow setzen?
- Anmelden oder Registrieren um Kommentare zu schreiben
Ja, kommt vor, dass
am 05.12.2012 - 17:11 Uhr
Ja, kommt vor, dass das ignoriert wird.
Eine weitere Möglichkeit besteht darin, Bots über die .htaccess auszuschließen. Dazu findet man genügend Anleitungen im Netz.
Mir persönlich gefällt es nicht, da die .htaccess eigentlich nicht dafür gedacht ist - aber ist nur meine persönliche Meinung und Dir hilft es vielleicht.
Don't code today what you can't debug tomorrow
Ariya Hidayat
Hallo und danke für die
am 05.12.2012 - 17:34 Uhr
Hallo und danke für die schnelle Hilfe!
Über die htaccess hatte ich bereits probiert via rewrite und redirect das Problem auf eine Version zu beschränken (z.B. alles auf www.seite.de/ordner/bild)
In wie weit kann man da aber die Robots umsteuern?
Kann man die von bestimmten URLs und Ordnern ausschließen?
Grüße
Ja, Folder auf alle Fälle,
am 05.12.2012 - 18:13 Uhr
Ja, Folder auf alle Fälle, sieh mal hier: http://stackoverflow.com/questions/10735766/block-all-bots-crawlers-spid...
Don't code today what you can't debug tomorrow
Ariya Hidayat
KnobelVogel schrieb Wie kann
am 05.12.2012 - 18:17 Uhr
Wie kann es sein, dass eine Bilddatei z.B,. die eindeutig gesperrt ist für Bots, trotzdem in den Suchergebnissen angezeigt wird? Was kann man da noch tun? Kann man irgendwie einen View auf noindex oder nofollow setzen?
wie lang ist das disallow in der robots.txt denn schon eingetragen? Eine gewisse Zeit mußt du Google geben, um die SERPS anzupassen. Davon abgesehen passiert es doch immer mal wieder, dass sich G. nicht an die Verbote der robots.txt hält.
Das nofollow tag entwertet nur die Links. Der bot folgt den Links dennoch und findet entsprechende Inhalte. noindex wird dir wohl am ehesten weiterhelfen. Für D6 heißt das entsprechende Modul nodewords und für D7 metatag . Funktioniert meines Wissens auch mit views und panels.
Das mit dem mod_rewrite von www.example.de ---> example.de und www.example.com ----> example.com oder umgekehrt versteh ich nicht, wo das Problem sein soll...
Gruss Glycid
Hallo und danke für die
am 05.12.2012 - 18:27 Uhr
Hallo und danke für die Antworten!
@glycid: Seit Anfang letzter Woche sind die Verzeichnisse und Seiten blockiert (GoogleWMT bestätigt dies auch).
Nodewords geht leider nicht für die 6.2 Drupal Version.
Das Problem mit dem rewrite ist dem verhunzten Aufbau der Seite geschuldet. Derjenige hat der englischen Version der Seite die .com Adresse auf seltsamen Umwegen zugewiesen, nicht einfach über Drupal, wie ich es gemacht hätte. Es funktioniert zwar prinzipiell und lässt sich auch verwalten, verhält sich aber wie zwei verschiedene Seiten. Wenn man da in der htaccess jeweil auf www. umleiten will, erkennt Drupal nicht mehr, dass man auf der englischen Seite ist und gibt deutsch heraus (auch nach Wechsel über Button). Das Problem zieht sich durch die ganze Seite. So kann man z.B. sich nicht mit www. einloggen. Derjenige hat aber die ganze Seite so aufgebaut, was sich nicht einfach ändern lässt.
@oteno:
Das wäre ja schonmal ein Anfang!
Grüße
Anderer Ansatz?!
am 05.12.2012 - 18:55 Uhr
Vielleicht könnt Ihr mir sagen, ob dieser Ansatz von Erfolg gekrönt sein könnte (ich bezweifle das):
Die Inhalte, die blockiert werden sollen (Bilder und Text) befinden sich in nodes mit Feldern, die in einem View (Accordion) angezeigt werden. Der Titel im Accordion ist automatisch ein Link auf den Node als extra Seite (klickt man auf den Titel, öffnet sich die Seite mit Text und Inhalt), was überflüssig ist nebenbei. Die Anzeige im Accordion reicht.
Wenn man nun den Titel ausblenden könnte, wäre im Accordion kein Link auf den Node und dieser könnte nicht gefunden werden. (Wohlwissend, dass er ja im Accordion angezeigt wird) Kann das funktionieren? Evtl. ist dieser Link jeweils der einzige, dem die Bots auf die Seite noch folgen können.
Ich hatte das bereits probiert mit "von der Anzeige ausschließen", was nicht funktionierte. Offensichtlich muss der Titel angezeigt werden!?
Grüße
KnobelVogel schrieb Seit
am 05.12.2012 - 22:04 Uhr
Seit Anfang letzter Woche sind die Verzeichnisse und Seiten blockiert (GoogleWMT bestätigt dies auch).
In den WMT's steht, dass Google die Sperrungen auf dem Zettel hat. Das hat aber keinen Einfluss auf die Aktualisierungszyklen des Indexes. Ne Woche würd ich auf jeden Fall noch warten.
Nodewords geht leider nicht für die 6.2 Drupal Version.
Wie kommst'n darauf? Der Zweig 6.x-2.x wird nicht mehr unterstützt. Der 6.x-1.x aber weiterhin. Den kannst du für alle D 6.x benutzen.
Offensichtlich muss der Titel angezeigt werden!?
Erstmal ja, denn in der Datenbank darf per Definition das title Feld nicht Null sein. Wenn für die view ein eigener Inhaltstyp angelegt wurde, kannst du das auf Template- Ebene recht einfach rausnehmen. Dazu gehts du in dein Theme Verzeichnis und kopierst die Datei node.tpl.php ins selbe Verzeichnis. Die Kopie benennst du nach dem betreffenden Inhaltstyp a la eigener_inhaltstyp.tpl.php In dieser neuen Kopie suchst du die Stelle, wo die Ausgabe des Titels steht. Das sieht in etwa so aus:
<?php if ($page == 0): ?>
<h2><a href="<?php print $node_url ?>" title="<?php print $title ?>"><?php print $title ?></a></h2>
<?php endif; ?>
Das kommentierst du aus oder nimmst es ganz raus. Dann Theme Registry neu aufbauen, in dem du im Verwaltungsbereich einfach die Themes- Seite neu lädst und Cache löschen. Aber denk dran, dass sich das auf alle Inhalte dieses Typs auswirkt!
Werden die betreffenden Inhalte noch anderweitig verlinkt, ist der Effekt natürlich für die Katz. Google durchwühlt mittlerweile sowieso alles, wo sie irgendwie reinkommen und sie finden neuerdings auch Inhalte, die überhaupt nicht verlinkt sind.
Ich würde einfach noch etwas abwarten, ob die Sperren der robots.txt was bringen. Sonst mit dem nodewords Modul die Sachen auf noindex setzen.
Hallo nochmal, und danke für
am 05.12.2012 - 23:02 Uhr
Hallo nochmal,
und danke für die Antwort. Gewartet habe ich nun schon sehr lang. Aber den Tipp mit nodes.tpl.php und dem Inhaltstyp werde ich vermerken. Nodewords ... mal sehen. Kann ich Dich mal per PN kontaktieren evtl., glycid?
Schöne Grüße
knobelvogel
Grüße
KnobelVogel schrieb Kann ich
am 06.12.2012 - 09:23 Uhr
Kann ich Dich mal per PN kontaktieren evtl., glycid?
Nur zu....