...Werde Fan von Starker Rücken bei Facebook Bandscheiben auf Twitter


Kommentar-Feeds entsorgen – kleine Spiele mit der robots.txt

1. September 2007 von Christoph Weigand  
Abgelegt unter: Blogging

Vor ca. zwei Wochen hatte ich mir aufgrund des Fütterungsverbotes bei Gerald Gedanken über die Entsorgung meines Kommentar-Feeds aus den Suchergebnissen gemacht. Also schritt ich guter Dinge zur Tat und fütterte meine robots.txt mit einigen Zeilen (hierzu muß ich sagen, daß ich mich bis dato nicht mit Befehlszeilen in der robots.txt auseinandergesetzt hatte).

Ich verwendete ich u. a. Auszüge des Vorschlags von Matthias, nämlich:

Disallow: /blog/feed/ (wobei ich für “blog” selbstverständlich “bandscheibenblog” einsetzte ;-)
Disallow: /blog/*/feed/

Das verursachte auf den ersten Blick keine Probleme, erfreulicher Weise wurden auch nach wenigen Tagen die ersten Kommentarfeeds in den Suchergebnissen nicht mehr angezeigt.

 

Nach einigen Tagen stellte ich allerdings fest, daß ab dem Datum der Änderung bzw. Befüllung meiner robots.txt keiner meiner Beiträge mehr in der Blogsuche von Google gelistet wurde. Auch das wäre/ist kein totales Horrorszenario, denn nicht mehr über die Blogsuche gefunden zu werden, heißt nicht, auch aus dem “normalen” Google-Index zu verschwinden.

Der für mein Empfinden große Nachteil besteht allerdings (neben den Besuchern, die nicht mehr über die Blogsuche kommen) darin, daß Phänomene wie dieser zeitnahe Besuch der index.php, der Startseite des Blogs, nach Veröffentlichung eines Artikels, ab Zeitpunkt der Änderung nicht mehr stattfanden. Dieses schnelle Abfragen der Startseite scheint außerdem in Kombination mit dem Anpingen der Blogsuche (Schreibeinstellungen WordPress) zu einer beschleunigten Indexierung des Einzelartikels zu führen, denn wo vor Änderung der robots.txt neue Beiträge nach 1-2 Tagen ihren Weg in den Index fanden, benötigten sie nun 4-5 Tage, rankten zuerst deutlich weiter hinten in den Suchergebnissen und “kämpften” sich dann langsam nach vorne. Das mag uU auch mit anderen Faktoren zusammenhängen, die zeitgleich die Indexierung beeinflussten, aber nachdem ich die robots wieder gesäubert hatte, erfolgte die Listung in altbekannter Weise.

Was war geschehen ? Der Eintrag:

Disallow: /bandscheibenblog/feed/

hatte dafür gesorgt, daß mein Hauptfeed bei der Blogsuche ausgesperrt wurde. Ich hätte besser/länger nachdenken bzw. die Webmaster-Tools (hier:robots.txt -Analyse) bemühen sollen, mein Fehler, aber in Ordnung – wieder etwas gelernt.
Aussperrung des Hauptfeeds ist also in meinem Fall nicht beabsichtigt, die Blogsuche soll weiterhin gefüttert werden, nur der Kommentarfeed vorerst ‘raus.
Zwischenzeitlich hatte ich mich auch an Gerald gewandt, der mir freundlicherweise zwei schöne Links zu dem Thema zuschickte (Danke). Auch bei Monika und Michael wurde das Thema schon ausführlich behandelt.

 

Und wie ich es bei Michael lese, ist es einleuchtend

Disallow: */feed/
Allow: /feed/

Bezogen auf mein Blog hieße das:

Disallow: /bandscheibenblog/*/feed
Allow: /bandscheibenblog/feed/

Die robots.txt-Analyse meldet mit diesen Zeilen jetzt:

 

feed1

Hauptfeed also zugelassen. Ich bekomme übrigens auch eine positive Meldung, wenn ich die “Allow”-Zeile weglasse, aber was soll’s erlaube ich’s eben ausdrücklich.
Zusätzlich habe ich noch ein “Disallow: /bandscheibenblog/*/trackback/” eingefügt, was die robots jetzt in dieser Form erscheinen läßt:

User-agent: *

 

Disallow: /bandscheibenblog/*/feed/
Disallow: /bandscheibenblog/*/trackback/
Allow: /bandscheibenblog/feed/

rss, atom, rss2 usw. habe ich nicht ausgeschlossen, weil (siehe hierzu auch Kommentare bei Michael) sie von meinem Worpress nicht verlinkt werden. Eine Abfrage bei Google ergibt zudem, daß die rss etc. -URLs nicht im Index gelistet sind. Also weggelassen.

 

Vielen von Euch erzähle ich hiermit wahrscheinlich nichts Neues, und ich weiß auch erst morgen oder übermorgen, ob mich die Blogsuche tatsächlich ‘drinbehält. Aber wenn’s weitere Erkenntnisse gibt werde ich berichten. Vielleicht könnt Ihr trotzdem euren Nutzen aus dem Beitrag ziehen.
Falls jemand noch Ergänzungen hat, bin ich für jeden Hinweis dankbar :-)
Einige Ergänzungen aus den wp- Ordnern werde ich noch einfügen, wenn ich sehe, daß die oben dargestellte Lösung funktioniert.

Hinweise zur Gestaltung der robots.txt gibt’s übrigens auch bei Google direkt, aber das ist mir ehrlich gesagt zu confused.

Edit: da fällt mir noch ein, daß die Kategorien ja auch eigenständige Feeds haben, also muß, insbesondere weil ich eben noch einen separaten Bandscheiben-Feed eingerichtet habe (auf den auch von der Startseite verlinkt wird) noch eine Zeile hinzu kommen (war übrigens auch ein Vorschlag von Gerald, hab’s nur erst nicht verstanden):

feed2

Edit 03.09.07:
Mist, der Verzeichnispfad geht ja in den Kategorien noch eine Ebene tiefer, als muß noch ein Sternchen hinzugefügt werden. Aktuelle robots.txt:

feed3

Kommentare:

6 Kommentare zu “Kommentar-Feeds entsorgen – kleine Spiele mit der robots.txt”
    • Matthias sagt:

      Oh, das tut mir leid, dass ich Dich mit meinem Vorschlag so in die Sch*** geritten habe. Die Blogsuche habe ich gar nicht bedacht und man kann den Agenten ja leider auch nicht in den Webmastertools aussuchen. :-(

    • Kein Problem, Matthias – hat ja im Prinzip auch keine großen Nachteile gehabt.
      Außerdem führen solche Erlebnisse immer dazu, daß ich mich mit dem Thema etwas intensiver auseinandersetze. Ansonsten liest man was, übernimmt einen guten Vorschlag und das war’s dann. Die Hintergründe finden nur wenig Beachtung.
      Insofern: trotzdem Danke ;-)

    • Das mit der Blogsuche klappt jetzt übrigens hinsichtlich meiner aktuellen robots.txt – bin auch nach der Änderung noch gelistet :-)

    • Matthias sagt:

      Ich habe bis jetzt noch keinen einzigen Besucher über die Blogsuche bekommen, merke ich gerade. Zumindest konnte ich in den ganzen Statistiktools nichts finden, was auf die Blogsuche hingewiesen hätte. Wenn ich jetzt die robots.txt ändere, kommt der Blogsuche-Bot dann automatisch oder muss ich dem irgendwie mitteilen, dass ihm meine robots.txt wieder freundlich gesinnt ist? :-)

    • Wenn Du die robots geändert hast und bei den WP-Schreibeinstellungen den Ping zu Google eingefügt hast:

      http://blogsearch.google.com/ping?name=Blogname&url=BlogURL&changesURL=FeedURL

      geht das automatisch.
      Um das Procedere zu beschleunigen (z. B. ohne daß Du einen neuen Beitrag geschrieben hast), kannst Du auch einfach die Ping-URL in die Adresszeile des Browsers kopieren, “Enter” drücken, und damit die Blogsuche ohne neuen Beitrag anpingen. Dann müßten die bisher noch nicht mit Ping versehenen Beiträge in die Suche übernommen werden.

Trackbacks

Das sagen andere Blogs zu diesem Artikel:
  1. [...] der bisherigen Problematik empfehle ich das Fütterungsverbot bei Gerald und meine Spiele mit der robots.txt. Etwas erstaunt bin ich übrigens über die Begründung der Entscheidung bei [...]



Hier kannst Du kommentieren:

Teil mir Deine Meinung zu diesem Artikel mit:

Vielleicht von Interesse für Dich: