Abendblatt und das “Google-” resp. “Googlebotloch”

Momentan überschlagen sich die Tweets mit Hinweisen darauf wie denn das Abendblatt auch kostenlos zu lesen ist.  Auch ich habe in meinem letzten Post darauf  hingewiesen.

Allerdings zeugt die Häme die dort zum Teil ausgeschüttet wird auch häufig von der Unkenntnis der Situation. Daher hier eine kurze Erklärung und meine Einschätzung.

Das Googleloch und das Googlebotloch sind alte Bekannte. Jeder der schon mal ernsthaft  das WallStreet Journal lesen wollte kennt zumindest das Google-Loch. Im folgenden will ich kurz erklären was die Gründe für diese Löcher sind und das das Abendblatt dies Löcher leicht stopfen könnte und es im Grunde nur eine Frage der Zeit resp. der kaufmännischen Abwägung ist ob und wann diese geschlossen werden.

Das Google-Loch und First-Click-Free

Das Google-Loch entsteht dadurch, dass die Verlage oder sonstige Content-Provider (zumindest die, die halbwegs bei Sinnen sind) nicht auf den Traffic aus der Google-Suche und Google-News verzichten wollen.

Um dies auch für Paid-Content machen zu können gibt es die First-Click-Free-Regelung von Google. Diese stellt im wesentlichen eine Ausnahme von der allgemeinen “Cloaking”-Regel dar die Aussagt, dass den Endkunden und dem Google-Crawler (der sich als googlebot identifiziert) nicht unterschiedliche Seitenversionen ausgeliefert / angezeigt werden dürfen.

Bis zum 1. Dezember besagte die First-Click-Regelung, dass dies für jeden ersten Klick, der von einer Suchergebnisseite / Google News kam, die gleiche Seite angezigt werden musste wie sie der Googlebot gesehen hat, erst Links die von dieser Seite wegführten durften dann auf Seiten führen die hinter der Paywall lagen.

Zum 1. Dezember hat Google, als eines der Zugeständnisse die sie an die Content-Provider gemacht haben, diese Regelung geändert. Seit diesem Datum gibt es die eingeschränkte First-Click-Free-Regelung die es des Content-Providern erlaubt, nach einer bestimmten Anzahl von Klicks am Tag, die von Google-Seiten kommen auch die Seite die auf diesen First-Click hin angezeigt wird hinter die Paywall zu legen. Als Minimum müssen allerdings 5 Clicks pro Tag frei sein.

Die Implementierung dieser veränderten Regelung obliegt den Verlagen (ist auch das einzig technisch sinnvolle).  Jeder der sich technisch halbwegs auskennt, weiss, das das ganze nicht trivial ist und insbesondere auch mehr Last auf den Systemen erzeugt. Daher ist es nicht verwunderlich, dass das Abendblatt die veränderte Regelung noch nicht umgesetzt hat.

Letztendlich ist aber auch eine  ökonomische Frage, ob sich der zusätzliche Aufwand überhaupt lohnt. In meiner Abwägung würde aber der Glaubwürdigkeitsaspekt überwiegen und ich gehe davon aus dass Axel-Spinger dies auch tun wird. Da Abendblatt und Berliner Morgenpost jetzt auf der gleichen technischen Plattform laufen müssen sie es ja auch nur einmal machen.

Ich gehe davon aus dass diese Lücke noch im Laufe dieses Jahres, allerspätestens im Januar geschlossen wird.

Das Googlebotloch

Eine zweite Lücke auf den in den Tweets hingewiesen wird ist das “Googlebot”-Loch. Hier gibt sich der Browser als Google-Crawler aus. Da dieser ja die Inhalte komplett sehen soll (siehe oben) wird der komplette Inhalt ausgeliefert.

Hier verwundert es mich allerdings, dass das Abendblatt diese Lücke noch nicht geschlossen hat. Das Verfahren dazu bescheibgt Google selbst auf seinen Webmaster Seiten. Es bsetht wus einem sog. Reverse DNS Lookup der feststellt ob eine IP-Addresse (die bei jedem Request mitgeliefert wird) auch aus der googlebot.com Domäne kommt, optional gefolgt von einer normalen (Forward) DNS Anfrage die dann verifiziert, ob der im ersten Schritt zurückgelieferte Name auch auf die angegebene IP-Adresse aufgelöst wird.

Dies ist notwendig, da Google nicht die IP-Adressenbereiche der Maschinen die den Crawl  ausführen bekannt gibt. Wäre das der Fall, so wäre eine Filterung der Googlebot Requests auf  diese Adressen trivial.  So ist das ganze aber mit nicht unerheblichem Aufwänden und Kosten verbunden. Darüberhinaus entstehendurch die beiden DNS-Requests Verzögerungen bei der Auslieferung der Seiten.

Im übrigen hat Google ebenfalls vor kurzem (als weiteres Zugeständnis an die Content Provider einen dedizierten Crawler-Namen für den Google News Crawler eingeführt. Dieser heisst: Googlebot-News.