“To organise the worlds information about you, and make it accessible to Google”

As most of you i’ve watched the Google I/O  Keynote on tuesday. Because i was participating in a test of a live blogging software I did a fair amount of live tweeting.

Since i had to rush after 2 1/2 hours to be only one hour late to a dinner invitation,  summarised the keynote with a tweet saying:

My summary of the first 2 1/2 hours of the #io13 keynote: meh meets spooky, and forget about interoperable standards, do it the google way
@gkamp
gkamp

But this was only one part of the summary. The other deserves some more time and space than a tweet. Hence this post.

It was the modified version of Google’s mission statement that formed itself in the back of my head:

“To organise the worlds information about you and make it accessible to Google”

This is what the “sppoky” part of my tweet relates too.

For the first time did Google show off how the different  initiatives (especially in the machine learning domain) come together in order to accrue as much information about a user as possible by providing useful services to him and track his activities.

As usual, there are two sides of a coin: In order to be able to provide Services like Google Now, or auto-awesome you need that vast amount of information and you need the progress in machine learning, NLP, … all that AI capabilities that Google has developed (standing on the shoulders of the AI research community as well as contributing heavily to it). For anybody interested in this topic i recommend to visit http://research.google.com.   And subscribe to The Google Research Blog and the Recent Google Publications Feed (if you somehow can find the URLs for the feed, one sympton of what i meant by less and less using interoperable standards).

What also has changed from back in the days when i did AI research, is the way the services are realized (in the cloud vs. local ressources) and paid for (personal data and advertising vs. license fees). This heavily contributes to my attitude to not using services like Google Now etc.

I’d rather be able to pay real money  in exchange to get a reasonable guarantee that my privacy is not invaded for potentially massively privacy invading services like Google Now and Auto-Awesome.

In this i’m a typical german  after all :-)

What’s next

Reading the (currently) most recent Google Research Blog Post it becomes clear, that Google is not going to rest on it’s laurels:

:

We’ve already developed some quantum machine learning algorithms. One produces very compact, efficient recognizers — very useful when you’re short on power, as on a mobile device. Another can handle highly polluted training data, where a high percentage of the examples are mislabeled, as they often are in the real world. And we’ve learned some useful principles: e.g., you get the best results not with pure quantum computing, but by mixing quantum and classical computing.

Can we move these ideas from theory to practice, building real solutions on quantum hardware? Answering this question is what the Quantum Artificial Intelligence Lab is for. We hope it helps researchers construct more efficient and more accurate models for everything from speech recognition, to web search, to protein folding. We actually think quantum machine learning may provide the most creative problem-solving process under the known laws of physics.

Elsewhere

As usual, i’m not the only one to get that feeling, and by far not the smartest. Without further ado, Mashables and Ben Thompsons take on it:

Mashable:

Now, however, Google’s worldview is finally coming into focus. The tenuous threads that connect these dozens of different applications and services are strengthening and gradually being pulled closer together. Underneath it all is Google’s vast web of information and smarts, which is all about us.

What Google is about to do with all of it is either a thrilling or very scary prospect.

Ben Thompson: (his remarks on Henry McCracken quoted nearly in full, but go read it and subscribe to Ben’S blog)

I don’t know much about itches, but I believe the conventional wisdom is wrong: from Google’s perspective, Google+ is not a social network meant to compete with Facebook. Rather, it’s an identity system that follows you everywhere.

Think about it: what is more valuable? Inane chatter, memes, and baby photos, or every single activity you do online (and increasingly offline)? Google+ is about unifying all of Google’s services under a single log-in which can be tracked across the Internet on every site that serves Google ads, uses Google sign-in, or utilizes Google analytics.

Every feature of Google+ – or of YouTube, or Maps, or GMail, or any other service – is a flytrap meant to ensure you are logged in and being logged by Google at all times.

Google’s mission is ostensibly “To organize the world’s information and make it universally accessible and useful.”

That was once true, but a better formulation today is: “To organize user information and make it universally trackable and marketable.”

 

 

 

 

Warum ich mich nicht als Nutzer von zeit.de, sueddeutsche.de und spon.de fühle

In der re:publica 13 Session “Digital by default – „Digital Natives der Herzen” im Journalismus” (Video) wurde am Ende der Anmoderation folgende Frage gestellt (im Video ca. 1:10):

“Wer der Anwesenden nutzt weder – in seinem täglichen Leben – zeit.de, sueddeutsche.de oder Spiegel Online?”

In einem Saal mit ca . 1000 Menschen war ich der einzige, der die Hand hob. (Gratulation an Jochen Wegner, der mich trotz Bühnenscheinwerfer erkannte. Deine Augen hätte ich gerne).

Wer mich kennt, weiss, das ich was meine Mediennutzung angeht, eher digital native als ewiggestriger  bin. Warum also habe ich, im übrigen nach kurzem Zögern, meine Hand gehoben?

  • Ich hasse rhetorische Fragen. Wenn sie dann auch noch an das Publikum gestellt werden und vorher Kuschelkurs angesagt wird, dann muss man mir nur einen kleinen Grund geben.
  • In der prädikatenlogischen Interpretation der Frage musste ich die Hand heben. Denn es gibt Tage an denen ich weder auf zeit.de, sueddeutsche.de noch spon.de bin. Zum Beispiel Tage an denen ich überhaupt nicht im Internet bin (ja die gibt es).
  • Klar weiss ich spätestens seit meiner NLP-Vorlesung Ende der 80er, dass “im täglichen Leben” ein unscharfer Quantor ist und wohl eher als “tauche ich als Unique Visitor in den Wochenstatistiken bei zeit.de, sueddeutsche.de oder spon.de  auf” gemeint ist. Ich sagte ja: Ein kleiner Grund reicht.
  • Ausserdem lese ich zur Zeit Unmengen an dpa. Und zwar “unverwurstet” wie Stefan Ploechinger sagen würde. Das liegt daran das ich im Rahmen meiner Arbeit als Leiter des dpa-newslab für die Realisierung der sog. “Chefredakteursapp” der dpa verantwortlich bin. In diese fliessen der komplette Basisdienst, alle Landesdienste sowie die dpa-news Portalinhalte ein. Also der überwiegende Teil der täglichen dpa-Produktion. Um die App zu debuggen, aber auch um zu analysieren wie man die Formate (und Inhalte) der dpa syntaktisch und semantisch so anreichern kann , dass sie noch leichter “verwurstet” werden können, lese ich zur Zeit jede Menge Meldungen, Zusammenfassungen, Korrespondentenberichte, Interviews, … und Themenpakete der dpa.

Der eigentliche Grund

Nach einigem Nachdenken bin ich mir mittlerweile sicher, dass diese oberflächlichen Symptome nicht der eigentliche Grund waren  die Hand zu heben. Ich denke es ist der folgende:

Auch wenn ich regelmäßig Artikel auf zeit.de, sueddeutsche.de oder spon.de lese, ich habe nicht das Gefühl, dass ich Nutzer dieser Sites bin.

Vielmehr bin ich Nutzer von Google Reader, Twitter und der persönlichen Empfehlungen von @jochenjochen, @ploechinger und @lyssaslounge (und vielen weiteren Personen / Kleinorganisationen).

(Unnoetiger Detailkram wie sich meine Nutzung von Google Reader und Twitter über die Jahre verändert hat gelöscht).

Und da es mittlerweile nicht nur “Geeks” wie ich sind, die die von ihnen gelesenen Inhalte “unbundled” via Aggregatoren und Kuratierung lesen, ist das für mich mit die größte Herausforderung vor der die Medienhäuser stehen. Die Auflösung ihrer Marke in eine Menge von Untermarken / Personen als Marken.

Exkurs: Serendipity

Oft habe ich in den letzten Jahren von Seiten der Medienhäusern dann gehört, das doch das Schnüren des Paketes “Tageszeitung”  den Vorteil bietet, dass man dort auch Dinge findet, nach denen man gar nicht gesucht hätte. Die berühmte “überrasschende Entdeckung” oder engl. “Serendipity”.  Denen kann ich nur entgegenhalten, dass ich, aufgrund der Tatsache, dass Menschen neben ihrer Arbeit / ihrem Kernthema auch ein Leben haben, über das sie auch in ihren Blogposts und Tweets berichten, mindestens genau so viele “überraschende Entdeckungen” gemacht habe. Insbesondere von anderen Menschen / Blogs / Timelines die es auch zu lesen lohnt.

Exkurs: Paywalls

Ich bin seit ihrer Einführung bislang noch nicht an  die “Metered Paywall” der New York Times gestossen, obwohl ich via Empfehlung häufig Inhalte von ihr lese. Und wenn ich an sie stiesse, würde ich wohl kein Abo abschliessen. Ein Abo für ein einzelnes Medium, für mein Leseverhalten eher ein Anachronismus.

Dann lieber nach bester Mobilfunkart Pakete für Qualitätsinhalte in unterschiedlichen Größen als Vertrag oder Prepaid. (Ich würde wohl mit Prepaid anfangen). Aber dafür fiel mir in der Diskussion zwischen @lyssaslounge, @ploechinger und @jochenjochen zu oft das Wort Kartellamt. Wenn einer der doch reichlich anwesenden Journalisten da doch mal nachrecherchieren würde :-)

 

 

Mein Beitrag zum LSR: Snippets als Vorschaubilder

Google News Seite mit Snippets als 7x7 RGBA PNGs (unskaliert)

Google News Seite mit Snippets als 7×7 RGBA PNGs (unskaliert)

tl;dr

Um den Fliegendreck links neben der Ergebnisliste dreht sich die ganze Aufregung in der Aktuellen LSR Diskussion. Jetzt ehrlich?

Und jetzt die Longform:

Prolog

Nachdem der Bundestag das LSR in 2. und 3. Lesung verabschiedet hat (PDF), wird es Zeit, dass ich mal wieder etwas in dieses Blog schreibe.

In der Änderung vom Mittwoch vor der Abstimmung wurde in Punkt 2 die magische Phrase “es sei denn, es handelt sich um einzelne Wörter oder kleinste Textausschnitte.“ hinzugefügt. Über die Auslegung ob Snippets damit gemeit sind wird bereits trefflich gestritten.

In der Begründung von Punkt 2 wird dann auf die BGH Rechtsprechung zu Vorschaubildern  Bezug genommen:

“Die freie, knappe aber zweckdienliche Beschreibung des verlinkten Inhalts ist gewährleistet. Suchmaschinen und Aggregatoren müssen eine Möglichkeit haben, zu
bezeichnen, auf welches Suchergebnis sie verlinken.
Insofern gilt der Rechtsgedanke der Rechtsprechung des Bundesgerichtshofs zu Vorschaubildern („Vorschaubilder I“, Urteil vom 29.04.2010, Az. I ZR 69/08; „Vorschaubilder II“, Urteil vom 19.10.2011, Az. I ZR 140/10)”

Aber das wissen alle, die auf diesem Blogpost gelandet sind, eh schon lange. Genug der Vorrede:

Irgendwann  gestern kam ich auf die Idee, doch mal zu visualisieren was es denn heissen würde, wenn man die Snippets als Vorschaubilder darstellen würde.

Ein Bild sagt ja manchmal mehr als 1000 Worte.

Schritt 0: Google News Ergebnisseite besorgen

Also geschwind mal die Google-News Seite mit site:welt.de befüllt (rein zufällige Wahl). Das ganze sah zu dem Zeitpunkt so aus:

LSR: Aktuelle Google News Seite mit site:welt.de

Aktuelle Google News Seite mit site:welt.de

Dann den Quelltext gespeichert, einmal durch HTML Tidy gejagt, damit man die interessanten Abschnitte leichter findet und frisch ans Werk.

Schritt 1: Snippets raus

Ergebnis

LSR: Google News Seite für welt.de ohne Snippets

Google News Seite für welt.de ohne Snippets

Schritt 2: Vorschaubilder für die Snippets

Anstelle der schlimmen Bild-Text Scheren rein. Warum Bilder vom Donaukurier und RTL Online zu den Welt Meldungen packen wenn man auch das Snippet “tanzen” kann.

Was liegt näher als die Google Charts API zu benutzen um den Snippets Text als QR Code darzustellen?

Nicht einfacher als das: Text  in die Google Charts URL eingeben, z.B. so:

https://chart.googleapis.com/chart?cht=qr&chs=72×72&chl=Berlin/Stuttgart%20-%20Die%20Deutsche%20Bahn%20kann%20das%20umstrittene%20Projekt%20Stuttgart%2021%20trotz%20Mehrkosten%20in%20Milliardenh%C3%B6he%20weiterbauen.%20Daf%C3%BCr%20erhielt%20der%20bundeseigene%20…

und fertig ist der QR Code.

Dann diese Links an den richtigen Stellen im HTML einsetzen und das ganze sieht dann so aus:

LSR: Google News Seite der Welt : Snippets als QR Code

Google News Seite der Welt : Snippets als QR Code

Man sieht, die 72x 72 Pixel im Layout reichen dicke aus um den QR Code für den Snippet Text unterzubringen. Aber schön ist das wirklich nicht.

Ausserdem komplette Platzverschwendung. Wir reden über ein digitales Medium und die ganzen Späße bzgl. Fehlerkorrektur etc. kann man sich sparen.

Schritt 3: Simplify to the Maxx

Daher im nächsten Schritt mal eine minimale Lösung bauen.

Also schnell die Python  und PIL Kenntnisse wieder rausgekramt, Snippet Texte in eine Liste gepackt und festgestellt das zumindest bei den ersten 6 Snippets 196 Zeichen deutlich Luft nach oben lässt

>>> [len(s) for s in snippets]
[165, 153, 149, 166, 149, 163]

Das ist praktisch, da 196 = 7 * 7 * 4 ist und damit bedeutet, dass man den Snippet problemlos in ein 7 x 7 Pixel grosses PNG (mit RGBA) packen lässt.

Also schnell ein paar Zeilen Python geschrieben:

>>> long_snippets = [s.ljust(196) for s in snippets]

>>> def to_png(string,filename):
… i = Image.fromstring(‘RGBA’,(7,7),string)
… i.save(‘{0}.png’.format(filename))

>>> [to_png(a,'thumb_{0}'.format(i)) for i,a in enumerate(long_snippets)]

und fertig sind die PNG dateien

Jetzt noch schnell in die Google News Seite reingehängt (und erstmal die Skalierung auf 72x72px dringelassen). Das hat den netten Effekt das das ganze ein bisschen wie Gerhard Richters “Farben” aussieht.

Heraus kommt das folgende:

LSR: Google News Seite der Welt mit den Snippets als7x7 PNG RGBA Dateien (hochskaliert auf 72x72)

Google News Seite der Welt mit den Snippets als7x7 PNG RGBA Dateien (hochskaliert auf 72×72)

Jetzt nochmal schnell nachgesehen ob ich auch keinen Mist gebaut habe:

>>> j=Image.open(‘./thumbs/thumb_0.png’)
>>> j.tostring()
‘Die Proteste gegen den Abriss von Berliner Mauerteilen sind eine Farce: Beim Streit \xc3\xbcber die East Side Gallery geht es um viel \xe2\x80\x93 nur nicht um eine lebenswerte … ‘

Und zum Abschluss: die PNGs unskaliert in die Google News Seite gehängt.

LSR: Google News Seite mit Snippets als 7x7 RGBA PNGs (unskaliert)

Google News Seite mit Snippets als 7×7 RGBA PNGs (unskaliert)

Der Fliegendreck links neben der Ergebnisliste ist es also, um den sich die ganze Aufregung dreht. Der den Qualitätsjournalismus und die Demokratie gefährdet. Und was sonst noch alles.

Jetzt ehrlich?