Montag, 4. Juni 2012

Wenn Maschinen Texte und Nutzer verstehen lernen - die Chancen semantischer Contentanreicherung. Interview und Konferenzteaser

Semantic Web ist ein Trend, dessen Konjunktur sich nicht nur an der steigenden Zahl von Vorträgen auf Fachkonferenzen ablesen lässt. Das Thema ist nicht ganz neu, doch in der Verlagsbranche beschäftigen sich mit dieser scheinbar komplexen Materie nur wenige Pioniere. Dabei ist das Potential semantischer Contentaufbereitung gerade für Verlage enorm groß: Wenn Maschinen Texte und Nutzer besser verstehen, können Inhalte in einer ganz neuen Dimension auf die Kundenbedürfnisse zugeschnitten werden. Paux-Geschäftsführer Michael Dreusicke, auch Referent auf der nächsten Verlag 3.0-Fachkonferenz zum Thema Customized Content am 04. Juli in München, erläutert im folgenden Interview die Chancen dieses aufregenden Konzeptes.

Kontextuale oder auch personalisierte Contentzusammenstellungen gewinnen in den strategischen Überlegungen von vielen Verlagen an Bedeutung. Wie kann eine semantische Inhaltsaufbereitung die Personalisierung unterstützen?
 Michael Dreusicke: Wenn wir Contentbestandteilen in einer für Maschinen auswertbaren Weise mitteilen, was sie "sind", können uns die Maschinen beim Wiederfinden und Zusammenstellen von Zusatzinformationen unterstützen. Google hat das in seinem neuen Dienst Knowledge Graph mit dem Motto "things, not strings" recht nett beschrieben. Man könnte das vielleicht mit "Dinge statt Schriftzeichen" übersetzen. Dahinter steht die Idee, dass Texte aus der Sicht der Maschinen nicht viel mehr als eine unverständliche Abfolge von Zeichen sind, während Dinge Eigenschaften haben, anhand derer wir sie finden können. Wenn Sie z.B. einen Autor mit dem Namen "Peter Meie" suchen, wird die Maschine bei einer Suche nach den entsprechenden Schriftzeichen vielleicht sehr viele Treffer anzeigen. Die Maschine weiß ja nicht, welchen Peter Meier Sie meinen. Wenn Peter Meier hingegen durch ein "Objekt" in einer Datenbank repräsentiert ist, also z.B. eine eigene Personennummer hat, können Sie ihn eindeutig identifizieren. Ihm können dann auch Zusatzinformationen zugeordnet werden, wie z.B. seine Telefonnummer. So lässt sich Peter sowohl über seinen Namen als auch über seine Telefonnummer wiederfinden, und bei mehreren Peter Meiers kann die Telefonnummer als zusätzliches Kriterium zum gewünschten Peter führen. Als "Objekt" einer Datenbank ist unser Peter also einfacher und genauer zu finden denn als bloße Zeichenkette.
Content eindeutig zu identifizieren und jederzeit wiederzufinden, ist also eine der Grundvoraussetzungen für Contentaggregationen aller Art. Und hier kann eine semantische Auszeichnung sehr hilfreich sein.

Wie weit lässt sich diese Form der Contentzusammenstellung durch Semantik automatisieren?
Michael Dreusicke: Wie oben beschrieben können wir für die Beantwortung dieser Frage die Perspektive einer Maschine einnehmen. Sie lässt sich mit dem Lesen einer unbekannten Sprache mit fremden Schriftzeichen vergleichen. Wir Menschen können uns das kaum noch vorstellen, allein schon, weil wir oft schon automatisch und eher unbewusst erkennen, wenn es sich um Text und Sprache handelt. Die Maschine hingegen empfindet beim Verarbeiten von Schriftzeichen eines Liebesgedichts und den Werten einer Abgassonderuntersuchung dasselbe: Nichts.
Dennoch ist unsere Sprache vielen Regeln unterworfen, deren Schema sich formal recht gut erkennen lässt: Wörter werden durch Leerzeichen getrennt, Sätze durch Satztrennzeichen (oft ein Punkt) usw. Zudem werden dieselben Wörter zwar oft nicht gleich geschrieben, sondern z.B. gebeugt, es sind aber Grammatikregeln bekannt und diese lassen sich gut in formale Maschinensprache übersetzen, so dass Verfahren wie Rechtschreib- und Grammatikprüfungen ziemlich gut funktionieren.
Eine automatisierte Contentzusammenstellung setzt aber andere Unterscheidungen voraus als die der bloßen sprachlichen Korrektheit. Hier geht es um inhaltliche Fragen, insbesondere um Relevanz.
Dabei ist Relevanz ein Phänomen, das mich persönlich immer wieder fasziniert, weil es oft allein stehend verwendet wird und sich mir diese Anwendung nicht so recht erschließen mag: Wenn z.B. im Rahmen einer Suche die Anzeige der Treffer nach Relevanz sortiert wird, frage ich mich immer: Relevant für wen?
Die ersten Treffer mögen ja aus Sicht der Suchmaschine besonders gut zu ihren Suchalgorithmen passen, für mich müssen sie aber noch lange nicht relevanter als spätere Treffer sein. Sinnvolle Aussagen über Relevanz lassen sich daher aus meiner Sicht immer nur in Kombination mit einer Person oder Personengruppe machen: Relevant für wen?
Um diese Frage zu beantworten, ist die Maschine wiederum auf jede Menge Kontextinformationen zu der "fragenden" Person angewiesen, müsste also ihre mutmaßlichen Interessen "kennen", das heißt zunächst einmal verstehen. Maschinen verstehen aber nichts, weil ihnen Bewertung nicht zwangsweise eingebaut ist wie uns Menschen. Bei uns Menschen laufen alle im Gehirn eintreffenden Informationen erst einmal durch das limbische System und werden dort bewertet. Erst dann gelangen sie in die Großhirnrinde und stehen für anspruchsvollere, dem Bewusstsein zugängliche Prozesse zur Verfügung. Eine wesentliche semantische Auszeichnung der Informationen findet also systembedingt bei uns Menschen nicht nur immer statt, sondern sogar vor jeder weiteren Verarbeitung.
Solange sich Computersysteme eher an der Verknüpfungsstruktur unseres Neo Cortex orientieren (und selbst von dessen Abbildung sind sie noch meilenweit entfernt), werden sie nur zu semantisch eher einfachen Aufgaben in der Lage sein. Dafür aber mit einer rasenden Geschwindigkeit und ohne Mittagspause.

Wie groß ist der Aufwand, um zu einer semantischen Aufbereitung der Inhalte zu kommen?
Michael Dreusicke: Semantik beginnt aus meiner Sicht auf einer formalen Ebene: Zunächst mal sollte Text wissen, dass er Text ist. Die Schriftzeichen in Wörtern, die Wörter in Sätzen, die Sätze in Absätzen etc. sollten ihre Funktion „kennen“. Formale Semantik lässt sich vollautomatisch umsetzen, der Aufwand beschränkt sich auf die Implementierung einer geeigneten Technologie. Sobald Texte diese formale Strukturinformation besitzen, kann die Maschine damit schon ein bisschen mehr anfangen. Und Autoren können das z.B. nutzen, indem sie Textabschnitte unterschiedlichen Nutzergruppen zuweisen. Einsteiger bekommen dann z.B. einen etwas anderen Text zu lesen als Fortgeschrittene.
Anspruchsvoller wird die Semantik, wenn wir auf die Bedeutung des Texts schauen und versuchen, sie der Maschine zugänglich zu machen. Nach Wittgenstein erschließt sich für uns die Bedeutung eines Wortes aus seiner Anwendung, also aus dem Kontext, in dem es steht, und seiner sich hieraus ableitenden Funktion in genau diesem Kontext. Autoren können diesen Kontext explizit ausdrücken, indem sie Textstücke miteinander verknüpfen und ggf. um weitere Informationen wie Erklärungen, Bilder, Videos, Veranstaltungen, Hyperlinks, Personen, Produktempfehlungen oder Leserkommentare anreichern.
Die Möglichkeiten sind vielfältig. Welche davon für den jeweiligen Content Provider interessant sind, hängt vom Einzelfall ab. Triviale, schematische Zusammenhänge lassen sich gut automatisieren. Die meiste tatsächlich inhaltliche Arbeit erschließt sich den Maschinen hingegen auf absehbare Zeit nicht.
Erfolgversprechend scheinen daher Verfahren zu sein, bei denen maschinelle Verfahren um manuelle Tätigkeiten von Menschen ergänzt werden. Das muss nicht immer "hochwertige" Autorenschaft sein, sondern geschieht in der Praxis auch durch Spiele oder eine Community.
Beispiele: Spieler taggen Fotos, bei Übereinstimmung bekommt man Punkte; z.T. spielen das einige viele Stunden am Tag. Unbezahlt.
Amazon und andere bieten mit Diensten wie "Mechanical Turk" eine Möglichkeit, einfache Tätigkeiten via Crowd kostengünstig umzusetzen.
Im Einzelfall dürfte die gewünschte Informationsqualtität entscheiden, welche Komponente in welchem Umfang genutzt wird.

Wie steigt ein Verlag am besten in das komplexe Thema ein?
Michael Dreusicke: Aus meiner Sicht ist das Thema verglichen mit dem Verlagsalltag gar nicht komplex. Im Gegenteil: Es ist für die meisten zwar neu, bei genauem Hinsehen aber ganz natürlich und sehr einfach verständlich. Die Schwierigkeit besteht aus meiner Sicht überwiegend darin, der Verlagscontent einmal unbefangen zu betrachten und wahrzunehmen, wie viel Information da eigentlich drin steckt, die für uns Menschen sichtbar, für die Maschinen aber verborgen ist. Wenn man das einmal gesehen hat, sind die nächsten Schritte schnell klar und ergeben sich praktisch von allein.
Da es sich also in gewisser Hinsicht um einen Paradigmenwechsel handelt, der in einigen Unternehmensbereichen ein Neudenken von Aufgaben und Lösungen empfiehlt, steht dem Unternehmen tendenziell seine eigene Prozessstabilität im Weg. Die Entwicklung und Implementierung neuer Prozesse gelingt daher vermutlich besser unter Einbeziehung externer Experten.
Da sich Unternehmen in Sachen Firmenkultur, Kundenbeziehung, Produktdefinition, Vertriebsstrategie etc. erheblich unterscheiden, würde ich hierbei nicht auf singuläre Technologieansätze vertrauen, sondern das Thema mit einer Stakeholder- und Bedarfsanalyse beginnen. Hieran schließt sich die Beantwortung der Frage an, für welche Produkte sich welche Aufbereitungsart und -tiefe empfiehlt, welcher Mitteleinsatz sich lohnt und wie er sich zeitlich optimal umsetzen lässt. Am Anfang steht also aus meiner Sicht eine solide Content Strategie.

Die Grundlagen für die Arbeit mit semantischen Strukturen sind längst gelegt, Standards sind definiert, es gibt auch schon eine Reihe von Anwendungen. Doch das Gros der Verlage tut sich mit dem Thema Semantik noch immer schwer - was meinen Sie, woran das liegt?
Michael Dreusicke: Zunächst hat das Wort „Semantik“ ähnlich wie „Künstliche Intelligenz“ eine schwierige Vergangenheit hinter sich: Nach den ersten Erfolgen semantischer Erkennung vor mehr als 20 Jahren wurden die Ergebnisse extrapoliert und daraus die Schlussfolgerung abgeleitet, dass sich die "Erkenntnisfähigkeit" von Maschinen linear, vielleicht sogar logarithmisch weiterentwickeln könnte. Das wurde nicht nur ungewiss in Aussicht gestellt, sondern mit ein bisschen zu viel Schwung als Wahrheit verkauft. Nach einigen Jahren kam jedoch die Enttäuschung, weil sich die Maschinen zwar in determinierten Räumen wie Schach bestens zurecht fanden, zur Beantwortung von Fragen aus unserer Lebensrealität aber wenig beitragen konnten. Die Gründe hierfür sind inzwischen ausgiebig erforscht und verstanden: Die beiden Hauptfaktoren sind zusammengefasst die begrenzte Reflexionsfähigkeit des Menschen über sein eigenes Wertesystem sowie die Ambiguität der Sprache. Sowohl der Gegenstand als auch die Frage der Kommunikation dieses Gegenstands weisen eine gänzlich andere Struktur auf als heutige Computersysteme. Nach dieser Ernüchterung hatten Semantik und künstliche Intelligenz keinen allzu guten Ruf. Erst seit sich die Giganten des Internets (Google, Facebook etc.) ausgiebig damit beschäftigen, ist der Begriff wieder hoffähig geworden und inzwischen sogar klar, dass es ohne semantische Anreicherung aufgrund der zurecht vielbesungenen Informationsflut in absehbarer Zeit nicht mehr gehen wird.
Ein weiterer Grund dürfte das Wort "Semantik" sein. Das ist so schrecklich nebulös, dass jeder Unbefangene, der davon hört, sofort von dem unwiderstehlichen Gefühl völliger Ahnungslosigkeit ergriffen wird. Dazu gesellt sich schnell die vermeintliche Erkenntnis, alle anderen hätten es begriffen. Wie trivial und einfach Semantik der Sache nach ist, wird schnell klar, wenn man sich vor Augen hält, dass es einfach nur um Zusatzinformationen / Metadaten geht, wie Tags in einem XML-Dokument oder das Preisschild auf der Ware im Supermarkt: Eine oder mehrere Zusatz-Infos hängen an einem Objekt und erleichtern dem Nutzer eine Entscheidung. Für die, die es genau wissen wollen, geht es freilich noch ein bisschen weiter, zumal wenn es um die Übersetzung in die Sprachen der Maschinen geht. Aber das Grundprinzip ist steinalt und längst bekannt.
Dass sich die Verlage mit dem Thema Semantik also zum Teil noch etwas schwer tun, scheint mir eher historisch begründet und lässt sich durch ein paar gute Workshops zu dem Thema schnell wieder in die Spur bringen.

Wie wird Ihre Kernbotschaft beim Vortrag auf der Fachkonferenz Verlag 3.0 lauten?
Michael Dreusicke: Informationen werden, um in unserem Kommunikationssystem Internet überleben zu können, semantisch ausgezeichnet und maschinenlesbar werden, die Frage ist aus meiner Sicht und der meiner Kollegen geklärt. Nicht das "Ob", sondern "Wann?", "Wie?" und "Von wem?" bleiben die spannenden Fragen. Die neuen Märkte digitaler Content-Kommunikation werden aktuell neu aufgeteilt und in beeindruckendem Tempo von Branchenfremdlingen der Dienstleistungsbranche besetzt (Apple, Amazon, Google). Vermutlich wird es heute wie damals bei der Digitalisierung in der Musikindustrie darauf ankommen, bereits vor der sichtbaren Welle Erfahrungen gesammelt und Standards im eigenen Unternehmen etabliert zu haben, um in den sich rasch ändernden Märkten wettbewerbsfähig zu bleiben.

Keine Kommentare: