Die Strukturierung touristischer Daten für das Semantic Web.

Daten für Menschen…aber (noch) nicht für Maschinen.

Vor rund 30 Jahren erfand Tim Berners-Lee das World Wide Web (kurz Web). Um Inhalte jeglicher Art (Text, Bild, Audio, Videodateien usw.) zu sortieren und miteinander zu verbinden, entwickelte er ein System das diese durch URLs identifiziert. Diese URLs werden bis heute verwendet, um von einem Dokument auf beliebig viele andere zu verweisen. Dadurch entsteht ein Netzwerk von Dokumenten bzw. Websites – das World Wide Web.

Daten können in unterschiedlicher Form gespeichert und veröffentlicht werden. Eine Unterscheidung erfolgt zwischen unstrukturierten, semi-strukturierten und strukturierten Daten.

Als unstrukturierte Daten werden jene Daten bezeichnet, die so vorliegen, dass Menschen sie zwar lesen können, aber die Struktur selbst sich erst durch das menschliche Erfahrungswissen erschließt. Beispiele sind einfache Beschreibungstexte, in denen jegliche Informationen zu einem bestimmten Thema aggregiert sind.

Semi-strukturiert sind Daten, wenn Informationen in einzelne Felder aufgeteilt werden, aber diese keinem de-facto Standard folgen. Im übertragenen Sinne haben sie keine allgemein bekannte „Sprache“, sodass die Bedeutung einzelner Felder von Außenstehenden nicht unmittelbar verstanden werden kann und Informationen auch gebündelt in einem Fließtext vorliegen können, die in anderen Auszeichnungssprachen separiert wären.

Strukturierte Daten, die für das Semantic Web durch Maschinen verstanden werden sollen, folgen einer Ontologie. Das bedeutet, dass Einzelinformationen auf Basis eines de-facto Standards strukturiert werden. Eine weit verbreitete Ontologie, um Inhalte im Web zu beschreiben, ist schema.org.

Inhalte im Web sind für Menschen grundsätzlich gut lesbar. Maschinen stoßen bei der Interpretation der Inhalte aber bis heute an ihre Grenzen. Das liegt vor allem daran, dass sie unstrukturiert oder semi-strukturiert angeboten werden (siehe Infobox). So kann die Beschreibung einer Radtour bspw. in ihre Einzelteile „zerlegt“ werden und in einer Liste Aspekte berücksichtigt werden wie: Strecke, Dauer, Höhenmeter, Schwierigkeitsgrad usw. Genauso könnten aber all diese Informationen auch in einem einzigen zusammenhängenden Text beschrieben und bereitgestellt werden.

Die Struktur der Daten für das Semantic Web

Die Struktur der Daten für das Semantic Web

Überwindung der Datensilos

Daten können sehr heterogen strukturiert sein und sind es in der Regel im Deutschlandtourismus auch. Maschinen können diese Unterschiede nicht ohne weiteres entschlüsseln. Sollen Daten also auch für Maschinen aufbereitet werden, so ist hierfür eine einheitliche Auszeichnung der Daten die Voraussetzung: Jeder Radweg müsste auf dieselbe Art beschrieben werden.

Dann wäre die Auszeichnungslogik unmittelbar verständlich und die Angaben von unterschiedlichen Radwegen können aus verschiedenen Datenquellen (Datensilos) kombiniert werden.

Die Idee von Linked Data

Die Idee von Linked Data

Diese Idee der einheitlichen Beschreibung der Datenstruktur und deren anschließende Verbindung nennt sich Linked Data. Tim Berners-Lee hat diese Weiterentwicklung des Web sehr anschaulich in einem TED-Vortrag erläutert, der bis heute wegweisend ist:

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Mittels Linked Data können also Informationen aus unterschiedlichen Kontexten kombiniert werden. Beschreibungen von Radtouren müssten nicht mehr an verwaltungspolitischen Grenzen enden, sondern könnten über eine einheitliche Struktur der Daten für den Gast fortgeführt werden.

Linked Data ist der Schlüssel

Aktuell gibt es bei der Aufbereitung von Daten auch im Tourismus noch eine starke Orientierung am Menschen. Wenn Informationen über einen Radweg abgelegt werden, dann erfolgt dies meist mit dem Ziel, diese in einer bestimmten App oder auf einer Website für die eigenen Gäste zu veröffentlichen. Dagegen ist prinzipiell auch nichts einzuwenden.

Allerdings wird es künftig immer wichtiger werden, Daten so bereitzustellen, dass sie außerhalb von einem spezifischen Anwendungsfall universell eingesetzt werden können. Hierzu ist es wichtig, dass sie mithilfe einer Ontologie einheitlich beschrieben sind. Im Tourismus sind dies schema.org sowie ein erweitertes Vokabular. Letzteres wird aktuell von einer Arbeitsgemeinschaft (DACH-KG) speziell für den Tourismus entwickelt.

Für die Strukturierung von Daten für das Semantic Web ist es erforderlich, dass ein Konsens bzgl. der Auszeichnungssprache vorliegt. Eine etablierte Vorgabe zur Beschreibung der Daten (auch Ontologie genannt) ist „schema.org“. Schema.org ist eine Initiative der großen Suchmaschinen Bing, Google, Yahoo! und Yandex. Es stellt ein Beschreibungssystem zur Verfügung, um Daten in einer bestimmten Struktur bereitzustellen. Dies kann auch als Annotation oder Auszeichnung der Daten bezeichnet werden.

Innerhalb von schema.org gibt es also Schemata, mit denen verschiedene Arten von Daten (bspw. ein Hotel, eine Veranstaltung, ein POI usw.) beschrieben werden können. Wenn diese Schemata von allen Datenanbietern genutzt werden, dann können Daten miteinander in Beziehung gesetzt werden und unabhängig vom Anwendungsfall verstanden werden – da eine einheitliche Struktur vorhanden ist. Schema.org ist also wie eine Sprache für Daten zu verstehen.

Es wird von einer „Interoperabilität“ gesprochen: Daten können unabhängig vom Ausgabekanal und auch unabhängig vom Kontext von Menschen und Maschinen weiterverarbeitet werden. Dies hat zwei primäre Hintergründe:

  • Im Zuge der Entwicklungen im Bereich der künstlichen Intelligenz werden Maschinen zunehmend eigenständig mit Daten arbeiten und neue Zusammenhänge darstellen. So ist es denkbar, dass für Radtouren angezeigt werden soll, ob sich diese auch im Winter eignen. Wenn der Datenbestand auf Verwaltungsebene Angaben zu Räumungsdiensten bereithält, könnten beide Datensätze miteinander in Beziehung gesetzt werden. In der Konsequenz bedeutet dies: Es ist vorab kaum möglich zu antizipieren, in welchem Kontext die Daten eingesetzt werden können. Sie sollten also kontextunabhängig bereitgestellt werden.
  • Je nach Anwendungskontext ändern sich aber auch die Anforderungen an den Ausgabekanal. Es ist abzusehen, dass Daten nicht mehr nur auf einem Ausgabekanal angezeigt werden, sondern künftig immer dort, wo der Nutzer sie gerade benötigt: Auf dem Smartphone, am Touchscreen in der Tourist-Info, per verbaler Ausgabe mittels Sprachassistenten usw.

Veränderte Anforderungen an Daten durch diversifizierte Anwendungsbereiche

Veränderte Anforderungen an Daten durch diversifizierte Anwendungsbereiche

Datenmanagement als Zukunftsaufgabe

Das Web entwickelt sich durch die unterschiedlichen Anforderungen immer mehr von einem Netz aus verknüpften Dokumenten hin zu einem Netz aus verknüpften Datensätzen.

Die Veränderung des Web

Veränderte Anforderungen an Daten durch diversifizierte Anwendungsbereiche

Diese Anpassung des Datenmanagements ist vor dem Hintergrund der Entwicklung des Internet der Dinge höchst relevant: Mittels Sensorik werden künftig sehr viele Kontextdaten zu Wetter, Zeit, Zuständen (leer oder voll, hell oder dunkel usw.) zur Verfügung stehen. In Verbindung mit strukturiert aufgearbeiteten Daten zu touristischen POIs, Events usw. können hier vielfältige Anwendungen entstehen. Die Vision geht hier oft in Richtung automatische Dienste, die je nach Urlaubskontext (Regen oder Sonne, morgens oder abends, Hoch- oder Nebensaison usw.) Empfehlungen aussprechen, die sowohl zur Situation als auch zum jeweiligen Gast passen.

Spätestens jetzt wird deutlich, dass ein modernes Datenmanagement eine zentrale Zukunftsaufgabe der DMO sein kann. Konkret bedeutet dies, dass der Fokus des Datenmanagements auf der Lesbarkeit, Interpretierbarkeit und Nutzbarkeit von Daten für Maschinen (und Menschen) liegen sollte.

Eric Horster, Fachhochschule Westküste

Eric Horster

Fachhochschule Westküste

Eric Horster ist Professor an der Fachhochschule Westküste im Bachelor- und Masterstudiengang International Tourism Management (ITM) mit den Schwerpunktfächern Digitalisierung im Tourismus und Hospitality Management. Er ist Mitglied des dortigen Instituts für Management und Tourismus (IMT).

Mehr zur Person unter: http://eric-horster.de/

Elias Kärle, Universität Innsbruck

Elias Kärle

Universität Innsbruck

Elias Kärle ist Wissenschaftler an der Universität Innsbruck. In seiner Forschung beschäftigt er sich mit Knowledge Graphs, Linked Data und Ontologien. Als Vortragender referiert er meist zur Anwendung und Verbreitung semantischer Technologien im Tourismus.

Mehr zur Person unter: https://elias.kaerle.com/