Knowledge Graphen im Tourismus - Open Data Destination Germany

Ein Spiegel der (touristischen) Wirklichkeit.

Datenmanagement heute und morgen.

Im Zusammenhang mit Linked Open Data fällt häufig das Stichwort Knowledge Graph. Dabei ist oftmals nicht ganz klar, was mit dem Begriff gemeint ist. Ein Knowledge Graph ist verkürzt und verallgemeinert gesprochen eine Graphdatenbank, welche bestimmte Kriterien erfüllt (siehe Infobox).

Die Definition eines Knowledge Graphen ist nicht eindeutig definiert. Gleichwohl lassen sich Charakteristika beschreiben, die auf das Wort „Wissen“ abzielen. Damit kann genauer spezifiziert werden, wie dieses Wissen aus einer Graphdatenbank extrahiert werden kann, wodurch die Wortkombination Knowledge und Graph ihre Legitimation erhält.

Die Technologie, auf der ein Knowledge Graph aufbaut ist eine Graphdatenbank, weshalb die Daten in einer Netzwerkstruktur angelegt sind. Dies macht das jeweilige Datenmodell und damit die Beziehung der Daten zueinander sowohl für Maschinen als auch für Menschen intuitiv nachvollziehbar. Dabei werden reale Entitäten – dies sind eindeutig bestimmte Objekte, die materiell (ein Restaurant) oder immateriell (eine Bewertung) sein können – und deren Beziehungen beschrieben. Ein Knowledge Graph spiegelt damit die Komplexität der Welt im digitalen Raum wider.

Ein Knowledge Graph ist semantisch beschrieben. Das bedeutet, dass über eine Ontologie (wie schema.org) den Daten eine Bedeutung zugeschrieben wird. Hierdurch können Maschinen verstehen, welche spezifischen Informationen jeweils gemeint sind, wodurch der Sinn der Daten unmittelbar deutlich wird.

Ein Knowledge Graph ist smart, da die Auszeichnung der Daten nach einer Ontologie in Kombination mit der im Graphen angelegten Daten das Ableiten neuer (impliziter) Informationen ermöglicht. Über Pfadabfragen können Verbindungen zu anderen Daten gezogen werden und deren Beziehung auch automatisiert nachvollzogen werden.

Schließlich ist ein Knowledge Graph lebendig in dem Sinne, dass die Ontologie und auch die Beziehung der Daten zueinander flexibel angepasst und erweitert werden können. Daten können dynamisch aktualisiert werden und/oder korrigiert werden.

Ein guter Ausgangspunkt zur Erklärung, was eine Graphdatenbank ist, ist der Vergleich mit einer relationalen Datenbank. Relationale Datenbanken speichern Angaben zu Wanderwegen, Hotels, Events, POIs oder anderen touristisch relevanten Daten in Tabellen mit Zeilen und Spalten. Die Art der Datenablage bei relationalen Datenbanken ist damit vergleichbar mit einem U-Bahnfahrplan auf dem die Abfahrtszeiten der jeweiligen Haltestelle stehen.

Die Orientierung ist dabei auf den tabellarischen Fahrplan beschränkt und das Straßenbahnnetz lässt sich selbst dann nur schwer erkennen, wenn alle Haltestellenpläne zur Verfügung stünden. Das Streckennetz und Umsteigemöglichkeiten sind sehr viel besser über eine Visualisierung in Netzwerkstruktur zu erfassen.

Ähnlich verhält es sich bei der Unterscheidung zwischen relationalen Datenbanken und Graphdatenbanken: Ein Graph ist auf die Vernetzung von Daten spezialisiert. Eine relationale Datenbank kann dies prinzipiell auch, jedoch erfordern Abfragen über mehrere Tabellen hinweg sehr viel mehr Aufwand und sind zum Teil nur über komplizierte Umwege möglich. In einer komplexen Welt ist die Beziehung der Daten zueinander jedoch zunehmend wichtiger, weshalb relationale Datenbanken an ihre Grenzen stoßen können.

Relationale Datenbanken vs. Graphendatenbanken

Die bei relationalen Datenbanken in den Tabellen definierten Eigenschaften der Zeilen (bei Wanderwegen bspw. Höhenmeter, Schwierigkeitsgrad usw.) können später nur schwer geändert oder ergänzt werden. Graphdatenbanken arbeiten hier anders: Es gibt kein vorgegebenes Datenmodell. Vielmehr ist jeder Datensatz in sogenannten Knoten dargestellt und die Beziehung der Daten zueinander ist mit Verbindungen (den Kanten) visualisiert. Wenn neue Verbindungen hinzu kommen, kann das Datenmodell erweitert werden (siehe Abbildung).

Datenhaltung in Graphendatenbanken

Ein weiterer Vorteil ist, dass Graphdatenbanken durch diese Form der Datenablage komplexe Abfragen in geringer Zeit bearbeiten können.

Ein wichtiges Konzept für Graphdatenbanken, die den Spezifikationen eines Knowledge Graphen genügen sollen, ist das Resource Description Framework (RDF). Das heißt übersetzt soviel wie Beschreibungsrahmen für Ressourcen. Die „Ressourcen“ sind dabei die Daten. Ein Datensatz besteht bei RDF immer aus drei Elementen, genannt Triple. Ähnlich wie bei einem grammatikalisch korrekten Satz müssen bei RDF alle drei Elemente vorhanden sein: Subjekt-Prädikat-Objekt.

Wenn „Berlin“ bspw. das Subjekt ist, dann wäre „ist die Hauptstadt von“ das Prädikat und „Deutschland“ das Objekt. Subjekt und Objekt sind wie oben beschrieben die Knoten des Netzwerkes und werden auch als Ressourcen oder Entitäten bezeichnet. Die Kanten sind die Beziehungen, welche die Knoten miteinander verbinden, wodurch ein Datennetzwerk entsteht. Dadurch, dass nun definiert ist, dass Berlin die Hauptstadt von Deutschland ist könnte bei der Frage „Was ist die Hauptstadt von Deutschland“ mit Hilfe eines Algorithmus das Datennetzwerk durchsucht werden und die Antwort „Berlin“ ausgegeben werden. Bei großen Datenmengen können über KI-Systeme auch deutlich komplexere Sinnzusammenhänge hergestellt werden.

Damit die Daten in RDF eindeutig identifiziert werden können und ihnen darüber eine Bedeutung zugeschrieben werden kann, müssen diese mit einer eindeutigen Referenz versehen werden. Diese Quellen nennen sich Uniform Resource Identifier (URI) oder zu Deutsch eindeutiger Bezeichner für Ressourcen. Der Begriff „Prince“ kann innerhalb von Wikidata (www.wikidata.org) bspw. unterschieden werden in den Sänger (Q7542), den Familiennamen (Q16881414) oder den Adelstitel (Q2747456).

Es ist abschließend erforderlich, die Daten mithilfe einer Ontologie (wie schema.org) semantisch auszuzeichnen, damit sie von Maschinen verstanden werden können. In RDF würde die Ressource „Restaurant“ mit Eigenschaften wie durchschnittlicher Bewertung, Geodaten oder Öffnungszeiten beschrieben werden können, was sich in einem Triple, das mit schema.org ausgezeichnet ist, dann wie folgt darstellen würde: Restaurant (Subjekt) – Rating (Prädikat) ratingValue: 4 (Objekt).

Aufbau eines Triples in RDF

Das Datenmanagement auf KI-Anwendungen vorbereiten

Über die Netzwerkstruktur der Datenhaltung mittels RDF werden Daten zueinander in Beziehung gesetzt. Dadurch, dass die Daten einheitlich im Netzwerk ausgezeichnet sind, werden Schnittstellen obsolet. Wenn der Knowledge Graph noch dazu offen ist, können die Daten von allen genutzt werden und Anwendungen liegen nicht mehr hinter den Paywalls von großen Playern, die eine Ausweitung des Funktionsumfangs digitaler Dienste nur gegen Bezahlung ermöglichen.

Mit Graphendatenbanken von Daten zu Wissen gelangen

Wenn Daten einzeln digital vorliegen, dann kann diesen über eine Ontologie (Auszeichnungssprache) eine Bedeutung zugeschrieben werden. Darüber wird aus Daten eine Information, da Einzeldaten zu einem Hotel, einem Restaurant usw. aggregiert dargestellt werden können. Information wird dann zu Wissen, wenn die Informationen zu einander in Beziehung gesetzt werden. Wenn bspw. die Geodaten von einem Hotel in Beziehung zu einem Wanderweg gesetzt werden, dann wissen Reisende, wo sie eine Übernachtung einplanen können. Gäste können Daten über Anwendungen verstehen, da über Abfragen die Beziehung der Daten kontextuell ausgewertet und in einem Interface dargestellt werden können. Darüber gewinnen Gäste Erkenntnisse über verschiedene Urlaubssituationen und können diese entsprechend einordnen, was zu einer Verhaltensänderung führen kann (Auswirkung).

Für das Datenmanagement bedeutet dies konkret, dass Daten die in relationalen Datenbanken gespeichert sind mittels einer Ontologie wie schema.org semantisch ausgezeichnet und dann (parallel) in einer Graphdatenbank abgelegt werden können. Durch Graphdatenbanken werden die Einzelinformationen dann mittels RDF in einem Netzwerk dargestellt. Über Anwendungen kann auf diese Datennetzwerke auf Seiten der Gäste zurückgegriffen werden (siehe Abbildung).

Komplementäre Datenbanksysteme

Relationale Datenbanken und ein parallel betriebener Knowledge Graph, welcher die Beziehung der Daten zueinander beschreibt, schließen einander nicht aus. Vielmehr können diese Systeme komplementär betrachtet werden. Wenn im Tourismus ein solcher Knowledge Graph, wie er aktuell von der DZT entwickelt wird, etabliert werden kann, ist dies ein wichtiger Schritt, um Daten auf Ebene der Bundesländer und Regionen miteinander zu verbinden.

Auf Ebene der DMOen bedeutet dies in erster Linie, dass Einigkeit bei der Auszeichnungssprache (Ontologie) herrschen muss und dass die Daten offen, vollständig und aktuell sind. Hier wird seitens der DZT auch deshalb schema.org präferiert, weil diese Ontologie ein de-facto Standard darstellt und damit auch mit anderen (nicht touristischen) Daten kompatibel ist. So können über RDF-Abfragesprachen wie SPARQL (durch entsprechende Programmierung kann der Datenbestand durchsucht und extrahiert werden) auch Verwaltungsdaten durchsucht und genutzt, um bspw. alle öffentlichen Toiletten in einem Ort anzuzeigen und mit Daten zu Wanderrouten in Beziehung zu setzen. Die denkbaren Szenarien sind hier mannigfaltig und können bis hin zu speziellen Touren führen, bei denen alle öffentlichen Apfelbäume erkundet werden können, um unterwegs stets einen Snack parat zu haben.

Es kann daher festgehalten werden, dass Graphdatenbanken eine moderne Form der Datenhaltung sind, welche vielfältige Möglichkeiten für die Entwicklung digitaler Serviceleistungen bieten.

Linktipps und Quellen

Petra Hedorfer, Vorstandsvorsitzende der Deutschen Zentrale für Tourismus (DZT)

Eric Horster

Fachhochschule Westküste

Eric Horster ist Professor an der Fachhochschule Westküste im Bachelor- und Masterstudiengang International Tourism Management (ITM) mit den Schwerpunktfächern Digitalisierung im Tourismus und Hospitality Management. Er ist Mitglied des Deutschen Instituts für Tourismusforschung.

Mehr zur Person unter: www.eric-horster.de

Elias Kärle

Universität Innsbruck

Elias Kärle ist Wissenschaftler an der Universität Innsbruck. In seiner Forschung beschäftigt er sich mit Knowledge Graphs, Linked Data und Ontologien. Als Vortragender referiert er meist zur Anwendung und Verbreitung semantischer Technologien im Tourismus.

Mehr zur Person unter: https://elias.kaerle.com/