Abstract
YAGO ist ein Projekt des Max-Planck-Instituts für Computer Science, Saarbruecken zur Erstellung einer großen Ontologie hoher Präzision unter Rückgriff auf Wikipedia und WordNet. Sein praktische Bedeutung liegt darin, dass er semantische Suchmöglichkeiten für Wikipedia schafft und dabei die nur bedingt für Ontologien geeignete Wikipedia-eigene Taxonomie durch die von WordNet ersetzt. Theoretisch interessant sind semantische Ergänzungen zu RDFS (Relationsidentifikatoren und natürlichere Handhabung mehrstelliger Relationen) und die Vermeidung von gewissen Einschränkungen von OWL. zumindest in deren jetziger Fassung (Formulierung von Transitivität und azyklischen Graphen)
Kontext
Grundsätzlich gibt es zur Erstellung von Ontologie aus vorhandenen Quellen zwei Ansätze: die automatische und die manuelle, will heißen menschliche Erstellung. Erstere leidet nach wie vor unter mangelnder Präzision der Ergebnisse, letztere hat Grenzen bei großen Datenmengen und auch der Aktualität. Einen Ausweg versuchen Commons-basierte Ansätze in Anlehnung an Wikipedia, z.B. das Semantic-Wikipedia-Projekt. Ein anderer Weg ist die Benutzung semistrukturierter Daten. Diesem folgen z.B. DBpedia und auch YAGO. Beide extrahieren ihre Ontologie aus den Infoboxen von Wikipedia. Der methodische Unterschied zwischen ihnen besteht darin, dass DBpedia direkt die Wörter aus der Infobox benutzt, wobei es sein kann, dass ein Begriff durch verschiedene Wörter dargestellt wird. Auf der Metaebene liegt das Linking Open Data Project des W3C, das propagiert, RDFS-Datensätze als Web-Services zur Verfügung zu stellen und Links zwischen diesen herstellt. YAGO ist Teil dieser Initiative.
Für die Extraktion aus Wikipedia konzentriert sich YAGO auf die Infoboxen und auf die Kategorieseiten. Infoboxen enthalten z.B. für Länder Namen, Hauptstadt und Größe. Die Kategorienhierarchie in Wikipedia ist nicht als Basis für eine Ontologie geeignet. Dagegen bietet WordNet eine sorgfältig erstellte Taxonomie für Tausende von Begriffen. Darin lassen sich aber nicht direkt die von Wikipedia abbilden. YAGO bietet eine Unifikaton zwischen beiden mit einer vorher unerreichten Präzision von 95%. Dies wird durch eine Form von type checking erreicht.
Beschreibung
YAGO basiert auf dem (etwas erweiterten) Datenmodell von RDFS. Dieses wird durch Reifikation, die Einführung von Identifikationen für Relationsinstanzen, erweitert. Dadurch können Relationen zwischen Fakten ausgedrückt werden und mehrstellige Relationen, ferner allgemeine Eigenschaften von Relationen. Es wird gezeigt, dass YAGO weiterhin entscheidbar und mit dem Datenmodell von RDFX kompatibel ist. Dagegen ist OWL-full, das Eigenschaften von Relationen ausdrücken kann, unentscheidbar und die entscheidbaren Varianten von OWL (lite und DL) können keine Relationen zwischen Fakten ausdrücken. RDFS, die Basis von OWL, kann Relationen zwischen Fakten ausdrücken, hat aber nur eine schwache Semantik, kennt z.B. keine Transitivität.
Alle Objekte werden in RDFS und YAGO als Entitäten repräsentiert. Zwei Entitäten stehen in einer Relation, z.B.
Elvis Presley hasWonPrize Grammy Award oder
Elvis Presley bornInYear 1935
Auch Wörter (durch den Gebrauch von Anführungszeichen gekennzeichnet) sind Entitäten, die zu anderen Entitäten in Beziehung stehen können: z.B.
”Elvis” means Elvis Presley
Typische RDFS-Beziehungen sind auch
Elvis Presley type singer und
singer subClassOf person
Abweichend von RDFS speichert YAGO für jedes Faktum einen Faktidentifikator. So kann man z.B. ausdrücken, wo ein Faktum gefunden wurde: #1 foundIn Wikipedia
Eine YAGO-Ontologie kann als Reifikatiinsgraph dargestellt werden. Dabei sind die Knoten die allgemeinen Entitäten, die Kantenbezeichner die Faktenidentifikatoren, die Kantenlabels die Relationsnamen. Mehrstellige Relationen, die in OWL und RDFS nicht erlaubt sind, werden in YAGO so gehandhabt, das einer primären zweistelligen Relation über deren Faktidentifikator weitere zugeschrieben werden. Dies scheint natürlicher als der gewöhnlichere Weg, für jedes Argument eine zweistellige Relation zu bilden und diese dann jeweils mit einer eigenen Ereigniseinheit zu verbinden, z.B. so:
GrammyAward. prize elvisGetsGrammy
Elvis. winner elvisGetsGrammy
1921 year elvisGetsGrammy
Yago erhält eine modelltheoretische Semantik, aus der sich Entscheidbarkeit und eindeutige kanonische Basis beweisen lassen.
In Yago lässt sich nicht formulieren, dass ein Fakt falsch ist. So lassen sich auch zeitliche Beschränkungen der Gültigkeit nicht ausdrücken und auch keine Metaaussagen des Fürwahrhaltens etc.
Yago wird durch eine spezielle Abfragesprache für Reifikationsgraphen ergänzt, die neben direktem Matching auch Filterfunktionen bereithält z.B.zum Vergleich mit nicht in der Ontologie vorkommenden Literalen.
Quellen
WordNet ist ein semantisches Lexikon der englischen Sprache, entstanden an der Princeton University. Es fasst 117798 synonyme Substantive zu 82115 synsets zusammen und kennt außerdem Ober/Unterordnungen und Teil/Ganzes-Beziehungen und neben Substantiven auch Adjektive und Verben.
Wikipedia ist eine kollaborative mehrsprachige webbasierte Enzyklopädie mit derzeit 2.000.000 Artikeln. Die Artikel sind einer oder mehreren Kategorien zugeordnet. Teilweise enthalten sie Infokästen mit tabellarischen Informationen.
Für YAGO werden Aus Infokästen Attribut-Wertpaare extrahiert, jeweils mehrere für Mehrfachwerte eines Attributs. Die Bedeutung eines Attributs kann je nach Typ der Infokästen variieren (Länge eines Autos oder eines Liedes).
Von den Wikipedia-Kategorien werden nur die konzeptuellen benutzt und da auch nur ihre „Blätter“ um ihnen die in Wikipedia behandelten Individuen zuzuordnen. Für die Klassenhierarchie benutzt YAGO WordNet.
Mittels eines auf shallow parsing basierenden Algorithmus verknüpft YAGO die aus Wikipedia entnommenen Basisklassen mit den höheren aus WordNet. Bedeutungsinformationen lassen sich weiter aus den synset-Relationen von WordNet und den Weiterverweisen/redirects von Wikipedia entnehmen.
Es gibt noch einige weitere Heuristiken zur Auffindung von Ontologiebeziehungen. Sie werden ergänzt durch Qualitätskontrollen, zum einen Kanonisierungen von Schreibweisen, zum einen durch Typenprüfung. Diese kann (reduktiv) Fakten entfernen, falls für eine vorkommende Entität keine Klasse gefunden werden kann, oder auch (induktiv) Klassen einfügen, falls es Hinweise dafür gibt, z.B. Ein Geburtsdatum für die Klasse Person.
YAGO wird als Textdatei geführt und kann als XML- oder RDFS- Datei zur Verfügung gestellt werden, auch als Datenbanktabelle im Format:
FACTS(factId,arg1,relation,arg2,accuracy)
Evaluation
Die Evaluation zeigt eine im Vergleich sehr hohe Präzision. Insbesondere die Verknüpfung von Wikipedia- und WordNet-Kategorien liegt noch darüber.
Anwendungen liegen in ontologiebasierten Abfragen, semantischer Suche und in Ontologiekonstruktion.