Forschungsdaten-Repositorium | Research Data Repository

Gespeichert von goerz am Fr., 13.12.2019 - 17:45

 

hertz-wisski ist eine virtuelle Forschungsumgebung für das von Tanja Michalsky geleitete Projekt "Historische Räume in Texten und Karten" (Biondo-Projekt).

In der Projekt-Webseite des Instituts wird das Projekt eingeführt und seine Ziele in allgemeiner Form beschrieben. Hier liegt die Annahme zugrunde, dass aus der Einführung in das Projekt präzise Forschungsfragen abgeleitet werden können, welche zu operationalisierten Hypothesen führen, die ihrerseits an Daten überprüft werden können. Es geht somit um den Daten-Aspekt des Projekts, d.h. die Generierung, Organisation, Erschliessung, Speicherung und Publikation von Forschungsdaten. Die in diesem Rahmen durchgeführten Arbeiten verstehen sich als Beitrag der "Digital" bzw. "Computational Humanities" zum Projekt und sind wegen der primär geographischen/kartographischen Ausrichtung auch in den Bereich der "Spatial Humanities" einzuordnen. Zu allgemeinen Forschungsfragen kann an dieser Stelle nur auf die mittlerweile recht umfangreiche einschlägige Literatur verwiesen werden. Eine Besonderheit unserer Arbeiten ist die klare kognitiv (-linguistische) Ausrichtung, die sie von früheren eher philologisch orientierten Studien unterscheidet.  

Durch den zugrunde gelegten kunst-/historischen und kognitionswissenschaftlichen theoretischen Rahmen war vorgegeben, welche Daten aus den verfügbaren Quellen in welcher Weise gewonnen werden sollten.  Die Quellenauswahl wurde durch verschiedene Parameter geleitet: Verfügbarkeit und Aufwand zur Bereitstellung sowie Qualität der digitalen Reproduktionen – v.a. Lesbarkeit – der Texte und Kartenbilder in digitaler Form.

Aus der Projekt-Definition haben wir für das Projekt eine Dreiphasen-Struktur entwickelt:

  • Analyse
  • kognitiv-linguistische und (kunst-) historische Interpretation
  • Synthese (Skizzenrekonstruktion)

In dem vorliegenden Repositorium geht es primär um die erste Phase, Analyse, d.h. Transkription und Annotation der Quellen inklusive geographischer Resolution, Datensammlung, ihre strukturierte Aufbereitung und semantische Repräsentation bis hin zur Bereitstellung als Linked Open Data, sowie erste statistische und linguistische Auswertungen (Konkordanzerstellung, morphiosyntaktisches Tagging und Dependenz-Parsing). Diese bilden die Grundlage für die zweite und dritte Phase, Interpretation und Synthese

Mit dem Werkzeug Recogito wurden die Toponyme in Biondos Latium-Buch sowie in 27 der ausgewählten zeitgenössischen Karten (zumeist Latium und Kampanien, in einigen Fällen sogar ganz Italien) annotiert. Die Auswahl der Karten umfasst genuine Italienkarten aus dem 14. und 15. Jh., Ptolemaeus-Karten (traditionelle und "novae") sowie Portolane. Weiterhin sollten die im Text ausgedrückten räumlichen Relationen nach kognitiv-linguistischen Kriterien annotiert werden, vor allem die Tripel figure–spatial_indicator–ground. Diese Phase ist bis auf den letzten Schritt abgeschlossen und ist in der vorangestellten Abbildung dokumentiert.  

Sämtliche bisher erarbeiteten Forschungsdaten (Text- und Karten-Annotationen) wurden mithilfe einer Anwendungsontologie ("hmap") für historische Texte und Karten sowie annotierte Inhalte semantisch repräsentiert und in hertz-wisski, einer Instanz der Virtuellen Forschungsumgebung WissKI gespeichert; damit stehen sie als Linked Open Data zur Publikation im Semantic Web zur Verfügung. Weitere Forschungsdaten – linguistische Analysen, Annotationen in verschiedenen Datenformaten, Ontologien, bearbeitete Bilder, Publikationen und nützliche Links – sind in einem Repositorium im Drupal-Rahmensystem von WissKI  abgelegt, das auf den folgenden Seiten erreichbar ist.

0.1 WissKI Basisfunktionalität

Die WissKI-Datenbank ist für Gastbenutzer zum lesenden Zugriff frei: Benutzername guest, Passwort: guest . Ausführliche Dokumentation zu WissKI bietet die Webseite.

Nach der Anmeldung stehen die Funktionen Navigate und Find zur Verfügung , durch die auf die folgenden Objektgruppen zugegriffen werden kann:

  • GeoText : Historische geographische Texte, hier das Latium-Buch aus Biondos "Italia Illustrata", das annotiert wurde
  • Map : Landkarten (Metadaten mit Verweis zum Referenzbild)
  • Work : Kartensammlungen, z.B. Atlanten (Metadaten)
  • Image : Metadaten zum Referenz-Kartenbild, das annotiert wurde
  • Image Series : Bildfolge, die zu einer Karte gehört, z.B. Ausschnittbilder (aktuell nicht benutzt)
  • Annotated Place : Annotierter Ort in einem Text oder Kartenbild mit geographischen u.a. Informationen
  • Annotated Connection : Annotierte räumliche Beziehung (v.a. figure–spatial_indicator–ground)  in einem Text oder Kartenbild
  • Bibliography : Bibliographische Einträge in der Zotero-Bibliographie des Projekts

Die formale Modellierung dieser Objektgruppen wurde aufgrund der formalen Domänen-Ontologie hmap für historische Landkarten und ihre Inhalte erstellt (siehe Abschnitt Ontologien und Vokabulare), die ihrerseits auf der Referenzontologie CIDOC CRM mit ihrer Erweiterung CRMgeo für geographische Daten beruht. Alle Daten werden von WissKI als "Knowledge Graph" in einer sog. RDF-Tripel-Datenbank in der Form einfacher Aussagen "Subjekt–Prädikat–Objekt" gespeichert. Diese kann auch mithilfe der Anfragesprache SPARQL konsultiert werden, was jedoch detaillierte Kenntnisse der Ontologie(n) voraussetzt. 

0.2 Annotationswerkzeug Recogito

Die Annotation von Toponymen und Völker-Namen in Texten und Kartenbildern und zusätzlich von Personen-Namen im Text wurde mithilfe von Recogito durchgeführt; neben einer kurzen Anleitung auf der Website gibt es hierfür auch eine ausführliche Dokumentation. Recogito erlaubt, die Annotationsdaten in verschiedenen Formaten zu exportieren: 

  • georeferenzierte Daten
    • csv (Tabellen mit Georeferenzierung)
    • json (GeoJSON mit Georeferenzierung)
    • kml (für Anzeige mit Google Earth), geobrowser.kml (zur Anzeige mit dem DARIAH Geobrowser)
  • Annotations-Metadaten ohne Georeferenzierung (Open Annotation und Dublin Core Codierung)
    • rdf.xml  
    • ttl (RDF im Turtle-Format)
    • jsonld (JSON-Format für Linked Data)
  • Zusätzlich für Texte tei.xml: TEI-Datei

Sämtliche erstellten Daten wurden in allen Formaten exportiert und stehen im Repositorium 2 als Textdateien (mit den genannten Namens-Suffixen) zur Verfügung. Die Datenformate der ersten beiden Gruppen werden in gleicher Weise für die Annotationen von Texten und Bildern bereitgestellt; dabei spielen die csv-Tabellen für weitere Analyse- und Verarbeitungsschritte aktuell die wichtigste Rolle.  Ihre Einträge sind semantisch als "Annotated Place" modelliert und werden als einzige direkt in die WissKI-Datenbank via Tabellenimport eingebracht.  GeoJSON und KML dienen derzeit nur für Anzeigezwecke.  Da die Annotation im aktuellen Projekt in der Regel nicht als Gruppenprozess organisiert ist, sind die Daten der zweiten Gruppe (mit Angaben über Annotator *in und Annotationszeitpunkt) z.Zt. wenig relevant und werden deshalb nur als Block abgespeichert.

Für die Transkription der Toponyme auf Kartenbildern gelten folgende Richtlinien: Toponyme werden diplomatisch unter Beachtung von Gross- und Kleinschreibung transkribiert, aber

  • langes s wird durch kurzes s ersetzt, langes z (Unterlänge) durch kurzes z,
  • Ligaturen und Worttrennungen werden ignoriert,
  • Diakritika, z.B. e mit Tilde, werden aufgelöst, also entsprechend: en .

Trotz der allgemein recht guten Qualität der ausgewählten digitalen Kartenbildern war es in einigen Fällen notwendig, Bilder zur Verbesserung der Lesbarkeit digital zu  bearbeiten.  Annotiert wurde jeweils nur das Referenzbild, das in WissKI gespeichert ist; alle Bearbeitungen sind jedoch im Repositorium 4 verfügbar.

0.3 Annotationswerkzeug brat

Als Grundlage der kognitiv-linguistischen Analyse des Textes dient die satzweise Auszeichnung der räumlichen Relationen zwischen Orten – gegeben durch Toponyme oder definite Beschreibungen – gemäß den von Martin Thiering vorgeschlagenen Parametern. In der einfachsten Form handelt es sich um Tripel der Form figure (trajector) – spatial_relation – ground (landmark) . Da hierfür kein automatisches Analysewerkzeug zur Verfügung steht, wurde das browser-basierte Werkzeug brat zur interaktiven manuellen Annotation ausgewählt. Es wurde eine "Konfiguration" definiert, in der festgelegt ist, welche "Entitites" und Relationen ausgezeichnet werden. Für jeden Satz wurde eine eigene Textdatei angelegt; dessen Annotationen werden in einer zugeordneten Annotationsdatei in einem sog. "standoff format"gespeichert, siehe Repositorium 2.

0.4 Weitere Software-Werkzeuge

Auf weitere im Projekt eingesetzte Software-Werkzeuge wird auf den folgenden Seiten, insbesondere auf den Link-Seiten (7) und (8) verwiesen.

Guenther Goerz, FAU Erlangen-Nürnberg, Computer Science, AG Digital Humanities and Bibliotheca Hertziana, Max-Planck-Institut für Kunstgeschichte, Roma. Last modified: Tue Jun 02 11:45:00 CEST 2020