Your browser doesn't support the features required by impress.mod.js, so you are presented with a simplified version of this presentation.

For the best experience please use the latest Chrome, Safari or Firefox browser.

12.10.2017 | ISS | Mainz

Semantische Annotation & Kodierung

Verstehen – Auszeichnen – Abfragen

Einführungskurs der 2. Indian Summer School des Studiengangs “Digitale Methodik in den Geistes- und Kulturwissenschaften”, 10.–13.10.2017

M. Grüntgens (ADWL Mainz) | D. Kasper (ADWL Mainz)
Twitter digitale-akademie.de | Twitter @digicademy | Twitter digicademy | Seminarhandbuch

Released under CC BY 4.0 (Max Grüntgens, Dominik Kasper; Digitale Akademie)

Table of Contents

01

Verstehen

Was bedeutet Annotation & Kodierung?

Erklärung

  • Standardisierte Anbringung von Zusatzinformationen an ein digitales Primärobjekt
    • Art der Zusatzinformationen beispielsweise: deskriptiv, analytisch oder semantisch
  • gängige Begrifflichkeiten: Annotation, Auszeichnung, Tagging, Kodierung, Metadaten
  • Art des Markups:

Beispiel - Annotation

Abbildung annotierter Text (Goethe-Tagebuch)

Weiterführendes

Welchem Zweck dient es?

Allgemein

  • Maschinenlesbarkeit ermöglichen
  • implizite Informationen explizit machen, z. B. durch …
    • … Beschreibung der formalen Struktur.
    • … Herstellung von Bezugssystemen (“Links”).
    • … Analyse linguistischer Merkmale.
    • … Erläuterung der inhaltlichen Bedeutung von Textpassagen.
  • Kategorisierung und Strukturierung durch …
    • … automatisierte Extraktion und Aggregierung von Metadaten.
    • … automatisierte Erstellung registerartiger Strukturen.

In unserem Kontext

  • Standardisierung
  • Datenkonversion
  • Data Mining
  • Information Retrieval
  • Interoperable Nutzung
  • Datenaustausch
  • Langzeitarchivierung
  • Digitales Publizieren

Was soll ausgezeichnet werden?

Vor jedem Auszeichnungsprozess, egal ob manuell oder maschinell, müssen mindestens die folgenden, eng verknüpften Fragen beantwortet werden:

02

Auszeichnen

Konzepte und Sprache – XML

Beschreibung

Hauptanwendungsgebiete

Konzepte und Sprachen – XML

Code-Beispiel

Konzepte und Sprache – JSON

Beschreibung

  • JavaScript Object Notation
  • Objekte (Datencontainer), die Schlüssel-Wert-Paare enthalten (Key-Value-Prinzip)
  • mehr Datencontainer als Auszeichnungssprache

Hauptanwendungsgebiete

  • überwiegend Datenaustausch über Web-Schnittstellen
  • verknüpfte Technologie: JavaScript (JSON selbst ist in den meisten Fällen bereits valides JavaScript), JSONB, JSON-LD, Dictionaries und Hash-Tables in zahlreichen Programmiersprachen ...

Konzepte und Sprachen - JSON

Code-Beispiel

Konzepte und Sprache – RDF

Beschreibung

Hauptanwendungsgebiete

Konzepte und Sprachen – RDF

Code-Beispiel (Turtle)

RDF-Serialisierungen (Auswahl)

Name Einsatz Bereitstellung MIME-Type
RDF/XML Import/Export Schnittstelle application/rdf+xml
Turtle Import/Export Schnittstelle text/turtle
JSON-LD HTML-Seite (head) Web crawler, Scraping, Schnittstelle application/ld+json
HTML5 RDFa HTML-Seite (body) Web crawler, Scraping In HTML eingebunden.
HTML5 Microformat HTML-Seite (body) Web crawler, Scraping In HTML eingebunden.

Verbreitete Software und Technologien (XML)

eXist – Native XML-Datenbank

  • Verwaltungssystem für XML-Dokumente
  • Datenbankmanagementsystem
  • Web-Applikations-Engine
  • javabasiert – wird in JVM ausgeführt

Oxygen XML Editor

  • Entwicklungs-Umgebung für X-Technologien (XML, XPath, XQuery, XSLT)
  • XML-Editor
  • volle TEI-Unterstützung
  • Schnittstelle für eXist-db

XML und TEI

Überblick

  1. Was ist XML?
  2. Syntax – Elemente, Attribute und Werte, Kommentare
  3. Wohlgeformtheit
  4. Validität
  5. TEI

Was ist XML?

Syntax

Allgemein

  • Ein XML-Dokument besteht aus zwei Datenklassen:
    • Markup
    • Text
  • XML-Markup besteht aus drei Notationseinheiten:
    • Elementen
    • Attribute und Wertzuweisungen in Elementen
    • Namespace-Präfixen zur Disambiguierung von Elementen
  • Grundlegende Syntax-Regeln:
    • Hierarchische Baumstruktur (Verschachtelung)
    • Keine Überlappung von Element-Paaren

Veranschaulichung

Veranschaulichung - XMl als Baumstruktur

Beispiel

Screenshot des CMI-FormatsCMI-Dokumentation

Syntax – Elemente

Code-Beispiel: Elemente

Syntax – Attribute und Werte

Code-Beispiel: Attribute

Exkurs: Normdateien I

Eine Normdatei [existiert in] Form eines kontrollierten Vokabulars, in dem festgelegt wird, welche Ansetzung bei der Erschließung zu verwenden ist. Im Englischen werden Normdateien als „authority files“ bezeichnet.
Normierte Begriffe können Personennamen […] und beliebige andere Mengen von Bezeichnungen von [Entitäten] sein. Der Bildung von Normbegriffen liegt eine Ontologie zugrunde, die die jeweils zu normierenden Begriffe und die Art der Normierung festlegt.

Wikipedia: Normdatei unter ID 163718592

Exkurs: Normdateien II

Beispiel: Gemeinsame Normdatei (GND)

Die Gemeinsame Normdatei (GND) ist eine Normdatei für Personen, […] Geografika, […] und Werktitel, die vor allem zur Katalogisierung von Literatur in Bibliotheken dient, zunehmend aber auch von Archiven, Museen, Projekten und in Web-Anwendungen genutzt wird.

Wikipedia: Gemeinsame Normdatei unter ID 167122528

DNB-Suchformular

DNB-Suchformular

Exkurs: Normdateien III

Schlüssel Wert(e)
Link http://d-nb.info/gnd/118540238
Person Goethe, Johann Wolfgang von
Geschlecht männlich
Andere Namen Goethe, Johan Wolphgang
Goethe, João Wolfgang von
Yohan-Bolpeugang-pon-Goete
Гёте, Йоҳанн Волфганг
約翰・沃爾夫岡・馮・歌德
Zeit Lebensdaten: 1749-1832

Auszug Personennormdatensatz GND

DNB-Suchformular

DNB-Suchformular

Code-Beispiel: Normdaten

Syntax – Namespaces und Präfixe

Code-Beispiel: Namespaces

Syntax – Kommentare

Wohlgeformtheit

Ein XML-Dokument ist dann wohlgeformt (well formed), wenn die allgemeinen Syntax- und Namenskonventionen eingehalten werden.

Validität

Ein XML-Dokument ist dann valide (valid), wenn die in einem Schema beschriebenen speziellen Syntax- und Namenskonventionen eingehalten werden.
Damit ein XML-Dokument valide sein kann, muss es wohlgeformt sein.

Praxisteil I

Analoge Annotation eines Goethe-Briefes

Bitte machen Sie die für Sie relevante Information auf dem Handout durch Hervorhebung (bspw. farbige Markierung, Steuerzeichen, Tags) explizit.

Faksimile Goethebrief

DNB-Suchformular

Praxisteil I

Annotierte Briefbeispiele

Text Encoding Initiative (TEI)

03

Abfragen

XPath

Erklärung

  • Beschreibt einen Pfad durch den XML-Baum zu einem bestimmten Element.
  • Basiert auf dem Achsenmodell des XML-Baumes.
  • Kenntnisse sind Voraussetzung zum Einsatz von XSLT und XQuery
  • Hilfreiches:

Code-Beispiel: Attribute

Aufgaben

  1. eXide starten und die Datei GB01_1_CMI_certain_all.xml öffnen,
  2. alles markieren und kopieren und in das XML-Input-Feld des XPath-Testers einfügen.
  3. Dann folgendes via XPath auswählen/ermitteln:
    1. Alle Keys von Briefen – Lösung
    2. Alle unterschiedlichen Empfänger – Lösung
  4. Neue Datei: GB03_1_BR0700.xml öffnen, dann folgendes via XPath auswählen:
    1. Den Text-Absatz des Kommentars Nr. 12 – Lösung

XQuery

Erklärung

Praxisteil II

Automatisierte Extraktion strukturierter Daten aus XML-Annotation mit dem XTriples-Webservice

Praxisteil II

Was ist ein Web-Service?

Ein Webservice […] ermöglicht die Maschine-zu-Maschine-Kommunikation […] über […] das Internet. Dabei werden Daten ausgetauscht und auf entfernten Computern Funktionen aufgerufen. Jeder Webservice besitzt einen Uniform Resource Identifier (URI), über den er eindeutig identifizierbar ist, sowie eine Schnittstellenbeschreibung […] wie mit dem Webservice zu interagieren ist. Die Kommunikation kann […] über […] HTTP laufen und kann XML oder JSON basiert sein

Wikipedia: Webservice unter ID 168449611

Praxisteil II

Aufgabe und Aufruf des XTriples-Webservices

Aufgabe

Mapping von ‘impliziten’ XML-Daten auf eine ‘explizite’ RDF-Triple-Notation.

Aufruf

http://xtriples.spatialhumanities.de/extract.xql?
configuration=url/to/config.xml
& format=format*

* E.g. SVG.

Praxisteil II

Die XTriples-Konfigurations-Datei

XTriples Input-Feld

DNB-Suchformular

Praxisteil II

Extraktion mit XTriples

Bitte ergänzen Sie die XPath-Ausdrücke in der XTriples-Konfigurations-Datei. Übergeben Sie diese im Anschluss an den Webservice und fordern sie das Rückgabe-Format SVG an.

Lösung

Vielen Dank für Ihre Aufmerksamkeit

Literature

Markup & Datenformate

XML & eXist

RDF

Web Resources, Tutorials & Presentations

Software

Erwähnt

Verwendet

Rechte