1 of 18

Monasterium.net – Ein Urkundenportal als Grundlage und Arbeitsinstrument für die germanistische Forschung

Zum ERC-Advanced Grant Projekt: From Digital to Distant Diplomatics (DiDip)

http://informationsmodellierung.uni-graz.at

2 of 18

Urkundenlehre/Diplomatik

Urkunde: „ein unter Beobachtung bestimmter Formen ausgefertigtes und beglaubigtes Schriftstück über Vorgänge von rechts-erheblicher Natur“.

A.v. Brandt, Werkzeug des Historikers S. 82

3 of 18

Urkunde (Wappenbrief) von Kaiser Friedrich III. für Hans Greiff

in: monasterium.net, URL </mom/IlluminierteUrkundenWappenbriefe/1444-07-04_Goettweig/charter>,

4 of 18

Kanzler Kaspar Schlick in seiner Kanzlei

The J. Paul Getty Museum, Ms. 68 (2001.45), fol. 23 (um 1450/1460)

5 of 18

Monasterium.net

  • Mehr als 600.000 Urkunden

6 of 18

Zeitliche Verteilung

Zeitraum

Anzahl Urkunden

bis 13.Jh.

66.156

14.Jh.

156.098

15.Jh.

164.376

16.Jh.

81.751

17.Jh. und jünger

56.271

unbestimmt

132.898

7 of 18

Datengrundlage

  • XML-Datenbank über historische Dokumente
    • XML: ~ Daten UND Metadaten ‘in einem’
  • heterogene Strukturen und Inhalte

8 of 18

einige digitale Methoden

aus den Bereichen

  • Computer Vision
    • Text Recognition
  • Natural Language Processing
    • Normalization & Correction
    • Part-of-Speech-Tagging
    • Named-Entity Recognition

9 of 18

Text Recognition

… ist eine Form der Mustererkennung, bei der handschriftlich geschriebene Zeichen oder Wörter erkannt werden sollen.

10 of 18

Text Recognition

11 of 18

Text Normalization & Correction

Unter Normalisierung von Text versteht man das Überführen in eine andere Form, bei der nur die für den gewünschten Kontext relevanten Informationen beibehalten werden. Je nach Anwendung kann die Normalisierung ganz unterschiedlich ablaufen.

12 of 18

Text Normalization & Correction

13 of 18

Text Normalization & Correction

14 of 18

Part-of-speech (POS) tagging

… ist die Zuordnung von Wörtern und Satzzeichen eines Textes zu Wortarten. Hierzu wird sowohl die Definition des Wortes als auch der Kontext (z. B. angrenzende Adjektive oder Nomen) berücksichtigt.

15 of 18

Part-of-speech (POS) tagging

16 of 18

Named-entity recognition (NER)

… oder Eigennamenerkennung ist eine Aufgabe in der Informationsextraktion und bezeichnet die automatische Identifikation und Klassifikation von Eigennamen. Ein Eigenname ist eine Folge von Wörtern, die eine real existierende Entität beschreibt, z. B. Personen, Städte, Titel.

17 of 18

Named-entity recognition (NER)

18 of 18

Danke für die Aufmerksamkeit…

.. und auf ein Wiedersehen:

www.monasterium.net/mom/home

http://informationsmodellierung.uni-graz.at