Dokumente sind die�neuen Daten!
Erkenntnisse aus unstrukturierten Dokumentensammlungen gewinnen
Steffen Kühne
Friedrich Lindenberg
Simon Wörpel�
nr-Jahreskonferenz, 2019
bit.ly/nr19-docs
Dokumente
Journalisten müssen sich zunehmend mit Dokumenten auseinandersetzen. Diese können aus unterschiedlichsten Quellen kommen:
Document Mining
Was kann man alles in Dokumenten finden?
Beispiel: OCCRP
Beispiel: CORRECTIV
Beispiele BR Data
Das System Madeira (Europäisches Steuerparadies):�https://br.de/madeira/artikel
Computer sagt Jamaika (Wahlprogramm-Analyse):�http://web.br.de/interaktiv/wahlprogramm-analyse-bundestagswahl/
Gift im System (Plagiate im Pestizidzulassungsverfahren):�https://br.de/pestizide
Der Haken am Häkchen (Datenschutzerklärungen):�https://web.br.de/interaktiv/datenschutzerklaerungen/
Einfache Dokumentensuche
Ein Journalist bekommt eine Dokumentensammlung zugespielt. Die Dokumente enthalten Text oder es wurde bereits eine Texterkennung durchgeführt (OCR). Der Journalist möchte nach Namen oder Begriffen suchen.
Dokumenten-Workflow
Grundsätzlich das Vorgehen recht ähnlich, egal welche Dokumentensammlung man analysieren möchten.
Text aus Bildern extrahieren
Ein Dokumentensammlung besteht aus Scans oder PDFs mit Scans. Daraus soll der Text extrahiert werden:
Text aus verschiedenen Dateien extrahieren
Eine Dokumentensammlung enthält verschieden Dateien (Textdokumente, Tabellen, Präsentationen, PDFs, E-Mails, Datenbanken). Daraus sollen sowohl alle Texte wie auch die relevanten Metadaten extrahiert werden.
Metadaten
Tabellen aus PDFs extrahieren
Gerade im Umgang mit Behördendokumenten bekommt man oftmals Statistiken, welche als Tabellen in PDF-Dokumenten eingebunden sind.
Natural Language Processing (NLP)
NLP-Methoden sind ein Klassiker der Informatik und Linguistik und beschäftigen sich mit verschiedenen Aufgaben:
Es gibt bereits viele Softwarepakete und Werkzeuge in diesem Bereich. Die wichtigsten davon sind: NLTK, OpenNLP und SpaCy
Anreichern / Refining mit anderen Daten
All-in-One-Lösungen
Document Mining ist kein neues Problem. Daher gibt es schon eine Vielzahl an bestehenden Lösungen mit unterschiedlichem Anwendungszweck.
Beispiel: BR Data
Das System Madeira:�https://br.de/madeira/artikel
Nützliche Quellen
Vielen Dank!
�