1 of 19

Dokumente sind die�neuen Daten!

Erkenntnisse aus unstrukturierten Dokumentensammlungen gewinnen

Steffen Kühne

Friedrich Lindenberg

Simon Wörpel�

nr-Jahreskonferenz, 2019

bit.ly/nr19-docs

2 of 19

Einleitung
Beispiele
Einfache Suche
Komplexe Suche
PDFs extrahieren
Suchen im Editor
Aleph
Lösungen

3 of 19

Dokumente

Journalisten müssen sich zunehmend mit Dokumenten auseinandersetzen. Diese können aus unterschiedlichsten Quellen kommen:

Leaks und Whistleblower
Behördenanfragen
Gerichtsdokumente
Ermittlungsakten
Web-Scraping

4 of 19

Document Mining

Was kann man alles in Dokumenten finden?

Begriffe und Entitäten: Personen, Firmen, Adressen, …
Werte: Geldbeträge, Kontonummern, Datum, ...
Beziehungen: semantisch, zeitlich, persönlich, ...
Metadaten: Verfasser, Datum, Software, …
Grammatik: Syntax, Satzlängen, Semantik, ...
andere Dinge: Topics, Sentiment, Plagiate, ...

5 of 19

Beispiel: OCCRP

Maldives https://www.occrp.org/en/paradiseleased/how-paradise-was-carved-up-and-sold
Daphne Project https://www.occrp.org/en/thedaphneproject/
GuptaLeaks http://www.gupta-leaks.com/

6 of 19

Beispiel: CORRECTIV

7 of 19

Beispiele BR Data

Das System Madeira (Europäisches Steuerparadies):�https://br.de/madeira/artikel

Computer sagt Jamaika (Wahlprogramm-Analyse):�http://web.br.de/interaktiv/wahlprogramm-analyse-bundestagswahl/

Gift im System (Plagiate im Pestizidzulassungsverfahren):�https://br.de/pestizide

Der Haken am Häkchen (Datenschutzerklärungen):�https://web.br.de/interaktiv/datenschutzerklaerungen/

8 of 19

Einfache Dokumentensuche

Ein Journalist bekommt eine Dokumentensammlung zugespielt. Die Dokumente enthalten Text oder es wurde bereits eine Texterkennung durchgeführt (OCR). Der Journalist möchte nach Namen oder Begriffen suchen.

Voraussetzung: Bei gescannten Seiten in einem PDF können Textpassagen ausgewählt und kopiert werden.
Lösung I: Ordner indizieren und Windows-Suche benutzen
Lösung II: Erweiterte Suche im Adobe Acrobat Reader nutzen
Lösung III: Dokumente in Google Drive hochladen. Kostenlose Texterkennung und gute Suchfunktion.

9 of 19

Dokumenten-Workflow

Grundsätzlich das Vorgehen recht ähnlich, egal welche Dokumentensammlung man analysieren möchten.

Text und Metadaten extrahieren
Datenbank mit Inhalten aufbauen
Zusätzliche Analysen durchführen (z.B. NLP)
Benutzeroberfläche entwickeln
Zugang sichern
Profit!

10 of 19

Text aus Bildern extrahieren

Ein Dokumentensammlung besteht aus Scans oder PDFs mit Scans. Daraus soll der Text extrahiert werden:

Abbyy FineReader: ~100 €, sehr gut auch mit Tabellen, vergleichbar mit Omnipage und Adobe Acrobat Pro
Google Vision: cloud-basierter Dienst, hohe Qualität, kann auch Bilderkennung (Entity Extraction)
Tesseract, kostenloses Kommandozeile-Werkzeug, sehr mächtig, aber auch ein bisschen kompliziert

11 of 19

Text aus verschiedenen Dateien extrahieren

Eine Dokumentensammlung enthält verschieden Dateien (Textdokumente, Tabellen, Präsentationen, PDFs, E-Mails, Datenbanken). Daraus sollen sowohl alle Texte wie auch die relevanten Metadaten extrahiert werden.

Apache Tika auf der Kommandozeile: https://tika.apache.org/
ICIJ Extract https://github.com/ICIJ/extract

12 of 19

Metadaten

Metadaten (Benutzer, Änderungsdatum etc.) sind leicht manipulierbar und sollten nicht als Beleg für eine Story herhalten
Metadaten können außerdem Infos über eine Whistleblower*in verraten: Obacht!
Tools:

tba (für Extrahierung)
evtl. hier was: https://github.com/micahflee (für Anonymisierung)

13 of 19

Tabellen aus PDFs extrahieren

Gerade im Umgang mit Behördendokumenten bekommt man oftmals Statistiken, welche als Tabellen in PDF-Dokumenten eingebunden sind.

Tabula: kostenlos, funktioniert wenn die Tabelle echter Text ist https://tabula.technology/
Abbyy FineReader: kostenpflichtig, funktioniert auch mit Bildern und Scans
PDFDATA https://www.pdfdata.io/