1 of 19

Dokumente sind die�neuen Daten!

Erkenntnisse aus unstrukturierten Dokumentensammlungen gewinnen

Steffen Kühne

Friedrich Lindenberg

Simon Wörpel�

nr-Jahreskonferenz, 2019

bit.ly/nr19-docs

2 of 19

  1. Einleitung
  2. Beispiele
  3. Einfache Suche
  4. Komplexe Suche
  5. PDFs extrahieren
  6. Suchen im Editor
  7. Aleph
  8. Lösungen

3 of 19

Dokumente

Journalisten müssen sich zunehmend mit Dokumenten auseinandersetzen. Diese können aus unterschiedlichsten Quellen kommen:

  • Leaks und Whistleblower
  • Behördenanfragen
  • Gerichtsdokumente
  • Ermittlungsakten
  • Web-Scraping

4 of 19

Document Mining

Was kann man alles in Dokumenten finden?

  • Begriffe und Entitäten: Personen, Firmen, Adressen, …
  • Werte: Geldbeträge, Kontonummern, Datum, ...
  • Beziehungen: semantisch, zeitlich, persönlich, ...
  • Metadaten: Verfasser, Datum, Software, …
  • Grammatik: Syntax, Satzlängen, Semantik, ...
  • andere Dinge: Topics, Sentiment, Plagiate, ...

5 of 19

Beispiel: OCCRP

6 of 19

Beispiel: CORRECTIV

7 of 19

Beispiele BR Data

Das System Madeira (Europäisches Steuerparadies):https://br.de/madeira/artikel

Computer sagt Jamaika (Wahlprogramm-Analyse):�http://web.br.de/interaktiv/wahlprogramm-analyse-bundestagswahl/

Gift im System (Plagiate im Pestizidzulassungsverfahren):�https://br.de/pestizide

Der Haken am Häkchen (Datenschutzerklärungen):�https://web.br.de/interaktiv/datenschutzerklaerungen/

8 of 19

Einfache Dokumentensuche

Ein Journalist bekommt eine Dokumentensammlung zugespielt. Die Dokumente enthalten Text oder es wurde bereits eine Texterkennung durchgeführt (OCR). Der Journalist möchte nach Namen oder Begriffen suchen.

9 of 19

Dokumenten-Workflow

Grundsätzlich das Vorgehen recht ähnlich, egal welche Dokumentensammlung man analysieren möchten.

  • Text und Metadaten extrahieren
  • Datenbank mit Inhalten aufbauen
  • Zusätzliche Analysen durchführen (z.B. NLP)
  • Benutzeroberfläche entwickeln
  • Zugang sichern
  • Profit!

10 of 19

Text aus Bildern extrahieren

Ein Dokumentensammlung besteht aus Scans oder PDFs mit Scans. Daraus soll der Text extrahiert werden:

  • Abbyy FineReader: ~100 €, sehr gut auch mit Tabellen, vergleichbar mit Omnipage und Adobe Acrobat Pro
  • Google Vision: cloud-basierter Dienst, hohe Qualität, kann auch Bilderkennung (Entity Extraction)
  • Tesseract, kostenloses Kommandozeile-Werkzeug, sehr mächtig, aber auch ein bisschen kompliziert

11 of 19

Text aus verschiedenen Dateien extrahieren

Eine Dokumentensammlung enthält verschieden Dateien (Textdokumente, Tabellen, Präsentationen, PDFs, E-Mails, Datenbanken). Daraus sollen sowohl alle Texte wie auch die relevanten Metadaten extrahiert werden.

12 of 19

Metadaten

  • Metadaten (Benutzer, Änderungsdatum etc.) sind leicht manipulierbar und sollten nicht als Beleg für eine Story herhalten
  • Metadaten können außerdem Infos über eine Whistleblower*in verraten: Obacht!
  • Tools:
    • tba (für Extrahierung)
    • evtl. hier was: https://github.com/micahflee (für Anonymisierung)

13 of 19

Tabellen aus PDFs extrahieren

Gerade im Umgang mit Behördendokumenten bekommt man oftmals Statistiken, welche als Tabellen in PDF-Dokumenten eingebunden sind.

  • Tabula: kostenlos, funktioniert wenn die Tabelle echter Text ist https://tabula.technology/
  • Abbyy FineReader: kostenpflichtig, funktioniert auch mit Bildern und Scans
  • PDFDATA https://www.pdfdata.io/

14 of 19

Natural Language Processing (NLP)

NLP-Methoden sind ein Klassiker der Informatik und Linguistik und beschäftigen sich mit verschiedenen Aufgaben:

  • Syntax: Parsing, Stemming, Lemmatisierung, Tokenization, ...
  • Semantik: Named Entities, Übersetzung, Synonyme, Themen ...
  • Abstraktion: Zusammenfassungen generieren, Diskursanalyse, …

Es gibt bereits viele Softwarepakete und Werkzeuge in diesem Bereich. Die wichtigsten davon sind: NLTK, OpenNLP und SpaCy

15 of 19

Anreichern / Refining mit anderen Daten

16 of 19

All-in-One-Lösungen

Document Mining ist kein neues Problem. Daher gibt es schon eine Vielzahl an bestehenden Lösungen mit unterschiedlichem Anwendungszweck.

  • OCCRP: Aleph
  • ICIJ: Datashare
  • EIC: Hoover

  • New York Times: Stevedore
  • BR: Elasticsearch Frontend

17 of 19

Beispiel: BR Data

  • Mitteilungsblatt der autonomen Region Madeira (Portugal)
  • teilweise gescannte Ausgaben
  • semi-strukturierte Daten
  • eigene Suchmaschine mit Tika, Tesseract und Elasticsearch
  • API für Listensuche (Politiker, Fußballer, Prominente)

Das System Madeira:https://br.de/madeira/artikel

18 of 19

Nützliche Quellen

19 of 19

Vielen Dank!

Steffen Kühne�Bayerischer Rundfunk��stekhn.de

stekhn@gmail.com

twitter.com/stekhn

Friedrich Lindenberg�OCCRP�pudo.org

friedrich@pudo.org

twitter.com/pudo