1 of 6

STAATSBIBLIOTHEK ZU BERLIN – PK

KÜNSTLICHE INTELLIGENZ UND DIGITALISIERUNG VON KULTURERBE

Clemens Neudecker / GD

museum4punkt0 | finale | 03. Mai 2023, Berlin

2. August 2023 · SBB-PK · Clemens Neudecker · Künstliche Intelligenz für das digitalisierte Kulturerbe · CC BY 4.0 · Seite 1

2 of 6

Was ist Künstliche Intelligenz?

  • Der Begriff “Künstliche Intelligenz“ wird in Expertenkreisen als durchaus problematisch angesehen und sollte besser vermieden werden, da er einen Anthropomorphismus darstellt - als ob es sich hierbei um eine dem Menschen vergleichbare Intelligenz handelt. Dies ist aber absolut nicht der Fall.
  • Besser wäre es entweder allgemein von “maschinellem Lernen” bzw. �„deep learning“ zu sprechen oder spezifischer von “stochastischen Vorhersagemodellen” (provokanter „stochastic parrots“, vgl. Bender et al. 2021)
  • Grundsätzlich gilt dabei: aus möglichst vielen repräsentativen Ausgangsdaten (Beispielen) werden Wahrscheinlichkeitsmodelle trainiert, um diese dann auf weitere Daten anwenden zu können.
  • Die Qualität eines Modells (der “KI”) hängt also maßgeblich davon ab, wie umfangreich, qualitativ hochwertig und vielfältig die zum Training verwendeten Ausgangsdaten sind.

Teresa Berndtsson / Better Images of AI / Letter Word Text Taxonomy / CC-BY 4.0

2. August 2023 · SBB-PK · Clemens Neudecker · Künstliche Intelligenz für das digitalisierte Kulturerbe · CC BY 4.0 · Seite 2

3 of 6

Beispiele

  • Um das „Trainieren“ einer KI / eines Modells zu veranschaulichen können zwei einfache Beispiele dienen:

  • Bildklassifikation: �Eine KI / ein Modell soll trainiert werden um Äpfel von Orangen zu unterscheiden. Der KI werden dazu so lange verschiedene Bilder von Äpfeln und Orangen gezeigt, bis die KI / das Modell für ein noch nicht gesehenes Bild selbst korrekt entscheiden kann, ob es sich dabei um einen Apfel oder eine Orange handelt.

  • Sprachmodelle (z.B. ChatGPT): �Eine KI / ein Modell soll trainiert werden um Texte zu bestimmten Themen zu verfassen oder Antworten auf Fragen zu geben. Die KI bekommt dazu sehr viele Texte gezeigt, in denen einzelne Wörter „maskiert“ bzw. ausgeblendet werden, also etwa: „Menschen gehen gerne in Bibliotheken um dort [MASK] zu lesen“. �Für die Frage: „Warum gehen Menschen gerne in Bibliotheken?“ macht das Modell dann eine Vorhersage, welches Wort basierend auf den Trainingsdaten an Stelle von [MASK] am wahrscheinlichsten stehen könnte, hier also z.B. „Menschen gehen gerne in Bibliotheken um dort Bücher zu lesen.“

2. August 2023 · SBB-PK · Clemens Neudecker · Künstliche Intelligenz für das digitalisierte Kulturerbe · CC BY 4.0 · Seite 3

4 of 6

Welchen Nutzen hat maschinelles Lernen / KI für das digitalisierte Kulturerbe?

  • Für das maschinelle Lernen / KI lassen sich eine Vielzahl von Anwendungen im Bereich der Digitalisierung des kulturellen Erbes finden, z.B.:
    • Texterkennung (OCR), Handschriftenerkennung (HTR), Layout- und Strukturerkennung
    • Bildextraktion, Bildklassifikation, Bildsuche
    • Named Entity Recognition, Entity Linking (zu Normdaten)
    • (semi-)Automatische Sacherschließung, Verschlagwortung
    • …und noch vieles mehr - siehe z.B. auch die Aktivitäten und Berichte der Europeana Task Force �AI in relation to GLAMs und AI4LAM Community

  • Im Rahmen von mehreren Drittmittelprojekten konnte die SBB in den vergangenen Jahren maschinelles Lernen / KI für das digitalisierte Kulturerbe erforschen und zahlreiche Anwendungen entwickeln:
    • OCR-D (DFG | ocr-d.de) entwickelt offene Technologien und Konzepte für die OCR historischer Drucke
    • Qurator (BMBF | ravius.sbb.berlin) entwickelte Prototypen für Anwendungsbereiche der KI in der SBB
    • Mensch.Maschine.Kultur (BKM | mmk.sbb.berlin) vertieft und erweitert die begonnenen Arbeiten und überführt diese in die produktive Anwendung und neue Dienste

2. August 2023 · SBB-PK · Clemens Neudecker · Künstliche Intelligenz für das digitalisierte Kulturerbe · CC BY 4.0 · Seite 4

5 of 6

Herausforderungen und Chancen von maschinellem Lernen / KI für Kulturerbeeinrichtungen

  • Aufgrund von Urheberrecht werden vor allem historische Werke digitalisiert – diese enthalten historische Begriffe und Rechtschreibung, für die eine KI erst angepasst bzw. trainiert werden muss
  • Digitalisate und Metadaten liegen nicht in der Form und in den Formaten vor, wie sie für das Training von KI benötigt werden und müssen daher zunächst evaluiert, konvertiert, oder (von Expert:innen) transkribiert und annotiert werden
  • Kulturelle Kontexte (Zeit, Ort) müssen bei der Anwendung von KI für das Kulturerbe Berücksichtigung finden
  • Ethisch oder sozial bzw. rechtlich problematische Inhalte wie z.B. Kolonialismus, Nationalsozialismus oder die Unterrepräsentation von marginalisierten Gruppen in den Daten müssen identifiziert und entsprechend umsichtig behandelt und kontextualisiert werden
  • Spezielle Hardware (GPUs) und Expertise (Einwerbung von Personal mit entsprechenden Kompetenzen) wird benötigt
  • Der Einsatz von KI bietet viele Möglichkeiten zur effizienten Erschließung, Analyse und Anreicherung von Digitalisaten sowie für neue Services für Nutzende und die Wissenschaft
  • Durch die fortschreitende Massendigitalisierung verfügen Kulturerbeeinrichtungen über große und wachsende Mengen an (zumeist offenen) Daten für die Verbesserung / das Training von KI
  • In den Kulturerbeeinrichtungen gibt es große Expertise zu den Sammlungsinhalten in den jeweiligen Fachbereichen, von denen die KI lernen bzw. profitieren kann
  • Grundsätzlich besteht ein (vor allem im Vergleich zu großen Tech-Unternehmen) hohes Qualitätsbewusstsein und Sensibilität bei der Erstellung, Pflege und Nutzung von Daten
  • Als öffentliche Einrichtungen und Dienstleister für Forschung und Wissenschaft werden Transparenz, Datenschutz und Verantwortung im Umgang mit Daten und KI ernst genommen – auch über lange Zeiträume

Herausforderungen

Chancen

2. August 2023 · SBB-PK · Clemens Neudecker · Künstliche Intelligenz für das digitalisierte Kulturerbe · CC BY 4.0 · Seite 5

6 of 6

STAATSBIBLIOTHEK ZU BERLIN – PK

VIELEN DANK FÜR IHRE AUFMERKSAMKEIT!

Clemens Neudecker / GD�museum4punkt0 | finale | 03. Mai 2023, Berlin

2. August 2023 · SBB-PK · Clemens Neudecker · Künstliche Intelligenz für das digitalisierte Kulturerbe · CC BY 4.0 · Seite 6