1 of 56

“Trust Us, We’re Frontier-LLMs”Sei der Critical-Expert-in-the-Loop: Perspektiven auf AI Literacy

Von historischen Daten zu KI. 24. Oktober 2025. IZMF. Universität Salzburg

Dr. Christopher Pollin

https://chpollin.github.io | christopher.pollin@dhcraft.org

Digital Humanities Craft OG�www.dhcraft.org

Slides were generated AI-assisted. Images are partly AI-generated.

2 of 56

DHd-AG Angewandte Generative KI in den Digitalen Geisteswissenschaften (AGKI-DH)https://agki-dh.github.io

Large Language Models for Digital Humanities Researchhttps://chpollin.github.io/llmdh

Angewandte Generative KI in den (digitalen) Geisteswissenschaften - AGKIhttps://chpollin.github.io/GM-DH

Mein YouTube-Kanal mit “Work-in-Progress“”

Lectures & Hands-Ons

https://www.youtube.com/@DigitalHumanitiesCraft

3 of 56

Leitfragen: Angewandte Generative KI als Forschungsunterstützung

  • Darf, soll oder muss generative KI Teil wissenschaftlicher Praxis in Forschung und Lehre werden?�
  • Welche spezifischen Herausforderungen und Potenziale ergeben sich beim Einsatz von KI für die Verarbeitung (historische) Information und Forschung?�
  • Welche Kompetenzen werden künftig – und sind teils bereits – notwendig, um generative KI produktiv und im Sinne wissenschaftlicher Integrität in der Forschung einzusetzen?�
  • Wie werden wir als Gesellschaft damit umgehen, wenn unsere Wissensarbeit zu großen Teilen (von den “Tech-Bros”) automatisiert wird? Oder passiert das gar nicht?

4 of 56

Crazy Tech-Bros Mindset �& �Empire of AI

This Is What a Digital Coup Looks Like | Carole Cadwalladr | TED. https://youtu.be/TZOoT8AbkNE

Douglas Rushkoff – das Mindset der Tech-Milliardäre | Sternstunde Philosophie | SRF Kultur. https://youtu.be/PU0eQ4mjXK4→ “AI is creating a paranoid society!

Bender, Emily M., und Hanna Alex. 2025. The AI Con: How to Fight Big Tech’s Hype and Create the Future We Want. First edition.��Karen Hao. Empire of AI: Dreams and Nightmares in Sam Altman's OpenAI

Yuval Noah Harari on AI and Human Evolution | WSJ Leadership Institute. https://youtu.be/Ki5hosohNtQ� → “Useless Class”

'We have to stop it taking over' - the past, present and future of AI with Geoffrey Hinton. https://youtu.be/Y7nrAOmUtRs

Matrix 2025: Gefangen in der Kalifornischen Ideologie – scobel. https://www.youtube.com/watch?v=64xK-SEl3nA

5 of 56

Verstehen

Realität

Techno-Dystopie

System 1.42

Blase

Revolution

Hype

“Wir dürfen das nicht mit KI machen”

“Wir müssen alles mit KI machen”

“Es ist nur Statistik”

Techno-Utopie

“AGI”

AGI

PANIC

DON’T PANIC

System 1.42: Wie (Frontier-)LLMs “tatsächlich” funktionieren. https://dhcraft.org/excellence/blog/System1-42

6 of 56

LLMs in der Forschung und der Codeerzeugung

7 of 56

Frontier Genome Language Model �Evo1 & Evo 2

AlphaFold

How AlphaFold and other AI Tools Changed my Life. https://youtu.be/fcjIdb9eyVg

https://alphafold.ebi.ac.uk

https://doi.org/10.1101/2025.09.12.675911 ��Die neue Intelligenz und das Ende der Kontrolle – scobel. https://youtu.be/kGh1k63Hg70?si=IkzFH5BQjw-5z7Ay

Maybe AI Will Cure Cancer After All. https://www.youtube.com/watch?v=UrnmWFfp9X8

8 of 56

Between Failing and “PhD level”

Wie kann man es als Intelligenz bezeichnen, wenn es nicht einmal die Zeichen in Wörtern zählen kann?

OpenAI: GPT-5 ist “auf Doktoranden-Niveau”!

FrontierMath: Probleme, für deren Lösung selbst erfahrene Mathematiker:innen Forschungsprojekte benötigen

https://epoch.ai/frontiermath

Glazer, Elliot, Ege Erdil, Tamay Besiroglu, et al. ‘FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI’. arXiv:2411.04872. Preprint, arXiv, 20 December 2024. https://doi.org/10.48550/arXiv.2411.04872.

9 of 56

Die auf Glasmalerei spezialisierten Kunsthistoriker:innen waren sehr beeindruckt von der Qualität der Beschreibung von Claude Opus 4.1.

Gute Transkription, Übersetzung und Auflösung von Abkürzungen auf Bildern lateinischer Inschriften (2023/24).�

Korrekte statistische Auswertung von Spreadsheet-Daten mittels Python-Code (2023).�

Beide Anwendungsbereiche – insbesondere die Code-Generierung – haben sich deutlich verbessert.

10 of 56

DEPCHA: Von historischer Information zur digitalen Repräsentation

Modellierung�Ontologie, Strukturierung

Digitale Edition�Interface, Digitales Faksimile, Metadaten

Semantic Web�Linked Data, Vernetzung, Kontextualisierung

Pollin, Christopher. 2025. „Modelling, Operationalising and Exploring Historical Information. Using Historical Financial Sources as an Example“. http://unipub.uni-graz.at/obvugrhs/12127700.

11 of 56

“The Special Nature of Historical Information”

Kontextabhängigkeit

  • Zeitliche, räumliche, kulturelle Kontexte
  • Bedeutung entsteht im spezifischen Kontext

1/2 Bushell Corn” (19. Jh. USA)

Multiperspektivität

  • Unterschiedliche Interpretationen historischer Holzmaße �(Baltikum, 18. Jh.):

Högberg (1969): Schwedische Normen, dickere Bretter (22,90–57,24 kg)�Gallagher (2016): Spanische Exporte, dünnere Bretter (21,28–25,30 kg)�Kumar (2018): 700 historische Holzbegriffe → 180 standardisierte Kategorien (Sound Toll Registers

Human Agency

  • Interpretative Rolle der Forschenden
  • Bias und Forschungsagenda

Wirtschafts- vs. Sozialhistoriker:innen

Unsicherheit

  • Vagheit
  • Inkonsistenz
  • Unvollständigkeit
  • Polyvalenz
  • Negation

12 of 56

TEI XML → Extrahiertes RDF (Bookkeeping + PROV)

Vogeler, Georg. 2019. „The ‘assertive edition’“. International Journal of Digital Humanities 1 (2): 309–22. https://doi.org/10.1007/s42803-019-00025-5.

13 of 56

Promptotyping = �extrem schnelle, forscher:innenzentrierte, forschungsdatengetriebene Prototypenerstellung von Forschungstools, Workflows und Modellen mittels Frontier-LLMs.

- Erstellungszeit: ~ 6 Stunden �- Verwendetes LLM: Claude Opus 4.1 + Claude Code�https://chpollin.github.io/stained-glass-metadata-annotation-tool/docs/version-2

- Erstellungszeit: ~ 3 Stunden �- Verwendetes LLM: Claude Opus 4.1 + Claude Code�https://chpollin.github.io/depcha-aldersbach

- Erstellungszeit: ~ 1-2 tage �- Verwendetes LLM: GPT o1 (Anfang 2024)�https://chpollin.github.io/HistInfo/InfoVis/wheaton-network-vis/wheaton-network-vis.html

14 of 56

“Easy” Problems of LLMs

(Currently) “Hard” Problems of LLMs

  • Alignment
  • Duck-Problem
  • Black Box
  • “Es-gibt-keine-wahre-verantwortungsvolle-Frontier-KI-� Nutzung”-Problem
  • Systemzwangs-Problem
  • “4.-narzisstische-Kränkung-der-Menschheit”
  • Kompetenzverfall-Problem
  • Braucht-einen-Experten-in-der-Schleife"
  • Evaluierungs- und Benchmark-Problem
  • Kommunikations- und Wissenslücken-Problem
  • Attributions-Problem
  • Integrations-Problem
  • Rechen- und Geld-Problem

Meine These: LLMs haben und werden die Forschung tiefgreifend verändern, im Positiven wie im Negativen.

15 of 56

Forschungsintegrität

Ehrlichkeit: Gibt Inhalte ohne Verständnis oder ordnungsgemäße Quellenangabe wieder

Gewissenhaftigkeit: Erzeugt oberflächlichen Konsens statt rigoroser Analyse

Transparenz: Intransparente Prozesse mit nicht reproduzierbaren, instabilen Ergebnissen

Unabhängigkeit: Das Auslagern von Denkprozessen gibt intellektuelle Autonomie auf

Verantwortung: Kann nicht für Arbeit verantwortlich sein, die man weder produziert noch versteht�

Schreiben ist Denken. Schreiben auszulagern bedeutet, das Denken aufzugeben.

Ist das so?

Dingemanse, Mark. ‘Generative AI and Research Integrity’. Preprint, OSF, 14 May 2024. https://doi.org/10.31219/osf.io/2c48n.

16 of 56

LLM-unterstütztes Modellieren, Operationalisieren und Explorieren

historischer Informationen

17 of 56

Wildererbestand aus dem Hans Gross Kriminalmuseum

Hans Gross Kriminalmuseum. Virtuelle Sammlung. http://gams.uni-graz.at/km ��Pollin, Christopher. Vom Suchen, Stöbern und Finden : Information Retrieval am Beispiel der Digitalen Sammlung des Hans Gross Kriminalmuseums. 2017. https://resolver.obvsg.at/urn:nbn:at:at-ubg:1-116631

18 of 56

Vibe Coding

Andrej Karpathy. Vibe Coding. https://x.com/karpathy/status/1886192184808149383

The AI Daily Brief. Rick Rubin on Art, Life, and Vibe Coding. https://youtu.be/6BDsFUvPqI0

Christopher Pollin. “Haters gonna hate”: Warum die Kritik an Vibe Coding berechtigt ist – und welche Proto-AGI-Potenziale sie übersieht. https://dhcraft.org/excellence/blog/Vibe-Coding

Pollin, Christopher. ‘Promptotyping: Von der Idee zur Anwendung’. Digital Humanities Craft - Research Blogs, 24 April 2025. https://dhcraft.org/excellence/blog/Promptotyping

Promptotyping

19 of 56

Karteikarten und Objekte im Wildererbestand des Kriminalmuseum

Es gibt 2 Beispielobjekte.

Für beide liegen jeweils die Inventarnummer und eine Volltextbeschreibung vor. Bei Objekten besteht diese aus einem deskriptiven Text mit Objektbeschreibung, bei Karteikarten aus der Transkription.

Karteikarte KM-KK.195. https://gams.uni-graz.at/o:km.195

20 of 56

Informationsextraktion �aus Volltextfeld

Beschreibung Gewehr KM-O.212:```�Bei diesem Objekt handelt es sich um ein Gewehr mit Bajonettverschluss und abnehmbarem Lauf. Die Waffe ist aus Stahl und Holz gefertigt, wobei der für den Lauf und den Verschlussmechanismus verwendet wurde, während das den Schaft bildet. Mit einer Gesamtbreite von 66,8 cm ist es kompakter als übliche Langwaffen. Die Höhe beträgt 4,8 cm und die Tiefe 11,6 cm. Der Bajonettverschluss ermöglicht durch eine Drehbewegung eine sichere Verriegelung, während der abnehmbare Lauf die Wartung und den Transport erleichtert.�```��Extrahiere folgende Informationen:�* Objekttyp�* Material�* Maße (in cm) � * Höhe� * Breite� * Tiefe�* Beschreibung��Erzeuge ein CSV mit folgendem CSV Header: Inventarnummer|Beschreibung|Objekttyp|Material|Maße��Regeln für das CSV:�* Maße: {Höhe cm} x {Breite cm} x {Tiefe cm}�* trage nur daten ein, wenn du sie sicher findest

Struktur im Prompt (Markdown)��Daten (= Text aus der Tabelle)

Ausgabe definieren und vorgeben (Template)

Regeln genau definieren

21 of 56

Markdown

Leichtgewichtige Auszeichnungssprache zur Textformatierung für maximale Lesbarkeit im Rohformat und einfache Konvertierung in strukturierte Formate (HTML, PDF, LaTeX)

Gut für LLM weil:

  • Hohe Präsenz in Trainingsdaten
  • Token-effizient
  • Trennt Struktur von Inhalt (z.B. Ausdrücken von Unterkapiteln oder Hierarchien durch Listen)

22 of 56

Karteikarten im Wildererbestand des Hans Gross Kriminalmuseum

Transkription

Vorderseite

Z. 12/32

Kasten: VI

Fach: 2

Gegenstand: Einläufiges Gewehr(Vorderlader)

Delikt: Wilddiebstahl § 8, 460 Stg. 312 Stg u. § 32 Wp.

Rückseite

Bezirks gericht Weiz

G.-Z. U 631/31

Name des Täters: 1.) Stefan M 2.) Anton S. 3.) Rupert P. 4.) Franz H.

Alter: geb. 10/8 1896 geb. 10/8 1896 geb. 7/6 1906 geb. 30/11 1912 geb. 30/11 1899

Beruf: arbeitsloser Bergmann Besitzerssohn Besitzerssohn landw.H.Arbeiter

Vorstrafen: § 431 Stg. 10 S – er. 48 St Arrest § 81 Stg. 312 2 Monate str Arrest (nachgelassen) unbestraft vorbestr § 171 172 179 Stg. 5 Wochen schwerer Kerker

Urteil v.2/12.1931 nach §§ 1) - 4) 8 460 stg. 2) 8 Stg. 1) u. 3 32 Wp.

Strafe: 1) 36 Stunden Arrest 2) 14 Tage str. Arrest 2 hartes Lager Vorhaft angerechnet 3) 24 St. Arrest bedingt auf 1 Jahr 4) 5 Tage Arrest gemäß § Wp. Gewehr verfallen erklärt

Tatbestand und kriminologisch Relevantes: Alle 4 Täter haben am 6/12.1931 in Gesellschaft als Dienstgenossen�im Jagdrevier der Weizer Jagdgesellschaft in Mistlegg nach Haren.�Eichhörnchen gewildert, wobei die Täter 1) u 3) unbefugt Jagdge-�wehre mit Munition trugen, während die beiden anderen Täter als�Treiber fungierten. Ohne dass jedoch von ihnen Wild erlegt wurde.�Täter 2) hat weiters am 9/12 31 zu Ausübung ihres Dienstes befindliche�Gendarmen durch Beschimpfungen beleidigt.�Das einläufige Vorderladergewehr wurde im Besitze des Täters 3)�gefunden u. ihm abgenommen.

Extraktion von:�

  • Datum
  • Named Entities
    • Namen
  • Konzepten
    • Paragraphen
  • Zusammenfassung�

Mapping und Überführung in strukturierte Daten

23 of 56

Transkription “Karteikarte KM-KK.195”:

```

Vorderseite

Z. 12/32

Kasten: VI

Fach: 2

Gegenstand: Einläufiges Gewehr(Vorderlader)

Delikt: Wilddiebstahl § 8, 460 Stg. 312 Stg u. § 32 Wp.

Rückseite

Bezirks gericht Weiz

G.-Z. U 631/31

Name des Täters: 1.) Stefan M 2.) Anton S. 3.) Rupert P. 4.) Franz H.

Alter: geb. 10/8 1896 geb. 10/8 1896 geb. 7/6 1906 geb. 30/11 1912 geb. 30/11 1899

Beruf: arbeitsloser Bergmann Besitzerssohn Besitzerssohn landw.H.Arbeiter

Vorstrafen: § 431 Stg. 10 S – er. 48 St Arrest § 81 Stg. 312 2 Monate str Arrest (nachgelassen) unbestraft vorbestr § 171 172 179 Stg. 5 Wochen schwerer Kerker

Urteil v.2/12.1931 nach §§ 1) - 4) 8 460 stg. 2) 8 Stg. 1) u. 3 32 Wp.

Strafe: 1) 36 Stunden Arrest 2) 14 Tage str. Arrest 2 hartes Lager Vorhaft angerechnet 3) 24 St. Arrest bedingt auf 1 Jahr 4) 5 Tage Arrest gemäß § Wp. Gewehr verfallen erklärt

Tatbestand und kriminologisch Relevantes: Alle 4 Täter haben am 6/12.1931 in Gesellschaft als Dienstgenossen im Jagdrevier der Weizer Jagdgesellschaft in Mistlegg nach Haren. Eichhörnchen gewildert, wobei die Täter 1) u 3) unbefugt Jagdge- wehre mit Munition trugen, während die beiden anderen Täter als Treiber fungierten. Ohne dass jedoch von ihnen Wild erlegt wurde. Täter 2) hat weiters am 9/12 31 zu Ausübung ihres Dienstes befindliche Gendarmen durch Beschimpfungen beleidigt. Das einläufige Vorderladergewehr wurde im Besitze des Täters 3) gefunden u. ihm abgenommen.

```

Analysiere die Karteikarte “Karteikarte KM-KK.195” aus dem Wildererbestand des Hans-Gross-Kriminalmuseums im Detail.

Extrahiere alle Named Entities (wie Personen und Orte).

* Erstelle eine sehr kompakte Zusammenfassung und Beschreibung.

* Alle Konzepte (wie Urteile und Paragraphen etc.).

* Alle Datumsangaben.

  • ``` Verwenden
  • Struktur im Prompt
  • Analysieren = “Reasoning”
  • Klare Anweisungen: was muss extrahiert werden

24 of 56

Transkription

Vorderseite

Z. 12/32

Kasten: VI

Fach: 2

Gegenstand: Einläufiges Gewehr(Vorderlader)

Delikt: Wilddiebstahl § 8, 460 Stg. 312 Stg u. § 32 Wp.

Rückseite

Bezirks gericht Weiz

G.-Z. U 631/31

Name des Täters: 1.) Stefan M 2.) Anton S. 3.) Rupert P. 4.) Franz H.

Alter: geb. 10/8 1896 geb. 10/8 1896 geb. 7/6 1906 geb. 30/11 1912 geb. 30/11 1899

Beruf: arbeitsloser Bergmann Besitzerssohn Besitzerssohn landw.H.Arbeiter

Vorstrafen: § 431 Stg. 10 S – er. 48 St Arrest § 81 Stg. 312 2 Monate str Arrest (nachgelassen) unbestraft vorbestr § 171 172 179 Stg. 5 Wochen schwerer Kerker

Urteil v.2/12.1931 nach §§ 1) - 4) 8 460 stg. 2) 8 Stg. 1) u. 3 32 Wp.

Strafe: 1) 36 Stunden Arrest 2) 14 Tage str. Arrest 2 hartes Lager Vorhaft angerechnet 3) 24 St. Arrest bedingt auf 1 Jahr 4) 5 Tage Arrest gemäß § Wp. Gewehr verfallen erklärt

Tatbestand und kriminologisch Relevantes: Alle 4 Täter haben am 6/12.1931 in Gesellschaft als Dienstgenossen�im Jagdrevier der Weizer Jagdgesellschaft in Mistlegg nach Haren.�Eichhörnchen gewildert, wobei die Täter 1) u 3) unbefugt Jagdge-�wehre mit Munition trugen, während die beiden anderen Täter als�Treiber fungierten. Ohne dass jedoch von ihnen Wild erlegt wurde.�Täter 2) hat weiters am 9/12 31 zu Ausübung ihres Dienstes befindliche�Gendarmen durch Beschimpfungen beleidigt.�Das einläufige Vorderladergewehr wurde im Besitze des Täters 3)�gefunden u. ihm abgenommen.

Da das LLM den Kontext dieser Quelle “versteht”, kann es die Zeile “Name des Täters” mit der Zeile “Alter” verknüpfen. Ein LLM verarbeitet den Kontext eines Textes.

25 of 56

Trust us, we’re Frontier-LLMs

Sycophancy = Übermäßige Zustimmung zu Nutzer:innen, auch bei falschen Aussagen

LLMs sind nie verlässlich!

Workflows

Benchmarking und Vibe Checks

Prompt und Context Engineering

AI Engineering (RAG, MCP, Tool Use, Knowledge Graphs, etc.)

Programmieren 2.0 und “Vibe Coding”� → Do not trust the Frontier-LLMs!� But work and try to understand them!

26 of 56

Diskussion

Persönliche Erfahrungen:

  • Hast du schon erlebt, dass ein LLM deine Arbeit erledigt hat? Wie ist es dir dabei gegangen?
  • Was konnte das Modell noch nicht? Wo waren die Grenzen?

Probleme und Handlungsmöglichkeiten:

  • Wo siehst du weiterhin Probleme mit KI in deiner Forschung (oder gibt es nur Probleme)?
  • Welche dieser Probleme können wir aktiv angehen?

Kompetenzen und Strategien:

  • Welche Skills sollten wir priorisieren: Programmieren, Agentic Coding, oder fachliches Tiefenwissen?
  • Wie finden wir einen kritisch-konstruktiven Zugang zur Technologie?
  • Frontier-Modelle vs. Open Source: Brauchen wir beides? Wofür jeweils?

Metafrage:

  • Wie können wir als kritische Expert:innen-in-the-Loop die Technologie mitgestalten, statt sie nur zu nutzen oder abzulehnen?

27 of 56

Live Prompting mit MHDBDB

LLM-unterstütztes Modellieren, Operationalisieren und Explorieren historischer Informationen

MHDBDB Plain Text → TEI modellieren → TEI erzeugen und Mini Edition prompten mit Claude Code!

von abegescheidenheit

ich hân der geschrift vil gelesen , beidiu von den heidenischen meistern

und von den wîssagen und von der alten und niuwen ê , und hân mit

ernste und mit ganzem vlîze gesuochet , welhiu diu hoehste und diu beste

tugent sî , dâ mite der mensche sich ze gote allermeist und aller næhest gevüegen [401]

müge und mit der der mensche von gnâden werden müge , daz got ist

von natûre , und dâ mite der mensche aller glîchest stande dem bilde , als er

in gote was , in dem zwischen im und gote kein underscheit was , ê daz got

die crêatûre geschuof . und sô ich alle die geschrift durchgründe , als verre

mîn vernunft erziugen und bekennen mac , sô envinde ich niht anders , wan

daz lûteriu abegescheidenheit ob allen dingen sî , wan alle tugende hânt etwaz

ûfsehennes ûf die crêatûre , sô stât abegescheidenheit ledic aller crêatûren .

dar umbe sprach unser herre ze marthâ : < unum est necessarium > , daz ist als

vil gesprochen : marthâ , wer unbetrüebet und lûter welle sîn , der muoz haben einez ,

daz ist abegescheidenheit . [402]

die lêrære lobent die minne groezlîche , als sant paulus tuot , der sprichet :

< in waz üebunge ich mac gestân , enhân ich niht minne , sô enbin ich nihtes

niht > . sô lobe ich abegescheidenheit vür alle minne . von êrste dar umbe ,

wan daz beste , daz an der minne ist , daz ist , daz si mich twinget , daz ich got

minne , sô twinget abegescheidenheit got , daz er mich minne . nû ist vil

edellîcher , daz ich twinge got ze mir , dan daz ich mich twinge ze gote . und ist

daz dâ von , wan got kan sich învüeclîcher vüegen ze mir und baz [403]

vereinigen mit mir , dan ich mich künde vereinigen mit gote . daz abegescheidenheit

twinge got ze mir , daz bewære ich dâ mite : wan ein ieclich dinc ist

gerne an sîner natiurlîchen eigen stat . nû ist gotes natiurlîchiu eigen stat

einicheit und lûterkeit , daz kumet von abegescheidenheit . dâ von muoz

got von nôt sich selber geben einem abegescheidenen herzen . ze dem andern

mâle lobe ich abegescheidenheit vür minne , wan minne twinget mich

dar zuo , daz ich alliu dinc lîde durch got , sô bringet mich abegescheidenheit

dar zuo , daz ich nihtes enpfenclich bin wan gotes . nû ist vil edeler

nihtes niht enpfenclich sîn wan gotes , dan alliu dinc lîden durch got , wan in

dem lîdenne hât der mensche etwaz ûfsehennes ûf die crêatûre , von der der

mensche daz lîden hât , sô stât abegescheidenheit genzlîche ledic aller crêatûre . [404]

daz aber abegescheidenheit nihtes niht enpfenclich sî dan gotes , daz

bewære ich dâ mite : wan swaz enpfangen werden sol , daz muoz eteswar în

enpfangen werden . nû ist abegescheidenheit dem nihte alsô nâhe , daz kein

dinc sô kleinvüege enist , daz ez sich enthalten müge in abegescheidenheit

dan got aleine . der ist alsô einvaltic und alsô kleinvüege , daz er sich in

dem abegescheidenen herzen wol enthalten mac . dâ von ist abegescheidenheit

nihtes enpfenclich dan gotes .

die meister lobent ouch dêmüeticheit vür vil ander tugende . aber

ich lobe abegescheidenheit vür alle dêmüeticheit , und ist daz dar umbe , [405]

wan dêmüeticheit mac gestân âne abegescheidenheit , sô enmac volkomeniu

abegescheidenheit niht gestân âne volkomene dêmüeticheit , wan volkomeniu

dêmüeticheit gât ûf ein vernihten sîn selbes . nû rüeret abegescheidenheit

alsô nâhe dem nihte , daz zwischen volkomener abegescheidenheit und dem

nihte kein dinc gesîn enmac . dâ von enmac volkomeniu abegescheidenheit

niht gesîn âne dêmüeticheit . nû ist alle zît zwô tugende bezzer dan einiu .

diu ander sache ist , war umbe ich lobe abegescheidenheit vür dêmüeticheit ,

wan volkomeniu dêmüeticheit ist sich selber neigende under alle crêatûre ,

und in dér neigunge sô gât der mensche ûz im selber ûf die crêatûre , sô blîbet

abegescheidenheit in ir selber . nû enmac kein ûzganc niemer sô edel

werden , daz inneblîben ensî vil edeler in im selber . dâ von sprach der [406]

wîssage dâvît : < omnis gloria eius filiae regis ab intus > , daz ist gesprochen :

< des küniges tohter hât alle ir êre von ir inwendicheit > . volkomeniu

abegescheidenheit enhât kein ûfsehen ûf keine neigunge under keine crêatûre

noch über keine crêatûre ; si enwil weder under noch obe sîn , si wil alsô

stân von ir selber , niemanne ze liebe noch ze leide , und enwil weder glîcheit

noch unglîcheit mit keiner crêatûre haben noch diz noch daz : si enwil niht

anders wan sîn . daz si aber welle diz oder daz sîn , des enwil si niht .

wan swer wil diz oder daz sîn , der wil etwaz sîn , sô enwil abegescheidenheit

nihtes niht sîn . dâ von stânt alliu dinc von ir unbeswæret . nû möhte ein [407]

mensche sprechen : nû wâren doch alle tugende volkomenlîche in unser vrouwen ,

und alsô muoste ouch volkomeniu abegescheidenheit in ir sîn . ist nû

abegescheidenheit hoeher dan dêmüeticheit , war umbe ruomte sich danne

unser vrouwe ir dêmüeticheit und niht ir abegescheidenheit , dô si sprach :

< quia respexit dominus humilitatem ancillae suae > , daz ist : < er sach ane die

dêmüeticheit sîner diernen > , - - war umbe ensprach si niht : er sach ane die

abegescheidenheit sîner diernen ? des antwürte ich alsô und spriche , daz in

gote ist abegescheidenheit und dêmüeticheit , als verre wir tugende von gote

gesprechen mügen . nû solt dû wizzen , daz diu minnebære dêmüeticheit got

dâ zuo brâhte , daz er sich neigete in menschlîche natûre , und stuont [408]

abegescheidenheit unbewegelich in ir selber , dô er mensche wart , als si tete , dô

er himelrîche und ertrîche beschuof , als ich dir her nâch sagen wil . und

wan unser herre , dô er mensche werden wolte , unbewegelich stuont an sîner

abegescheidenheit , dô weste unser vrouwe wol , daz er des selben ouch von ir

begerte und daz er in der sache anesach ir dêmüeticheit und niht ir

abegescheidenheit . dâ von stuont si unbewegelich in ir abegescheidenheit und

ruomte sich ir dêmüeticheit und niht ir abegescheidenheit . und hæte si niuwan

gedâht mit einem worte ir abegescheidenheit , daz si gesprochen hæte :

er sach ane mîne abegescheidenheit , dâ mite wære diu abegescheidenheit

betrüebet worden und wære niht ganz noch volkomen gewesen , wan dâ wære

ein ûzganc geschehen . sô enmac kein ûzganc sô kleine gesîn , in dem diu [409]

abegescheidenheit müge âne mâsen blîben . und alsô hâst dû die sache , war

umbe sich unser vrouwe ruomte ir dêmüeticheit und niht ir abegescheidenheit .

28 of 56

LLM Grundlagen

29 of 56

Wie LLMs funktionieren

LLMs führen Next Token Prediction durch. Sie sagen das nächste Token in einer Folge von Tokens (~ Kontext) auf Grundlage ihrer Trainingsdaten voraus. Jedes vorhergesagte Token wird Teil des Kontexts für die nächste Vorhersage (autoregressiv). Dieser einfache Mechanismus, massiv skaliert, erzeugt die “schwach emergenten” (?) Eigenschaften, die wir beobachten.

Andrej Karpathy. Deep Dive into LLMs like ChatGPT. https://youtu.be/7xTGNNLPyMI �Andrej Karpathy. How I use LLMs. https://youtu.be/EWvNQjAaOHw �Andrej Karpathy. [1hr Talk] Intro to Large Language Models. https://www.youtube.com/watch?v=zjkBMFhNj_g �Alan Smith. Inside GPT – Large Language Models Demystified https://youtu.be/MznD2DzlQCc�3Blue1Brown. But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning. https://youtu.be/wjZofJX0v4M �Ethan Mollick. Thinking Like an AI. A little intuition can help. https://www.oneusefulthing.org/p/thinking-like-an-ai

Ethan Mollick. Thinking Like an AI. https://www.oneusefulthing.org/p/thinking-like-an-ai

30 of 56

Pre-Training (“Kompression von Wissen”)

  • Input: Trillionen von Tokens aus (Web-)Daten

und/oder synthetischen Daten�

  • Task: das nächste Token vorhersagen�
  • Eigenschaften:
    • verlustbehaftet (nicht perfekter Speicher)
    • probabilistisch (Muster, keine Fakten)
    • Wissensabgrenzung (zeitlich festgelegt)�
  • Kosten Sehr teuer (Geld, Energie, GPU), langsam

Große Sprachmodelle sind verlustbehaftete, probabilistische Komprimierungen („.zip“) von möglichst vielen hochwertigen (multimodalen) Daten.

Andrej Karpathy. How I use LLMs. https://youtu.be/EWvNQjAaOHw

Andrej Karpathy. [1hr Talk] Intro to Large Language Models. https://www.youtube.com/zjkBMFhNj_g

31 of 56

Die Gestalt eines Wikipedia-Artikels über Zebras

LLMs können nicht direkt auf Wikipedia-Artikel zugreifen. Sie haben nur Zugriff auf die Gestalt (Karpathy) des Textes, die komprimierte statistische Muster darstellt, die während des Trainings entstehen.

LLMs besuchen Webseiten nicht! �Sie können jedoch Tools für die Websuche verwenden (Tool Use).

Interne Wissensrepräsentation des Modells im Vergleich zu seiner Fähigkeit, über Tools auf externe Informationen zuzugreifen

32 of 56

Die USA investieren Hunderte von Milliarden

in Rechenzentren und Energieerzeugung.

  • Energie: 0,0003 kWh pro Prompt (= 8–10 Sekunden Netflix-Streaming)
  • Wasser: 0.25-5mL pro Prompt (feinige Tropfen bis zu 1/5 eines Schnapsglases)
  • Effizienz: 33-fache Verbesserung in einem Jahr (Google)
  • Kosten: $50→$0.14 per million tokens (GPT-4 to GPT-5 nano)

Meta Builds Manhattan-Sized AI Data Centers in Multi-Billion Dollar Tech Race. https://www.ctol.digital/news/meta-builds-manhattan-sized-ai-data-centers-tech-race/

Inside OpenAI's Stargate Megafactory with Sam Altman | The Circuit. https://youtu.be/GhIJs4zbH0o

Ethan Mollick. Mass Intelligence. From GPT-5 to nano banana: everyone is getting access to powerful AI https://www.oneusefulthing.org/p/mass-intelligence

Jegham, Nidhal, Marwen Abdelatti, Lassad Elmoubarki, and Abdeltawab Hendawi. ‘How Hungry Is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference’. 14 May 2025. https://doi.org/10.48550/arXiv.2505.09598.

Während einzelne LLM-Abfragen immer effizienter werden, führt ihr massiver Einsatz zu einem Paradoxon, bei dem allein GPT-4o jährlich so viel Strom verbraucht wie 35.000 US-Haushalte. Dies zeigt, dass die Wahl der Infrastruktur für die Umweltbelastung wichtiger ist als die Modellgröße und dass die weltweite Einführung von KI einen Ressourcenverbrauch verursacht, der die Effizienzgewinne bei weitem übersteigt.

33 of 56

Tokenization

  • Rohtext aus dem Internet:
    • “Hello World!”�
  • Cleaning und Filtering
    • (removes spam, deduplication)

  • Tokenizer
    • [‘Hello’, ‘World’, ‘!’]
  • IDs
    • [13225, 5922, 0]

Die Tokenisierung wandelt Text in numerische Einheiten für die LLM-Verarbeitung um. Die Tokenisierungsstrategie priorisiert die Recheneffizienz, indem sie die Sequenzlänge minimiert.

Ein Token ist die atomare Einheit für LLMs

(100 Token ≈ 75 englische Wörter).

Deep Dive into LLMs like ChatGPT. https://youtu.be/7xTGNNLPyMI

Let's build the GPT Tokenizer. https://youtu.be/zduSFxRajkE

34 of 56

Warum kann ein LLM nicht buchstabieren und �warum sieht man so viele „:” und „ー”?

Let’s talk about em dashes in AI. Maria Sukhavera. https://msukhareva.substack.com/p/lets-talk-about-em-dashes-in-ai

AI Slop

35 of 56

Transformer-Architecture

35

3Blue1Brown. But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning

Andrej Karpathy. [1hr Talk] Intro to Large Language Models. https://www.youtube.com/watch?v=zjkBMFhNj_g

Alan Smith. Inside GPT – Large Language Models Demystified, 2024

https://youtu.be/MznD2DzlQCc

36 of 56

Model Context Window = 8K

Model Context Window = 8K

Context Window = 6000 + 1500 < 8000

Context Window = 10000 + 1500 > 8000�3500 tokens are not in the context window!

A context window, in the context of large language models (LLMs), refers to the portion of text that the model can consider at once when generating or analyzing language.�[...]

A context window, in the context of large language models (LLMs), refers to the portion of text that the model can consider at once when generating or analyzing language. It is essentially the window through which the model "sees" and processes text, helping it understand the current context to make predictions, generate coherent sentences, or provide relevant responses.�[...]

Lorem ipsum …

Lorem ipsum …

6000 Token

10000 Token

Input Token

Output Token

1500 Token

1500 Token

What is a Context Window? Unlocking LLM Secrets. https://youtu.be/-QVoIxEpFkM

37 of 56

Embeddings

  • Ähnliche Bedeutungen = Nähere Positionen im Raum
    • “dog” und “cat” → nah

(beides Haustiere, Tiere, Säugetiere)

    • “stone” → Fern (lebloses Objekt)
    • “cuddle” → Näher an Tieren

(Handlung, die mit Lebewesen assoziiert wird)

  • Multivektorraum
    • n Dimensionen (GPT 3.5 ~ 15.000)
    • Positionen entsteht aus dem Pre Training

Einbettungen wandeln diskrete Token (Wörter) in kontinuierliche numerische Vektoren in einem hochdimensionalen Raum um.

Deep Dive into LLMs like ChatGPT. https://youtu.be/7xTGNNLPyMI

Let's build the GPT Tokenizer. https://youtu.be/zduSFxRajkE

38 of 56

Embeddings

39 of 56

The King doth wake tonight and takes his rouse

“Modern Englisch”

The King wakes up tonight and begins his celebration

The King doth wake tonight and takes his rouse

“Shakespearean English”

40 of 56

The King wakes up tonight and begins his celebration, cat dog stone hybrid

The King wakes up tonight and begins his celebration, cat dog stone hybrid

The King wakes up tonight and begins his celebration, cat stone

The King wakes up tonight and begins his celebration, stoned cat

The King wakes up tonight and begins his celebration, cat dog stone hybrid

The King wakes up tonight and begins his celebration, cat

cat

dog

stone

hybrid

The King wakes up tonight and begins his celebration, dog hybrid

41 of 56

Kaffeepause (30min)

Danach geht’s weiter mit MHDBDB & ParzivAI

42 of 56

MHDBDB goes ParzivAI

Dr. Katharina Zeppezauer-Wachauer

Koordinatorin MHDBDB

Mittelhochdeutsche Begriffsdatenbank (MHDBDB)�http://mhdbdb.sbg.ac.at/

ParzivAL-Logo. Copyright: Thomas Renkert

43 of 56

Mittelhochdeutsche Begriffsdatenbank (MHDBDB)

Digitale Forschungsinfrastruktur für mittelalterliche Texte

Was ist die MHDBDB?

  • Seit 1972: Zentrale Ressource für mittelhochdeutsche Texte (seit 2002 an der Universität Salzburg)
  • Über 10,6 Mio. Wörter, 29.000 Lemmata, 666 Werke, jährlich 30.000 internat. User
  • Verbindet ein semantisches Wörterbuch mit einem vollständig annotierten Textkorpus
  • Anwender*innen aus Germanistik, Mediävistik, Geschichtswissenschaft, Kunstgeschichte, Politikwissenschaft, Wirtschaftswissenschaft, Kochbuchforschung, Game Studies, Biologie, Gerichtsmedizin...

Wie funktioniert sie?

  • Vielschichtige Annotationen: Lexik, Semantik, Grammatik, Gattungen, Metadaten,…
  • Leistungsfähige Suchmaschine für wissenschaftliche Fragestellungen
  • Digitales Textarchiv mit Lese- und Downloadfunktion für Forschung & Lehre

Wohin geht die Reise? - gemeinsam mit DHCraft

  • KI-unterstützte neue Version mit intuitiver Benutzeroberfläche (Abschluss der Grundversion: Ende 2025)
  • Erhalt bewährter Tools, Reduktion veralteter Komponenten
  • Vereinfachte Wartung & nachhaltiger Betrieb
  • Produktivstart geplant für Q1 2026
  • Parallel: optimierte aktuelle Graphmodell-Version (gemeinsam mit Complement/FB Informatik)

44 of 56

1970er

Fortran-Lochkarte, Copyright: Wikimedia Commons (CC-BY)

45 of 56

1980er

CP/M Microcomputer, Copyright: Wikimedia Commons (CC-BY)

46 of 56

1990er

47 of 56

2000er

48 of 56

2010er

49 of 56

2016 - 2024

(No money,

no honey.)

50 of 56

RDF

(Graphmodell)

TEI-XML

Subjekt – Prädikat – Objekt�

Beispiel:

Walther – istAutorVon – Under der linden

Semantisch annotierter Autorenvermerk

Beispiel: <author ref="http://d-nb.info/gnd/118633966"

>Walther von der Vogelweide</author>

51 of 56

RDF – leistungsfähig, aber für die MHDBDB schwierig

RDF (Resource Description Framework)

  • Repräsentiert Wissen als Tripelstruktur (Subjekt – Prädikat – Objekt).
  • Hervorragend für ontologische Modellierung und Linked Open Data.
  • Das heißt: Für ontologische MHDBDB-Abfragen ist es gut.
  • Aber: RDF ist kontextfrei, fragmentiert Information auf kleinste Einheiten.
  • Das erschwert sprachlich-semantische Modellierungen.

Technische Distanz zur Textstruktur

  • KI-Modelle „verstehen“ RDF über zusätzliche Mapping- und Ontologie-Schichten.
  • Schon einfache Textabfragen („wo reimt sich herz auf smerz?“) sind nur äußerst umständlich machbar.
  • Semantisches Kippen, Ironie, Polysemie (z. B. Metaphern) sind fast gar nicht rekonstruierbar.
  • RDF benötigt meist zusätzliche Tools (SPARQL, Reasoner), während TEI bereits „lesbar“ ist.

Fazit: RDF ist hervorragend für präzise, formale Repräsentation geeignet – doch komplexe Bedeutungsräume literarischer Texte lassen sich darin nur schwer adäquat abbilden.

52 of 56

Was KI an MHDBDB-TEI besser „lesen“ kann als an MHDBDB-RDF

Kognitive Nähe & Modellierungsparadigma

  • TEI (Text Encoding Initiative) arbeitet mit einer textzentrierten XML-Struktur.
  • Sie spiegelt die natürliche Hierarchie und Linearität sprachlicher Daten wider.
  • TEI ist „menschennah“ modelliert – ideal für narrativ, diskursiv und sequentiell strukturierte Inhalte.
  • LLMs wurden auf sprachlichen Mustern trainiert → profitieren von TEI-inhärenter Struktur.�

Annotationstiefe & Kontextbezug

  • In der MHDBDB sind TEI-Annotationen inline oder simple stand-off (wenige Authority files) → gut kontextualisierbar.
  • Token, Satz, Strophe, Absatz, Werk,...: alles bleibt innerhalb eines semiotischen Kontexts.
  • Nicht isoliert, sondern in einem sprachlich-semantischen Zusammenhang.
  • Semantische Relationen so leichter erkennbar, weil diese direkt aus dem Sprachmaterial ableitbar sind.

Einfache Faustregel: Wenn der Mensch es gut lesen kann, kann die KI es gut „lesen“.

53 of 56

MHDBDB früher (GraphDB): Die Maschine muss es verstehen.

54 of 56

MHDBDB heute (Textmodell):

Der Mensch soll es verstehen – und die Maschine kann es auch.

Lemma mhd. linde

Bedeutung: Bäume

55 of 56

56 of 56

ParzivAL-Logo. Copyright: Thomas Renkert