“Trust Us, We’re Frontier-LLMs”�Sei der Critical-Expert-in-the-Loop: Perspektiven auf AI Literacy
Von historischen Daten zu KI. 24. Oktober 2025. IZMF. Universität Salzburg
Dr. Christopher Pollin
https://chpollin.github.io | christopher.pollin@dhcraft.org
Digital Humanities Craft OG�www.dhcraft.org
Slides were generated AI-assisted. Images are partly AI-generated.
DHd-AG Angewandte Generative KI in den Digitalen Geisteswissenschaften (AGKI-DH)�https://agki-dh.github.io
Large Language Models for Digital Humanities Research�https://chpollin.github.io/llmdh
Angewandte Generative KI in den (digitalen) Geisteswissenschaften - AGKI�https://chpollin.github.io/GM-DH
YouTube Playlist�https://youtube.com/playlist?list=PLaHADNRco7n3GKVUD8mAc36pXQ5pnJQVL
Mein YouTube-Kanal mit “Work-in-Progress“”
Lectures & Hands-Ons
Leitfragen: Angewandte Generative KI als Forschungsunterstützung
Crazy Tech-Bros Mindset �& �Empire of AI
This Is What a Digital Coup Looks Like | Carole Cadwalladr | TED. https://youtu.be/TZOoT8AbkNE
Douglas Rushkoff – das Mindset der Tech-Milliardäre | Sternstunde Philosophie | SRF Kultur. https://youtu.be/PU0eQ4mjXK4 � → “AI is creating a paranoid society!”
Bender, Emily M., und Hanna Alex. 2025. The AI Con: How to Fight Big Tech’s Hype and Create the Future We Want. First edition.��Karen Hao. Empire of AI: Dreams and Nightmares in Sam Altman's OpenAI
Yuval Noah Harari on AI and Human Evolution | WSJ Leadership Institute. https://youtu.be/Ki5hosohNtQ� → “Useless Class”
'We have to stop it taking over' - the past, present and future of AI with Geoffrey Hinton. https://youtu.be/Y7nrAOmUtRs
Matrix 2025: Gefangen in der Kalifornischen Ideologie – scobel. https://www.youtube.com/watch?v=64xK-SEl3nA
…
Verstehen
Realität
Techno-Dystopie
System 1.42
Blase
Revolution
Hype
“Wir dürfen das nicht mit KI machen”
“Wir müssen alles mit KI machen”
“Es ist nur Statistik”
Techno-Utopie
“AGI”
AGI
PANIC
DON’T PANIC
…
…
System 1.42: Wie (Frontier-)LLMs “tatsächlich” funktionieren. https://dhcraft.org/excellence/blog/System1-42
LLMs in der Forschung und der Codeerzeugung
Frontier Genome Language Model �Evo1 & Evo 2
AlphaFold
How AlphaFold and other AI Tools Changed my Life. https://youtu.be/fcjIdb9eyVg
https://doi.org/10.1101/2025.09.12.675911 ��Die neue Intelligenz und das Ende der Kontrolle – scobel. https://youtu.be/kGh1k63Hg70?si=IkzFH5BQjw-5z7Ay
C2S‑Scale https://www.vandijklab.org/c2s-scale
Maybe AI Will Cure Cancer After All. https://www.youtube.com/watch?v=UrnmWFfp9X8
Between Failing and “PhD level”
Wie kann man es als Intelligenz bezeichnen, wenn es nicht einmal die Zeichen in Wörtern zählen kann?
OpenAI: GPT-5 ist “auf Doktoranden-Niveau”!
FrontierMath: Probleme, für deren Lösung selbst erfahrene Mathematiker:innen Forschungsprojekte benötigen
Glazer, Elliot, Ege Erdil, Tamay Besiroglu, et al. ‘FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI’. arXiv:2411.04872. Preprint, arXiv, 20 December 2024. https://doi.org/10.48550/arXiv.2411.04872.
Die auf Glasmalerei spezialisierten Kunsthistoriker:innen waren sehr beeindruckt von der Qualität der Beschreibung von Claude Opus 4.1.
Gute Transkription, Übersetzung und Auflösung von Abkürzungen auf Bildern lateinischer Inschriften (2023/24).�
Korrekte statistische Auswertung von Spreadsheet-Daten mittels Python-Code (2023).�
Beide Anwendungsbereiche – insbesondere die Code-Generierung – haben sich deutlich verbessert.
DEPCHA: Von historischer Information zur digitalen Repräsentation
Modellierung�Ontologie, Strukturierung
Digitale Edition�Interface, Digitales Faksimile, Metadaten
Semantic Web�Linked Data, Vernetzung, Kontextualisierung
Pollin, Christopher. 2025. „Modelling, Operationalising and Exploring Historical Information. Using Historical Financial Sources as an Example“. http://unipub.uni-graz.at/obvugrhs/12127700.
“The Special Nature of Historical Information”
Kontextabhängigkeit
“1/2 Bushell Corn” (19. Jh. USA)
Multiperspektivität
Högberg (1969): Schwedische Normen, dickere Bretter (22,90–57,24 kg)�Gallagher (2016): Spanische Exporte, dünnere Bretter (21,28–25,30 kg)�Kumar (2018): 700 historische Holzbegriffe → 180 standardisierte Kategorien (Sound Toll Registers
Human Agency
Wirtschafts- vs. Sozialhistoriker:innen
Unsicherheit
TEI XML → Extrahiertes RDF (Bookkeeping + PROV)
Vogeler, Georg. 2019. „The ‘assertive edition’“. International Journal of Digital Humanities 1 (2): 309–22. https://doi.org/10.1007/s42803-019-00025-5.
Promptotyping = �extrem schnelle, forscher:innenzentrierte, forschungsdatengetriebene Prototypenerstellung von Forschungstools, Workflows und Modellen mittels Frontier-LLMs.
- Erstellungszeit: ~ 6 Stunden �- Verwendetes LLM: Claude Opus 4.1 + Claude Code�https://chpollin.github.io/stained-glass-metadata-annotation-tool/docs/version-2
- Erstellungszeit: ~ 3 Stunden �- Verwendetes LLM: Claude Opus 4.1 + Claude Code�https://chpollin.github.io/depcha-aldersbach
- Erstellungszeit: ~ 1-2 tage �- Verwendetes LLM: GPT o1 (Anfang 2024)�https://chpollin.github.io/HistInfo/InfoVis/wheaton-network-vis/wheaton-network-vis.html
“Easy” Problems of LLMs
(Currently) “Hard” Problems of LLMs
Meine These: LLMs haben und werden die Forschung tiefgreifend verändern, im Positiven wie im Negativen.
Forschungsintegrität
Ehrlichkeit: Gibt Inhalte ohne Verständnis oder ordnungsgemäße Quellenangabe wieder
Gewissenhaftigkeit: Erzeugt oberflächlichen Konsens statt rigoroser Analyse
Transparenz: Intransparente Prozesse mit nicht reproduzierbaren, instabilen Ergebnissen
Unabhängigkeit: Das Auslagern von Denkprozessen gibt intellektuelle Autonomie auf
Verantwortung: Kann nicht für Arbeit verantwortlich sein, die man weder produziert noch versteht�
“Schreiben ist Denken. Schreiben auszulagern bedeutet, das Denken aufzugeben.”
Ist das so?
Dingemanse, Mark. ‘Generative AI and Research Integrity’. Preprint, OSF, 14 May 2024. https://doi.org/10.31219/osf.io/2c48n.
LLM-unterstütztes Modellieren, Operationalisieren und Explorieren
historischer Informationen
Wildererbestand aus dem Hans Gross Kriminalmuseum
Hans Gross Kriminalmuseum. Virtuelle Sammlung. http://gams.uni-graz.at/km ��Pollin, Christopher. Vom Suchen, Stöbern und Finden : Information Retrieval am Beispiel der Digitalen Sammlung des Hans Gross Kriminalmuseums. 2017. https://resolver.obvsg.at/urn:nbn:at:at-ubg:1-116631
Vibe Coding
Andrej Karpathy. Vibe Coding. https://x.com/karpathy/status/1886192184808149383�
The AI Daily Brief. Rick Rubin on Art, Life, and Vibe Coding. https://youtu.be/6BDsFUvPqI0�
Christopher Pollin. “Haters gonna hate”: Warum die Kritik an Vibe Coding berechtigt ist – und welche Proto-AGI-Potenziale sie übersieht. https://dhcraft.org/excellence/blog/Vibe-Coding
Pollin, Christopher. ‘Promptotyping: Von der Idee zur Anwendung’. Digital Humanities Craft - Research Blogs, 24 April 2025. https://dhcraft.org/excellence/blog/Promptotyping
Promptotyping
Karteikarten und Objekte im Wildererbestand des Kriminalmuseum
Es gibt 2 Beispielobjekte.
Für beide liegen jeweils die Inventarnummer und eine Volltextbeschreibung vor. Bei Objekten besteht diese aus einem deskriptiven Text mit Objektbeschreibung, bei Karteikarten aus der Transkription.
Beispieldaten. https://docs.google.com/spreadsheets/d/13iX0ueroh8Bs7jZHBtb9lH8eeRbysaUC4YpqLc89HCo/edit?usp=sharing
Gewehr KM-O.212. https://gams.uni-graz.at/o:km.8179
Karteikarte KM-KK.195. https://gams.uni-graz.at/o:km.195
Informationsextraktion �aus Volltextfeld
Beschreibung Gewehr KM-O.212:�```�Bei diesem Objekt handelt es sich um ein Gewehr mit Bajonettverschluss und abnehmbarem Lauf. Die Waffe ist aus Stahl und Holz gefertigt, wobei der für den Lauf und den Verschlussmechanismus verwendet wurde, während das den Schaft bildet. Mit einer Gesamtbreite von 66,8 cm ist es kompakter als übliche Langwaffen. Die Höhe beträgt 4,8 cm und die Tiefe 11,6 cm. Der Bajonettverschluss ermöglicht durch eine Drehbewegung eine sichere Verriegelung, während der abnehmbare Lauf die Wartung und den Transport erleichtert.�```��Extrahiere folgende Informationen:�* Objekttyp�* Material�* Maße (in cm) � * Höhe� * Breite� * Tiefe�* Beschreibung��Erzeuge ein CSV mit folgendem CSV Header: Inventarnummer|Beschreibung|Objekttyp|Material|Maße��Regeln für das CSV:�* Maße: {Höhe cm} x {Breite cm} x {Tiefe cm}�* trage nur daten ein, wenn du sie sicher findest
Struktur im Prompt (Markdown)��Daten (= Text aus der Tabelle)
Ausgabe definieren und vorgeben (Template)
Regeln genau definieren
Markdown
Leichtgewichtige Auszeichnungssprache zur Textformatierung für maximale Lesbarkeit im Rohformat und einfache Konvertierung in strukturierte Formate (HTML, PDF, LaTeX)
Gut für LLM weil:
Karteikarten im Wildererbestand des Hans Gross Kriminalmuseum
Transkription
Vorderseite
Z. 12/32
Kasten: VI
Fach: 2
Gegenstand: Einläufiges Gewehr(Vorderlader)
Delikt: Wilddiebstahl § 8, 460 Stg. 312 Stg u. § 32 Wp.
Rückseite
Bezirks gericht Weiz
G.-Z. U 631/31
Name des Täters: 1.) Stefan M 2.) Anton S. 3.) Rupert P. 4.) Franz H.
Alter: geb. 10/8 1896 geb. 10/8 1896 geb. 7/6 1906 geb. 30/11 1912 geb. 30/11 1899
Beruf: arbeitsloser Bergmann Besitzerssohn Besitzerssohn landw.H.Arbeiter
Vorstrafen: § 431 Stg. 10 S – er. 48 St Arrest § 81 Stg. 312 2 Monate str Arrest (nachgelassen) unbestraft vorbestr § 171 172 179 Stg. 5 Wochen schwerer Kerker
Urteil v.2/12.1931 nach §§ 1) - 4) 8 460 stg. 2) 8 Stg. 1) u. 3 32 Wp.
Strafe: 1) 36 Stunden Arrest 2) 14 Tage str. Arrest 2 hartes Lager Vorhaft angerechnet 3) 24 St. Arrest bedingt auf 1 Jahr 4) 5 Tage Arrest gemäß § Wp. Gewehr verfallen erklärt
Tatbestand und kriminologisch Relevantes: Alle 4 Täter haben am 6/12.1931 in Gesellschaft als Dienstgenossen�im Jagdrevier der Weizer Jagdgesellschaft in Mistlegg nach Haren.�Eichhörnchen gewildert, wobei die Täter 1) u 3) unbefugt Jagdge-�wehre mit Munition trugen, während die beiden anderen Täter als�Treiber fungierten. Ohne dass jedoch von ihnen Wild erlegt wurde.�Täter 2) hat weiters am 9/12 31 zu Ausübung ihres Dienstes befindliche�Gendarmen durch Beschimpfungen beleidigt.�Das einläufige Vorderladergewehr wurde im Besitze des Täters 3)�gefunden u. ihm abgenommen.
Extraktion von:�
Mapping und Überführung in strukturierte Daten
Transkription “Karteikarte KM-KK.195”:
```
Vorderseite
Z. 12/32
Kasten: VI
Fach: 2
Gegenstand: Einläufiges Gewehr(Vorderlader)
Delikt: Wilddiebstahl § 8, 460 Stg. 312 Stg u. § 32 Wp.
Rückseite
Bezirks gericht Weiz
G.-Z. U 631/31
Name des Täters: 1.) Stefan M 2.) Anton S. 3.) Rupert P. 4.) Franz H.
Alter: geb. 10/8 1896 geb. 10/8 1896 geb. 7/6 1906 geb. 30/11 1912 geb. 30/11 1899
Beruf: arbeitsloser Bergmann Besitzerssohn Besitzerssohn landw.H.Arbeiter
Vorstrafen: § 431 Stg. 10 S – er. 48 St Arrest § 81 Stg. 312 2 Monate str Arrest (nachgelassen) unbestraft vorbestr § 171 172 179 Stg. 5 Wochen schwerer Kerker
Urteil v.2/12.1931 nach §§ 1) - 4) 8 460 stg. 2) 8 Stg. 1) u. 3 32 Wp.
Strafe: 1) 36 Stunden Arrest 2) 14 Tage str. Arrest 2 hartes Lager Vorhaft angerechnet 3) 24 St. Arrest bedingt auf 1 Jahr 4) 5 Tage Arrest gemäß § Wp. Gewehr verfallen erklärt
Tatbestand und kriminologisch Relevantes: Alle 4 Täter haben am 6/12.1931 in Gesellschaft als Dienstgenossen im Jagdrevier der Weizer Jagdgesellschaft in Mistlegg nach Haren. Eichhörnchen gewildert, wobei die Täter 1) u 3) unbefugt Jagdge- wehre mit Munition trugen, während die beiden anderen Täter als Treiber fungierten. Ohne dass jedoch von ihnen Wild erlegt wurde. Täter 2) hat weiters am 9/12 31 zu Ausübung ihres Dienstes befindliche Gendarmen durch Beschimpfungen beleidigt. Das einläufige Vorderladergewehr wurde im Besitze des Täters 3) gefunden u. ihm abgenommen.
```
Analysiere die Karteikarte “Karteikarte KM-KK.195” aus dem Wildererbestand des Hans-Gross-Kriminalmuseums im Detail.
Extrahiere alle Named Entities (wie Personen und Orte).
* Erstelle eine sehr kompakte Zusammenfassung und Beschreibung.
* Alle Konzepte (wie Urteile und Paragraphen etc.).
* Alle Datumsangaben.
Transkription
Vorderseite
Z. 12/32
Kasten: VI
Fach: 2
Gegenstand: Einläufiges Gewehr(Vorderlader)
Delikt: Wilddiebstahl § 8, 460 Stg. 312 Stg u. § 32 Wp.
Rückseite
Bezirks gericht Weiz
G.-Z. U 631/31
Name des Täters: 1.) Stefan M 2.) Anton S. 3.) Rupert P. 4.) Franz H.
Alter: geb. 10/8 1896 geb. 10/8 1896 geb. 7/6 1906 geb. 30/11 1912 geb. 30/11 1899
Beruf: arbeitsloser Bergmann Besitzerssohn Besitzerssohn landw.H.Arbeiter
Vorstrafen: § 431 Stg. 10 S – er. 48 St Arrest § 81 Stg. 312 2 Monate str Arrest (nachgelassen) unbestraft vorbestr § 171 172 179 Stg. 5 Wochen schwerer Kerker
Urteil v.2/12.1931 nach §§ 1) - 4) 8 460 stg. 2) 8 Stg. 1) u. 3 32 Wp.
Strafe: 1) 36 Stunden Arrest 2) 14 Tage str. Arrest 2 hartes Lager Vorhaft angerechnet 3) 24 St. Arrest bedingt auf 1 Jahr 4) 5 Tage Arrest gemäß § Wp. Gewehr verfallen erklärt
Tatbestand und kriminologisch Relevantes: Alle 4 Täter haben am 6/12.1931 in Gesellschaft als Dienstgenossen�im Jagdrevier der Weizer Jagdgesellschaft in Mistlegg nach Haren.�Eichhörnchen gewildert, wobei die Täter 1) u 3) unbefugt Jagdge-�wehre mit Munition trugen, während die beiden anderen Täter als�Treiber fungierten. Ohne dass jedoch von ihnen Wild erlegt wurde.�Täter 2) hat weiters am 9/12 31 zu Ausübung ihres Dienstes befindliche�Gendarmen durch Beschimpfungen beleidigt.�Das einläufige Vorderladergewehr wurde im Besitze des Täters 3)�gefunden u. ihm abgenommen.
Da das LLM den Kontext dieser Quelle “versteht”, kann es die Zeile “Name des Täters” mit der Zeile “Alter” verknüpfen. Ein LLM verarbeitet den Kontext eines Textes.
“Trust us, we’re Frontier-LLMs”
Sycophancy = Übermäßige Zustimmung zu Nutzer:innen, auch bei falschen Aussagen
LLMs sind nie verlässlich!
Workflows
Benchmarking und Vibe Checks
Prompt und Context Engineering
AI Engineering (RAG, MCP, Tool Use, Knowledge Graphs, etc.)
Programmieren 2.0 und “Vibe Coding”� → Do not trust the Frontier-LLMs!� But work and try to understand them!
Diskussion
Persönliche Erfahrungen:
Probleme und Handlungsmöglichkeiten:
Kompetenzen und Strategien:
Metafrage:
Live Prompting mit MHDBDB
LLM-unterstütztes Modellieren, Operationalisieren und Explorieren historischer Informationen
MHDBDB Plain Text → TEI modellieren → TEI erzeugen und Mini Edition prompten mit Claude Code!
von abegescheidenheit
ich hân der geschrift vil gelesen , beidiu von den heidenischen meistern
und von den wîssagen und von der alten und niuwen ê , und hân mit
ernste und mit ganzem vlîze gesuochet , welhiu diu hoehste und diu beste
tugent sî , dâ mite der mensche sich ze gote allermeist und aller næhest gevüegen [401]
müge und mit der der mensche von gnâden werden müge , daz got ist
von natûre , und dâ mite der mensche aller glîchest stande dem bilde , als er
in gote was , in dem zwischen im und gote kein underscheit was , ê daz got
die crêatûre geschuof . und sô ich alle die geschrift durchgründe , als verre
mîn vernunft erziugen und bekennen mac , sô envinde ich niht anders , wan
daz lûteriu abegescheidenheit ob allen dingen sî , wan alle tugende hânt etwaz
ûfsehennes ûf die crêatûre , sô stât abegescheidenheit ledic aller crêatûren .
dar umbe sprach unser herre ze marthâ : < unum est necessarium > , daz ist als
vil gesprochen : marthâ , wer unbetrüebet und lûter welle sîn , der muoz haben einez ,
daz ist abegescheidenheit . [402]
die lêrære lobent die minne groezlîche , als sant paulus tuot , der sprichet :
< in waz üebunge ich mac gestân , enhân ich niht minne , sô enbin ich nihtes
niht > . sô lobe ich abegescheidenheit vür alle minne . von êrste dar umbe ,
wan daz beste , daz an der minne ist , daz ist , daz si mich twinget , daz ich got
minne , sô twinget abegescheidenheit got , daz er mich minne . nû ist vil
edellîcher , daz ich twinge got ze mir , dan daz ich mich twinge ze gote . und ist
daz dâ von , wan got kan sich învüeclîcher vüegen ze mir und baz [403]
vereinigen mit mir , dan ich mich künde vereinigen mit gote . daz abegescheidenheit
twinge got ze mir , daz bewære ich dâ mite : wan ein ieclich dinc ist
gerne an sîner natiurlîchen eigen stat . nû ist gotes natiurlîchiu eigen stat
einicheit und lûterkeit , daz kumet von abegescheidenheit . dâ von muoz
got von nôt sich selber geben einem abegescheidenen herzen . ze dem andern
mâle lobe ich abegescheidenheit vür minne , wan minne twinget mich
dar zuo , daz ich alliu dinc lîde durch got , sô bringet mich abegescheidenheit
dar zuo , daz ich nihtes enpfenclich bin wan gotes . nû ist vil edeler
nihtes niht enpfenclich sîn wan gotes , dan alliu dinc lîden durch got , wan in
dem lîdenne hât der mensche etwaz ûfsehennes ûf die crêatûre , von der der
mensche daz lîden hât , sô stât abegescheidenheit genzlîche ledic aller crêatûre . [404]
daz aber abegescheidenheit nihtes niht enpfenclich sî dan gotes , daz
bewære ich dâ mite : wan swaz enpfangen werden sol , daz muoz eteswar în
enpfangen werden . nû ist abegescheidenheit dem nihte alsô nâhe , daz kein
dinc sô kleinvüege enist , daz ez sich enthalten müge in abegescheidenheit
dan got aleine . der ist alsô einvaltic und alsô kleinvüege , daz er sich in
dem abegescheidenen herzen wol enthalten mac . dâ von ist abegescheidenheit
nihtes enpfenclich dan gotes .
die meister lobent ouch dêmüeticheit vür vil ander tugende . aber
ich lobe abegescheidenheit vür alle dêmüeticheit , und ist daz dar umbe , [405]
wan dêmüeticheit mac gestân âne abegescheidenheit , sô enmac volkomeniu
abegescheidenheit niht gestân âne volkomene dêmüeticheit , wan volkomeniu
dêmüeticheit gât ûf ein vernihten sîn selbes . nû rüeret abegescheidenheit
alsô nâhe dem nihte , daz zwischen volkomener abegescheidenheit und dem
nihte kein dinc gesîn enmac . dâ von enmac volkomeniu abegescheidenheit
niht gesîn âne dêmüeticheit . nû ist alle zît zwô tugende bezzer dan einiu .
diu ander sache ist , war umbe ich lobe abegescheidenheit vür dêmüeticheit ,
wan volkomeniu dêmüeticheit ist sich selber neigende under alle crêatûre ,
und in dér neigunge sô gât der mensche ûz im selber ûf die crêatûre , sô blîbet
abegescheidenheit in ir selber . nû enmac kein ûzganc niemer sô edel
werden , daz inneblîben ensî vil edeler in im selber . dâ von sprach der [406]
wîssage dâvît : < omnis gloria eius filiae regis ab intus > , daz ist gesprochen :
< des küniges tohter hât alle ir êre von ir inwendicheit > . volkomeniu
abegescheidenheit enhât kein ûfsehen ûf keine neigunge under keine crêatûre
noch über keine crêatûre ; si enwil weder under noch obe sîn , si wil alsô
stân von ir selber , niemanne ze liebe noch ze leide , und enwil weder glîcheit
noch unglîcheit mit keiner crêatûre haben noch diz noch daz : si enwil niht
anders wan sîn . daz si aber welle diz oder daz sîn , des enwil si niht .
wan swer wil diz oder daz sîn , der wil etwaz sîn , sô enwil abegescheidenheit
nihtes niht sîn . dâ von stânt alliu dinc von ir unbeswæret . nû möhte ein [407]
mensche sprechen : nû wâren doch alle tugende volkomenlîche in unser vrouwen ,
und alsô muoste ouch volkomeniu abegescheidenheit in ir sîn . ist nû
abegescheidenheit hoeher dan dêmüeticheit , war umbe ruomte sich danne
unser vrouwe ir dêmüeticheit und niht ir abegescheidenheit , dô si sprach :
< quia respexit dominus humilitatem ancillae suae > , daz ist : < er sach ane die
dêmüeticheit sîner diernen > , - - war umbe ensprach si niht : er sach ane die
abegescheidenheit sîner diernen ? des antwürte ich alsô und spriche , daz in
gote ist abegescheidenheit und dêmüeticheit , als verre wir tugende von gote
gesprechen mügen . nû solt dû wizzen , daz diu minnebære dêmüeticheit got
dâ zuo brâhte , daz er sich neigete in menschlîche natûre , und stuont [408]
abegescheidenheit unbewegelich in ir selber , dô er mensche wart , als si tete , dô
er himelrîche und ertrîche beschuof , als ich dir her nâch sagen wil . und
wan unser herre , dô er mensche werden wolte , unbewegelich stuont an sîner
abegescheidenheit , dô weste unser vrouwe wol , daz er des selben ouch von ir
begerte und daz er in der sache anesach ir dêmüeticheit und niht ir
abegescheidenheit . dâ von stuont si unbewegelich in ir abegescheidenheit und
ruomte sich ir dêmüeticheit und niht ir abegescheidenheit . und hæte si niuwan
gedâht mit einem worte ir abegescheidenheit , daz si gesprochen hæte :
er sach ane mîne abegescheidenheit , dâ mite wære diu abegescheidenheit
betrüebet worden und wære niht ganz noch volkomen gewesen , wan dâ wære
ein ûzganc geschehen . sô enmac kein ûzganc sô kleine gesîn , in dem diu [409]
abegescheidenheit müge âne mâsen blîben . und alsô hâst dû die sache , war
umbe sich unser vrouwe ruomte ir dêmüeticheit und niht ir abegescheidenheit .
LLM Grundlagen
Wie LLMs funktionieren
LLMs führen Next Token Prediction durch. Sie sagen das nächste Token in einer Folge von Tokens (~ Kontext) auf Grundlage ihrer Trainingsdaten voraus. Jedes vorhergesagte Token wird Teil des Kontexts für die nächste Vorhersage (autoregressiv). Dieser einfache Mechanismus, massiv skaliert, erzeugt die “schwach emergenten” (?) Eigenschaften, die wir beobachten.
Andrej Karpathy. Deep Dive into LLMs like ChatGPT. https://youtu.be/7xTGNNLPyMI �Andrej Karpathy. How I use LLMs. https://youtu.be/EWvNQjAaOHw �Andrej Karpathy. [1hr Talk] Intro to Large Language Models. https://www.youtube.com/watch?v=zjkBMFhNj_g �Alan Smith. Inside GPT – Large Language Models Demystified https://youtu.be/MznD2DzlQCc�3Blue1Brown. But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning. https://youtu.be/wjZofJX0v4M �Ethan Mollick. Thinking Like an AI. A little intuition can help. https://www.oneusefulthing.org/p/thinking-like-an-ai
Ethan Mollick. Thinking Like an AI. https://www.oneusefulthing.org/p/thinking-like-an-ai
Pre-Training (“Kompression von Wissen”)
und/oder synthetischen Daten�
“Große Sprachmodelle sind verlustbehaftete, probabilistische Komprimierungen („.zip“) von möglichst vielen hochwertigen (multimodalen) Daten.”
Andrej Karpathy. How I use LLMs. https://youtu.be/EWvNQjAaOHw
Andrej Karpathy. [1hr Talk] Intro to Large Language Models. https://www.youtube.com/zjkBMFhNj_g
Die Gestalt eines Wikipedia-Artikels über Zebras
LLMs können nicht direkt auf Wikipedia-Artikel zugreifen. Sie haben nur Zugriff auf die Gestalt (Karpathy) des Textes, die komprimierte statistische Muster darstellt, die während des Trainings entstehen.
LLMs besuchen Webseiten nicht! �Sie können jedoch Tools für die Websuche verwenden (Tool Use).
Interne Wissensrepräsentation des Modells im Vergleich zu seiner Fähigkeit, über Tools auf externe Informationen zuzugreifen
Die USA investieren Hunderte von Milliarden
in Rechenzentren und Energieerzeugung.
Meta Builds Manhattan-Sized AI Data Centers in Multi-Billion Dollar Tech Race. https://www.ctol.digital/news/meta-builds-manhattan-sized-ai-data-centers-tech-race/
Inside OpenAI's Stargate Megafactory with Sam Altman | The Circuit. https://youtu.be/GhIJs4zbH0o
Ethan Mollick. Mass Intelligence. From GPT-5 to nano banana: everyone is getting access to powerful AI https://www.oneusefulthing.org/p/mass-intelligence
Jegham, Nidhal, Marwen Abdelatti, Lassad Elmoubarki, and Abdeltawab Hendawi. ‘How Hungry Is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference’. 14 May 2025. https://doi.org/10.48550/arXiv.2505.09598.
Während einzelne LLM-Abfragen immer effizienter werden, führt ihr massiver Einsatz zu einem Paradoxon, bei dem allein GPT-4o jährlich so viel Strom verbraucht wie 35.000 US-Haushalte. Dies zeigt, dass die Wahl der Infrastruktur für die Umweltbelastung wichtiger ist als die Modellgröße und dass die weltweite Einführung von KI einen Ressourcenverbrauch verursacht, der die Effizienzgewinne bei weitem übersteigt.
Tokenization
Die Tokenisierung wandelt Text in numerische Einheiten für die LLM-Verarbeitung um. Die Tokenisierungsstrategie priorisiert die Recheneffizienz, indem sie die Sequenzlänge minimiert.
Ein Token ist die atomare Einheit für LLMs
(100 Token ≈ 75 englische Wörter).
Deep Dive into LLMs like ChatGPT. https://youtu.be/7xTGNNLPyMI
Let's build the GPT Tokenizer. https://youtu.be/zduSFxRajkE
Warum kann ein LLM nicht buchstabieren und �warum sieht man so viele „:” und „ー”?
Let’s talk about em dashes in AI. Maria Sukhavera. https://msukhareva.substack.com/p/lets-talk-about-em-dashes-in-ai
AI Slop
Transformer-Architecture
35
3Blue1Brown. But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning
Andrej Karpathy. [1hr Talk] Intro to Large Language Models. https://www.youtube.com/watch?v=zjkBMFhNj_g
Alan Smith. Inside GPT – Large Language Models Demystified, 2024
Model Context Window = 8K
Model Context Window = 8K
Context Window = 6000 + 1500 < 8000
Context Window = 10000 + 1500 > 8000�3500 tokens are not in the context window!
A context window, in the context of large language models (LLMs), refers to the portion of text that the model can consider at once when generating or analyzing language.�[...]
A context window, in the context of large language models (LLMs), refers to the portion of text that the model can consider at once when generating or analyzing language. It is essentially the window through which the model "sees" and processes text, helping it understand the current context to make predictions, generate coherent sentences, or provide relevant responses.�[...]
Lorem ipsum …
Lorem ipsum …
6000 Token
10000 Token
Input Token
Output Token
1500 Token
1500 Token
What is a Context Window? Unlocking LLM Secrets. https://youtu.be/-QVoIxEpFkM
Embeddings
(beides Haustiere, Tiere, Säugetiere)
(Handlung, die mit Lebewesen assoziiert wird)�
Einbettungen wandeln diskrete Token (Wörter) in kontinuierliche numerische Vektoren in einem hochdimensionalen Raum um.
Deep Dive into LLMs like ChatGPT. https://youtu.be/7xTGNNLPyMI
Let's build the GPT Tokenizer. https://youtu.be/zduSFxRajkE
Embeddings
The King doth wake tonight and takes his rouse
“Modern Englisch”
The King wakes up tonight and begins his celebration
The King doth wake tonight and takes his rouse
“Shakespearean English”
The King wakes up tonight and begins his celebration, cat dog stone hybrid
The King wakes up tonight and begins his celebration, cat dog stone hybrid
The King wakes up tonight and begins his celebration, cat stone
The King wakes up tonight and begins his celebration, stoned cat
The King wakes up tonight and begins his celebration, cat dog stone hybrid
The King wakes up tonight and begins his celebration, cat
cat
dog
stone
hybrid
The King wakes up tonight and begins his celebration, dog hybrid
Kaffeepause (30min)
Danach geht’s weiter mit MHDBDB & ParzivAI
MHDBDB goes ParzivAI
Dr. Katharina Zeppezauer-Wachauer
Koordinatorin MHDBDB
Mittelhochdeutsche Begriffsdatenbank (MHDBDB)�http://mhdbdb.sbg.ac.at/
ParzivAL-Logo. Copyright: Thomas Renkert
Mittelhochdeutsche Begriffsdatenbank (MHDBDB)
Digitale Forschungsinfrastruktur für mittelalterliche Texte
Was ist die MHDBDB?
Wie funktioniert sie?
Wohin geht die Reise? - gemeinsam mit DHCraft
1970er
Fortran-Lochkarte, Copyright: Wikimedia Commons (CC-BY)
1980er
CP/M Microcomputer, Copyright: Wikimedia Commons (CC-BY)
1990er
2000er
2010er
2016 - 2024
(No money,
no honey.)
RDF
(Graphmodell)
TEI-XML
Subjekt – Prädikat – Objekt�
Beispiel:
Walther – istAutorVon – Under der linden
Semantisch annotierter Autorenvermerk
Beispiel: <author ref="http://d-nb.info/gnd/118633966"
>Walther von der Vogelweide</author>
RDF – leistungsfähig, aber für die MHDBDB schwierig
RDF (Resource Description Framework)
Technische Distanz zur Textstruktur
Fazit: RDF ist hervorragend für präzise, formale Repräsentation geeignet – doch komplexe Bedeutungsräume literarischer Texte lassen sich darin nur schwer adäquat abbilden.
Was KI an MHDBDB-TEI besser „lesen“ kann als an MHDBDB-RDF
Kognitive Nähe & Modellierungsparadigma
Annotationstiefe & Kontextbezug
Einfache Faustregel: Wenn der Mensch es gut lesen kann, kann die KI es gut „lesen“.
MHDBDB früher (GraphDB): Die Maschine muss es verstehen.
MHDBDB heute (Textmodell):
Der Mensch soll es verstehen – und die Maschine kann es auch.
Lemma mhd. linde
Bedeutung: Bäume
ParzivAL-Logo. Copyright: Thomas Renkert