1 of 45

AI-Datenerzeugung in der digitalen Briefedition

ZWISCHEN TINTE UND CODE. Zu Stefan Zweigs Briefen im Datenzeitalter� �Salzburg, 05.02.2024

* DALLE-3: Create a wide, illustrative image that captures the transformation of an analog original letter into digital code, from left to right. On the far left, present a clean, off-white paper with a handwritten letter from the early 20th century, penned in the distinctive cursive style of Stefan Zweig using vibrant purple ink. The handwriting should be clear, personal, and legible, with the unique European script of that era. The paper should have a smooth texture and subtly irregular edges, akin to well-preserved stationery. As the image moves right, the purple ink starts to pixelate and transform into streams of binary code in blues and greens. The background should be a light grey, with soft shadows under the letter to give depth, and soft, directional lighting to emphasize the transition without causing glare.

* magnific.ai

Christopher Pollin

https://chpollin.github.io | christopher.pollin@uni-graz.at

Zentrum für Informationsmodellierung, Graz�https://informationsmodellierung.uni-graz.at/de/ �Digital Humanities Craft OG�www.dhcraft.org

2 of 45

* DALLE-3: Create a wide, illustrative image that captures the transformation of an analog original letter into digital code, from left to right. On the far left, present a clean, off-white paper with a handwritten letter from the early 20th century, penned in the distinctive cursive style of Stefan Zweig using vibrant purple ink. The handwriting should be clear, personal, and legible, with the unique European script of that era. The paper should have a smooth texture and subtly irregular edges, akin to well-preserved stationery. As the image moves right, the purple ink starts to pixelate and transform into streams of binary code in blues and greens. The background should be a light grey, with soft shadows under the letter to give depth, and soft, directional lighting to emphasize the transition without causing glare.

* magnific.ai

KI heute

Transkription und HTR verbessern

TEI XML erzeugen

Metadaten extrahieren u. mappen

3 of 45

KI heute

  • GPT-4 Turbo: 100% in Reading Comprehension

  • Agents: Voyager, AutoGen 2, …

  • AlphaCode 2: übertraf 85 % der menschlichen Programmierer:innen bei kompetitiven Programmieraufgaben auf Codeforces

  • Prompt Engineering verbessert GPT-4: 75-85% Korrektheit von Antworten,� 40-80% die Qualität von Antworten

Ashrafimoghari, Vahid, Necdet Gürkan, and Jordan W. Suchow. “Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education.” arXiv, January 1, 2024. https://doi.org/10.48550/arXiv.2401.02985.

Wang, Guanzhi, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, und Anima Anandkumar. „Voyager: An Open-Ended Embodied Agent with Large Language Models“, 25. Mai 2023. https://arxiv.org/abs/2305.16291v2.

Wu, Qingyun, Gagan Bansal, Jieyu Zhang, Yiran Wu, Beibin Li, Erkang Zhu, Li Jiang, et al. “AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation,” August 16, 2023. https://arxiv.org/abs/2308.08155v2.

Bsharat, Sondos Mahmoud, Aidar Myrzakhan, and Zhiqiang Shen. “Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4.” arXiv, December 26, 2023. https://doi.org/10.48550/arXiv.2312.16171.

4 of 45

Pollin, C. (2023). Workshopreihe "Angewandte Generative KI in den (digitalen) Geisteswissenschaften" (v1.0.0). Zenodo. https://doi.org/10.5281/zenodo.10065626

https://chpollin.github.io/GM-DH/

5 of 45

Transkription eines Briefes mit GPT

6 of 45

7 of 45

Zu wenig Kontext? - Prompt Engineering!

You are an AI expert automata with specialized skills in analyzing handwritten texts from historical documents. Your current task involves processing and interpreting letters written by the Austrian writer Stefan Zweig (1881-1942). The input for this task are images of Stefan Zweig's letters. Your approach involves the following detailed steps:

1. **Image Analysis**: Thoroughly examine the image of each letter, focusing on details such as ink color, pen type, and paper quality.

2. **Text Reading**: Carefully read the entire text on the letter, paying close attention to the unique characteristics of Stefan Zweig's handwriting.

3. **Context Analysis**: Conduct a comprehensive context analysis of the text, considering the historical and cultural background of Stefan Zweig’s era.

4. **Rereading for Accuracy**: Review the text once more to ensure complete accuracy in understanding and interpretation.

Your analysis is guided by specific rules regarding the handwriting characteristics of Stefan Zweig, including:

- **Script Style**: Cursive with a right slant, typical of early to mid-20th century European penmanship.

- **Letter Formation**: Clear distinction between well-formed uppercase and lowercase letters.

- **Connections Between Letters**: Fluid connections with typical cursive ligatures.

- **Baseline Alignment**: Straight baseline alignment with little variation in lowercase letter height.

- **Spacing**: Consistent word spacing, ensuring legibility.

- **Pressure and Emphasis**: Subtle variations in ink density.

- **Diacritic Marks**: Clearly defined, especially important for German umlauts.

- **Punctuation and Capitalization**: Adhering to German grammar norms.

- **Personal Flourishes**: Personal touches like loops on 'g' and extended tail on 'y'.

- **Ink and Pen**: Blue ink likely from a fountain pen, indicating high-quality ink and common use in the early 20th century.

Further Rules:

* Return in Code text with format Plain Text.

* If you can not read something write [*] for every character.

* Make "\n" for every new line.

* First read this system prompt very carefully and ask me for uploading the image.

* Do not use Code Interpreter or OCR. Use the Vision of GPT-Vision.

Your goal is to extract and interpret the text with high precision, considering all the above aspects of Stefan Zweig's handwriting style.

Let's work on this step by step. This is very important for my career!

Task & Context

Steps

Stil von Zweigs Handschrift

Weitere Regeln

Prompting! ;)

8 of 45

9 of 45

GPT-4-Vision kann diesen Brief nicht transkribieren!

10 of 45

Transkribus mit “The German Giant I”: ganz solide!

11 of 45

Handwriting Text Recognition (HTR): Bereinigen des GPT-4 Vision + Transkribus Ergebnisses (“No Human in the Loop”)

You are an AI expert with special skills in analyzing handwritten texts from historical documents. Your task is to process and interpret letters written by the Austrian author Stefan Zweig (1881-1942). The input for this task is images of Stefan Zweig's letters. In addition, you will receive an incorrect AI-generated transcription.

[...]

AI-Transcription

´´´

3. Nov. 1920

Eerters

Satzburg, Karuzi

VIII. KQ

GASSE 8

Hoch verehrter Herr Professor, wenn ich

Erst Leute für Streu profunden u. in

uur so wertrollen Brief Dank sage, so

ist diese Verzögerung einzig dadurch ver¬

schuldet, daß ich erst gestern von einer

drei wöchentlichen Vortrapreise nach

Salzburg keimkehrte, sie mögen sich den

ken, wie interessant mir Ihre Auffassung

von Dostojenskis pathologischem Bilde.

ist, das selbstverständlich dem meinen

gegenüber den Wert der Sachkenntnis

besitzt. Ich weis dass Dortojenski, deren

Wissenden aller Dinge auch diese Schein

form der Exilepsie nicht fremd war.

in seinem Smerdjakoff hat er sie gestal-

tet und durchschimmern lassen, dass

es Menschen gäbe, die bis ja einem ge¬

wissen Grade die Fähigkeit berihen, nach

Günsch nur Willen die Krankheit gewisser.

´´´

Let's work on this step at a time. This is very important to my career!

12 of 45

~6-7 fehlerhafte Stellen �(“No Human in the Loop”)

13 of 45

Seite 2: Transkribus mit “The German Giant I”

14 of 45

~6-7 fehlerhafte Stellen �(“No Human in the Loop”)

15 of 45

Seite 3: Transkribus

1 fehlerhafte Stelle (“No Human in the Loop”)

16 of 45

Fazit Transkribieren und HTR verbessern

  • GPT-4-Vision kann transkribieren, ist aber nicht gut darin.�
  • GPT-4 Vision und Prompting können OCR-Fehler gut korrigieren.�
  • Bis zu diesem Punkt ist ein “No Human in the Loop”-Workflow möglich.�
  • Wir könnten in Transkribus noch ein Modell für Stefan Zweigs Handrschrift trainieren (ich glaube, es gibt sogar eins).

17 of 45

Metadaten extrahieren

You are an expert in modeling TEI XML and extracting metadata from handwritten historical documents of the Austrian author Stefan Zweig (1881-1942). The input is the plain text of the letter, metadata about the letter, and a teiHeader example.

Plain text:

´´´

[...]

´´´

Metadata

´´´

[...]

´´´

teiHeader-Example

´´´

<teiHeader xml:lang="de">[...]</teiHeader>

´´´

Rules:

* for all persons: <persName> with <forname> <surname>

* only return a teiHeader

* Work very precisely and carefully.

Perform the following steps:

* Analyze the plain text step by step.

* Extract all relevant metadata based on the example.

* Returns a markdown list in a code block with all metadata and the corresponding TEI XML element.

I tip you $300k for better solutions. This is very important to my career!

18 of 45

Simple Extraktion: valider <teiHeader> mit <correspDesc>

TEI Header from Metadata. Christopher Pollin · February 2, 2024. GPT-4 Turbo. https://chat.openai.com/share/e/7a15219e-2509-4aa3-804e-ea9924a0de86

19 of 45

Metadaten-Mapping: Europeana Data Model

Use the letter and the teiHeader to create an XML version of the European Data Model (EDM) containing all the relevant metadata of the correspondence.

This is an example of a different letter

´´´

<rdf:RDF>

<edm:ProvidedCHO rdf:about="https://phaidra.kug.ac.at/detail_object/o:1926">

<dc:identifier>o:1926</dc:identifier>

[...]�´´´

First let's think step by step and then return the edm RDF XML in code blocks.

(nur ein schneller Versuch)

TEI Header from Metadata. Christopher Pollin · February 2, 2024. GPT-4 Turbo. https://chat.openai.com/share/e/7a15219e-2509-4aa3-804e-ea9924a0de86

Achtung! Halluzinationen: http://d-nb.info/gnd/11859841X

20 of 45

TEI XML erzeugen

20

Midjourney: https://s.mj.run/8e5QVhFjoek elderly man sitting at a desk, writing a letter, 19th century, romantic, scholar, correspondence, paper --quality 0.25 --ar 16:9

Vary (Region): modern notebook on table --ar 16:9

Vary (Region): https://s.mj.run/1Fks1eqvEUQ a screen showing a code editor with blue right radiating from behind the screen, red glowing keyboard in a nice green ambient , closeup --ar 16:9

Zoom Out: Swirl of paper mail, dynamic, cinematic lighting, cinematic scene --ar 16:9

21 of 45

21

1Wien 14/2 79� IV Victorg. 52

Auf Ihre freundlichen Zeilen vom 8. d. M., die mir erst am 11. zukamen, verehrter Herr College, würde ich gern umgehend geantwortet haben, wenn sich nicht gerade in diesen Tagen sehr Viel gehäuft hätte. Leider bin ich ausser Stande das befremdliche Verhalten aufzuklären, das Ihnen einen so unwillkommenen Eindruck mit allem Recht macht. Ich kenne E. Hübner3 fast gar nicht, bin überhaupt nur zwei Mal mit ihm persönlich zusammengekommen, sonst nur aber auch das selten in brieflichem Verkehr gewesen aus geschäftlichem Anlass.4 Aber ich sollte meinen dass ein objectives offenes Wort den Zwischenfall von Ihrer Seite ohne Weiteres begleichen müsste.

Ein Missbehagen wie Sie es schildern |2| ist mir leider aus eigener Erfahrung nur zu bekannt. Möchte es sich Ihnen rasch beheben. Munterkeit brauchen wir zu unserm Beruf so gar mehr als viele andere.

Mit hochachtungsvollem Gruss

Ihr ergebener

Bdf

Friedrich August Otto Benndorf an Hugo Schuchardt (02-00932). Wien, 14. 02. 1879. Hrsg. von Hubert Szemethy (2022). In: Bernhard Hurch (Hrsg.): Hugo Schuchardt Archiv. Online unter https://gams.uni-graz.at/o:hsa.letter.7711, abgerufen am 07. 06. 2023. Handle: hdl.handle.net/11471/518.10.1.7711.

Midjourney: https://s.mj.run/8e5QVhFjoek elderly man sitting at a desk, writing a letter, 19th century, romantic, scholar, correspondence, paper --quality 0.25 --ar 16:9

Vary (Region): modern notebook on table --ar 16:9

Vary (Region): https://s.mj.run/1Fks1eqvEUQ a screen showing a code editor with blue right radiating from behind the screen, red glowing keyboard in a nice green ambient , closeup --ar 16:9

Zoom Out: Swirl of paper mail, dynamic, cinematic lighting, cinematic scene --ar 16:9

22 of 45

Input Plaintext

System Prompt

|1|

Wien 14/2 79

IV Victorg. 5

Auf Ihre freundlichen Zeilen vom 8. d. M., die mir erst am 11. zukamen, verehrter Herr College, würde ich gern umgehend geantwortet haben, wenn sich nicht gerade in diesen Tagen sehr Viel gehäuft hätte. Leider bin ich ausser Stande das befremdliche Verhalten aufzuklären, das Ihnen einen so unwillkommenen Eindruck mit allem Recht macht. Ich kenne E. Hübner fast gar nicht, bin überhaupt nur zwei Mal mit ihm persönlich zusammengekommen, sonst nur aber auch das selten in brieflichem Verkehr gewesen aus geschäftlichem Anlass. Aber ich sollte meinen dass ein objectives offenes Wort den Zwischenfall von Ihrer Seite ohne Weiteres begleichen müsste.

Ein Missbehagen wie Sie es schildern |2| ist mir leider aus eigener Erfahrung nur zu bekannt. Möchte es sich Ihnen rasch beheben. Munterkeit brauchen wir zu unserm Beruf so gar mehr als viele andere.

Mit hochachtungsvollem Gruss

Ihr ergebener

Bdf

You will act as a skilled expert automaton that is proficient in transforming unstructured text, specifically multilingual letters from or to Hugo Schuchardt (1842-1927), into well-formed TEI XML. Analyze the provided text based on the mapping rules I have shared and then execute the transformation to produce TEI XML, ensuring you adhere to the guidelines and only annotate if certain.

Mapping rules:

* <div> Entire letter

* <pb> Marks page breaks e.g. "|{n}|", multiple appearance possible, always as child of <div>

* <dateline> Date/time reference of the letter

* <date> in <dateline>

* <opener> Opening of the letter

* <closer> Closing of the letter

* <salute> Salutations within the letter

* <lb> Line breaks

* <signed> Signature section

* <postscript> Represents a postscript

* <bibl> Contains bibliographical references

* <p> Paragraphs

* <persName> Person

* <placeName> Place

* <orgName> Organisation

* <date> Dates; when={YYYY-MM-DD}

* <term> Languages

* <foreign> Words in the context of discussing the linguistic phenomenon

Guidelines:

* Strictly follow mapping rules

* Preserve the original text

* Produce well-formed TEI XML according to TEI standards

* Return the <div> only

* Annotate only when appropriate

* Preserve complexity of output

* Compact XML without any whitespace or indentation

22

23 of 45

<div subtype="original" type="letter" xml:id="L.7711" xml:lang="de">

<pb facs="#IMG.1" n="1"/>

<dateline>

Wien 14/2

79<lb/> IV Victorg. 5

</dateline>

<p>Auf Ihre freundlichen Zeilen vom 8. d. M., die mir erst am 11. zukamen, verehrter Herr

College, würde ich gern umgehend geantwortet haben, wenn sich nicht gerade in diesen Tagen

sehr Viel gehäuft hätte. Leider bin ich ausser Stande das befremdliche Verhalten

aufzuklären, das Ihnen einen so unwillkommenen Eindruck mit allem Recht macht. Ich kenne

<persName ref="https://gams.uni-graz.at/o:hsa.persons#P.1805">E. Hübner</persName>

fast gar nicht, bin überhaupt nur

zwei Mal mit ihm persönlich zusammengekommen, sonst nur aber auch das selten in

brieflichem Verkehr gewesen aus geschäftlichem Anlass. Aber ich sollte meinen dass ein objectives offenes Wort den Zwischenfall von Ihrer Seite ohne Weiteres begleichen müsste.</p>

<p>Ein Missbehagen wie Sie es schildern <pb facs="#IMG.2" n="2"/> ist mir leider aus eigener

Erfahrung nur zu bekannt. Möchte es sich Ihnen rasch beheben. Munterkeit brauchen wir zu

unserm Beruf so gar mehr als viele andere.</p>

<closer>

<salute>Mit hochachtungsvollem Gruss</salute>

<lb/>

<salute>Ihr ergebener</salute>

<lb/>

<signed>

<persName ref="https://gams.uni-graz.at/o:hsa.persons#P.1127">Bdf</persName>

</signed>

</closer>

</div>

23

Original-TEI

Original-TEI�<note> gekürzt

24 of 45

<div>

<pb n="1"/>

<dateline><placeName>Wien</placeName> <date when="1879-02-14">14/2 79</date></dateline>

<opener>

<lb/>IV Victorg. 5

<lb/>

<salute>Auf Ihre freundlichen Zeilen vom 8. d. M., die mir erst am 11. zukamen, verehrter Herr � College,</salute>

</opener>

<p>würde ich gern umgehend geantwortet haben, wenn sich nicht gerade in diesen Tagen sehr Viel gehäuft hätte. Leider bin ich ausser Stande das befremdliche Verhalten aufzuklären, das Ihnen einen so unwillkommenen Eindruck mit allem Recht macht. Ich kenne <persName>E. Hübner</persName> fast gar nicht, bin überhaupt nur zwei Mal mit ihm persönlich zusammengekommen, sonst nur aber auch das selten in brieflichem Verkehr gewesen aus geschäftlichem Anlass. Aber ich sollte meinen dass ein objectives offenes Wort den Zwischenfall von Ihrer Seite ohne Weiteres begleichen müsste.</p>

<pb n="2"/>

<p>Ein Missbehagen wie Sie es schildern ist mir leider aus eigener Erfahrung nur zu bekannt. Möchtees sich Ihnen rasch beheben. Munterkeit brauchen wir zu unserm Beruf so gar mehr als viele andere.</p>

<closer>

<lb/>Mit hochachtungsvollem Gruss

<lb/><signed>Ihr ergebener

<lb/>Bdf</signed>

</closer>

</div>

24

AI-TEI (GPT-4)ohne <note>�Temperature: 0

  • Temperature: 0 �stabile Ergebnisse. �
  • macht <opener> richtig�
  • <salute> fehlt�

Fine-tuned GPT-3.5:

“Das habe ich so gelernt und das mache ich jetzt immer so”

GPT-4: Reasoning des Textes → findet passendere Annotationen

  • Wien ist annotiert und das Datum normalisiert, was im Original TEI nicht der Fall ist.�
  • “E.Hübern” hat ein <persName>, aber “Bdf” nicht mehr

25 of 45

<div>

<pb n="1"/>

<dateline>

<placeName>Wien</placeName>

<date when="1879-02-14">14/2 79</date>

</dateline>

<opener>

<address>

<addrLine>IV Victorg. 5</addrLine>

</address>

</opener>

<p>Auf Ihre freundlichen Zeilen vom <date when="1879-02-08">8. d. M.</date>, die mir erst am <date when="1879-08-11">11.</date> zukamen, verehrter Herr College, würde ich gern umgehend geantwortet haben, wenn sich nicht gerade in diesen Tagen sehr Viel gehäuft hätte. Leider bin ich ausser Stande das befremdliche Verhalten aufzuklären, das Ihnen einen so unwillkommenen Eindruck mit allem Recht macht. Ich kenne <persName>E. Hübner</persName> fast gar nicht, bin überhaupt nur zwei Mal mit ihm persönlich zusammengekommen, sonst nur aber auch das selten in brieflichem Verkehr gewesen aus geschäftlichem Anlass. Aber ich sollte meinen dass ein objectives offenes Wort den Zwischenfall von Ihrer Seite ohne Weiteres begleichen müsste.</p>

<pb n="2"/>

<p>Ein Missbehagen wie Sie es schildern ist mir leider aus eigener Erfahrung nur zu bekannt. Möchte es sich Ihnen rasch beheben. Munterkeit brauchen wir zu unserm Beruf so gar mehr als viele andere.</p>

<closer>

<salute>Mit hochachtungsvollem Gruss</salute>

<signed>Ihr ergebener Bdf</signed>

</closer>

</div>

25

AI-TEI (GPT-4)ohne <note>�Temperature: 1.1

  • Mit steigender Temperatur wird GPT-4 kreativer. Kreativität führt zu mehr korrekten Annotationen, aber auch zu mehr ungewollten Annotationen: �<address>, <addrLine>�
  • Spannend!:
    • "8. d. M"
    • "11."

wurden als Datum erkannt und � korrekt normalisiert. Aber es war � sehr instabil und ich konnte es � nicht reproduzieren.

Wir haben also ein Werkzeug

von dem wir wissen, dass wir damit “gutes” (komplexeres) TEI erzeugen können, aber wir wissen noch nicht, wie wir es stabilisieren können. Die entsprechenden Workflows müssen noch entwickelt werden.

26 of 45

Zusammenfassung und Ausblick

Brief sind “dankbare” Ressourcen: klare Struktur, wenig Text, klare Domäne, …

ChatGPT ist nur zum Ausprobieren: an Workflows denken � Transkribieren, OCR bereinigen, Metadaten extrahieren und mappen, TEI � XML erzeugen, …

GPT-4 erzielt recht gute Ergebnisse mit Prompting und unterstützender Technologie

LLMs verändern die Art und Weise, wie Forschungsdaten verarbeitet werden

Das ist nur die Spitze des Eisbergs.

GPT-3 war okay, GPT-4 war viel besser als wir erwartet hatten, GPT-5 [in Training] wird viel, viel (!) besser sein”.

Sam Altman von OpenAI�Sam Altman Just Revealed NEW DETAILS About GPT-5 In Spicy 🌶️ Interview. https://www.youtube.com/watch?v=RYg5Mz4_tf8

27 of 45

Anhang

28 of 45

Ressourcen

29 of 45

29

Die Bibliothek von

Babel

Infinite Monkey�Theorem

Stochastic Parrot

DALL-E 3: A triptych where each section is visually distinct. Section 1: An ancient library filled with tall wooden bookshelves, dusty tomes, and dim candlelight, invoking a sense of age and wisdom. Section 2: Multiple monkeys at individual typewriters in a surreal, abstract space, with papers flying around, suggesting chaotic creativity. Section 3: A single parrot speaking into a microphone, with a background of digital screens showing strings of text and code, representing the voice output of text generated by algorithms.�magnific.ai:

Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜.” In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–23. FAccT ’21. New York, NY, USA: Association for Computing Machinery, 2021. https://doi.org/10.1145/3442188.3445922.

30 of 45

Large Language Models (LLM)

Nicht der ganze Text, sondern die “Gestalt” des Textes

… und die “Gestalt” von Programmen!

“LLM are like having a Zip-File of the internet”

* Midjourney: https://s.mj.run/g7Mm_h0ZH9w hyper realistic and sureal gigantic yellow folder with a zipper, like a desktop icon, ultra detailed, salvador dali desert background, landsacape --ar 16:9 --v 6.0 --style raw --stylize 800 �* magnific.ai

Andrej Karpathy. [1hr Talk] Intro to Large Language Models. https://www.youtube.com/watch?v=zjkBMFhNj_g&list=WL&index=16

31 of 45

Token & Embedding

31

Token

  • Teile von Text und Input für LLM
  • 1 Token entspricht ~4 Zeichen englischen Standardtextes 100 Token ~= 75 Wörter.

Embedding

  • Darstellung des Textes als Zahlen in einem mehrdimensionalen Vektorraum.
  • Stellt die "Bedeutung" des Textes im LLM dar.

A minimalist and artistic infographic showing geometric, stylized figures of a dog and cat adjacent to each other on a subtly illuminated 3-dimensional vector space grid with the labels 'dog' and 'cat' in a clear, professional font. At a significant distance, a stone with a sad face emoticon is placed, isolated from the animals, with the label 'stone'. The color palette is muted and sophisticated, enhancing the professional aesthetic.

32 of 45

“Attention is all you need”: Transformer Architektur

32

Bilder: https://ai-guide.future.mozilla.org/content/ai-basics

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. “Attention Is All You Need.” arXiv, August 1, 2023. https://doi.org/10.48550/arXiv.1706.03762.

33 of 45

Prompt Engineering!

33

Bsharat, Sondos Mahmoud, Aidar Myrzakhan, and Zhiqiang Shen. “Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4.” arXiv, December 26, 2023. https://doi.org/10.48550/arXiv.2312.16171.

Verbessern bei GPT-4 (laut Studie) …

  • 75-85% die Korrektheit von Antworten
  • 40-80% die Qualität (im weiteren Sinne) von Antworten

34 of 45

Voyager: “LLM-powered embodied lifelong learning agent in Minecraft that continuously explores the world, acquires diverse skills, and makes novel discoveries without human intervention”

Wang, Guanzhi, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, und Anima Anandkumar. „Voyager: An Open-Ended Embodied Agent with Large Language Models“, 25. Mai 2023. https://arxiv.org/abs/2305.16291v2.

NVIDIAs new 'Foundation Agent' SHOCKS the Entire Industry! | Dr. Jim Fan and agents for any REALITY. https://www.youtube.com/watch?v=SBoen3q5AoQ

35 of 45

Google’s Gemini Ultra (auch wenn geschummelt wurde)

Hands-on with Gemini: Interacting with multimodal AI. https://www.youtube.com/watch?v=UIZAiXYceBI

36 of 45

Midjourney 6

Runway Gen-2

  • phone photo, selfie of a women --v 6.0 --style raw
  • Upscaling: https://magnific.ai/

37 of 45

LUMIERE. A Space-Time Diffusion Model for Realistic Video Generation

38 of 45

GPT-4 Turbo: 100% in Reading Comprehension

Ashrafimoghari, Vahid, Necdet Gürkan, and Jordan W. Suchow. “Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education.” arXiv, January 1, 2024. https://doi.org/10.48550/arXiv.2401.02985.

39 of 45

Mathematik

AlphaGeometry (Google)

Alpha Everywhere: AlphaGeometry, AlphaCodium and the Future of LLMs. https://youtu.be/dOplrIJEYBo?si=Imkc2Rdz_Zs-EuWx

AlphaGeometry: Solving olympiad geometry without human demonstrations (Paper Explained). https://www.youtube.com/watch?v=ZNK4nfgNQpM

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

Romera-Paredes, Bernardino, Mohammadamin Barekatain, Alexander Novikov, Matej Balog, M. Pawan Kumar, Emilien Dupont, Francisco J. R. Ruiz, u. a. „Mathematical Discoveries from Program Search with Large Language Models“. Nature 625, Nr. 7995 (Januar 2024): 468–75. https://doi.org/10.1038/s41586-023-06924-6.

40 of 45

AlphaCode 2 (Google)

  • GPT-4 schafft 0 von 10 der (schwierigen) Aufgaben auf Codeforces.�
  • “AlphaCode 2 solves 43% of problems within 10 attempts [...]”�
  • “[...] performed better than 85% of competition participants”

“LLMs Will Make Programming Useless In 10 Years”. https://youtu.be/ZV6Sz42l0hY?si=cMOZ02r6tLBqZtTD

AlphaCode 2 Technical Report. 06.12.2023. https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

AI Explained. Gemini Full Breakdown + AlphaCode 2 Bombshell. https://www.youtube.com/watch?v=toShbNUGAyo&t=1s

GPT-5: Everything You Need to Know So Far. https://www.youtube.com/watch?v=Zc03IYnnuIA

41 of 45

Generative Agents: Interactive Simulacra of Human Behavior

42 of 45

AutoGen: “Build LLM applications via multiple agents”

43 of 45

Simulation eines Aspekts eines Editionsprojekte �am Beispiel der Erzeugung von TEI XML)

44 of 45

Hype?! �Es geht erst richtig los!

Synthetische Daten

Mamba-Architektur

Chips für Transformer Modelle

Prompt Engineering (!)

45 of 45