1 of 92

Datenmodellierung und Datenarchitektur, Datenselektion, Datenbereinigung

Data Librarian. VU Datenbasierte Wissensproduktion und -organisation. 22.05.2024

Christopher Pollin

Christian Steiner�Digital Humanities Craft OGwww.dhcraft.org

2 of 92

Lernziele

  • RDF lesen und schreiben können
  • Grundbegriffe des Semantic Web & Linked Open Data erklären können
  • SPARQL, Wikidata beschreiben können
  • Einfache Datenbereinigung und semantische Anreicherung mit OpeRefine durchführen können.

Agenda

  • Daten - Information - Wissen
  • (Daten)Modellierung
  • Graphen - RDF & RDFS - Semantic Web
  • Generative KI und Prompt Engineering (Exkurs)
  • Linked Open Data
  • Wikidata & SPARQL
  • Data Wrangling & OpenRefine

3 of 92

Christian Steiner

https://chsteiner.github.io

Christopher Pollin

https://chpollin.github.io

4 of 92

Beurteilung

Aktive Teilnahme

Fertigstellung und Überarbeitungen der begonnenen Übungen bis zum 30.06.2024

Assignment: RDF

ODER

Assignment: OpenRefine

Die Übungen im Laufe des heutigen Tages müssen nicht richtig sein. Hier gilt es einfach auszuprobieren, damit man dann fragen und diskutieren kann.

5 of 92

Gemeinsame Umfrage

  • Hast du schon einmal Daten modelliert?
    • Ja: IIIII
    • Nein: | IIIIiIIIIIII
  • Hast du schon mit XML/TEI, RDF, SPARQL, OpenRefine oder LLMs gearbeitet?
    • Xml: ;IIIi
    • Rdf: I
    • Sparql:I
    • Openrefine:
    • llms:IIi
  • Hast du schon Datenbanken mit SQL, Access erstellt?
    • Datenbanken:IIII
    • SQL:IIII
    • Access: IiI
  • Kennst du die FAIR-Kriterien?
    • Ja: IiIIIIiIIIIIIII
    • Nein:
  • Weißt du, was Linked (Open) Data ist?
    • Ja: IIIiIIiIIIIIIII
    • Nein:
  • Arbeitest du in den NaWi, GeWi, ReWi oder SoWi? Oder in einem anderen Bereich?
    • NaWi I
    • GeWi IIIIiIIII
    • ReWi
    • SoWI IiI
    • Anderes: I

6 of 92

Weisheit

Wissen

Information

Daten

Rowley, Jennifer E. “The Wisdom Hierarchy: Representations of the DIKW Hierarchy.” Journal of Information Science 33 (2007): 163–80. https://www-public.imtbs-tsp.eu/~gibson/Teaching/Teaching-ReadingMaterial/Rowley06.pdf.

Favre-Bulle, Bernard. Information Und Zusammenhang: Informationsfluß in Prozessen Der Wahrnehmung, Des Denkens Und Der Kommunikation. Wien, New York: Springer, 2001.

Meadows, Jack. Understanding Information. Berlin, Boston: K. G. Saur, 2019. https://doi.org/doi:10.1515/9783110950007.

Kuhlen, Rainer, Dirk Lewandowski, Wolfgang Semar, and Christa Womser-Hacker, eds. Grundlagen der Informationswissenschaft. Grundlagen der Informationswissenschaft. Berlin, Boston: De Gruyter Saur, 2023. https://doi.org/10.1515/9783110769043.

7 of 92

Daten bestehen aus rohen, unverarbeiteten Symbolen, Messungen oder Beobachtungen aus diversen Quellen in verschiedenen Formaten, die durch Verarbeitung und Kontextualisierung in Informationen und Wissen transformiert werden.

Informationen entstehen durch die Verarbeitung und Organisation von Daten, die durch spezifische Anforderungen strukturiert und somit in nützliche, verständliche Ressourcen für Entscheidungen und Analysen umgewandelt werden.

Wissen ist die Anwendung und Synthese von Informationen zu tiefgreifenden Einsichten oder Praktiken, die das Verständnis erweitern und komplexe Probleme lösen, indem sie persönliche und kontextuelle Erfahrungen integrieren.

Wie finden Sie die folgenden Definitionen?

8 of 92

Das sind (halluzinierte) Definitionen von GPT-4 Turbo + Prompt Engineering: https://chat.openai.com/c/9beafc3b-221e-416b-9f0a-6ef7e58133df

Synthese

Synthese

Synthese

9 of 92

Hands-On: Daten - Information - Wissen

Recherche:

  • Nutze GPT-4, GPT-3.5, Claude oder Perplexity.ai, um Definitionen der Begriffe „Daten“, „Information“ und „Wissen“ zu recherchieren. Du kannst hier übrigens ganz viele LLM gratis ausprobieren: https://chat.lmsys.org.
  • GPT-4o: https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/
  • Alternativ kannst du vorhandene Definitionen aus deinem Fachbereich verwenden oder deine eigenen Definitionen einbringen.

Diskussion:

  • Stelle die recherchierten Definitionen im Plenum kurz vor.
  • Reflektiere über ihre Eignung und Bedeutung in deinem Fachgebiet. Du kannst gerne folgende Erschließungsfragen dabei berücksichtigen:
    1. Wie unterscheiden sich die KI-generierten Definitionen von den traditionellen Definitionen in deinem Fachbereich?
    2. Inwiefern beeinflussen die Definitionen von Daten, Information und Wissen die Forschung in deinem Fach?
    3. Welche Rolle spielt der Kontext bei der Umwandlung von Daten in Informationen und Wissen?

10 of 92

DIKW-Hierarchy

Rowley, Jennifer E. “The Wisdom Hierarchy: Representations of the DIKW Hierarchy.” Journal of Information Science 33 (2007): 163–80. https://www-public.imtbs-tsp.eu/~gibson/Teaching/Teaching-ReadingMaterial/Rowley06.pdf.

Algorithmisch vs. programmierbar.

Bedeutung vs. Wertigkeit

Struktur vs. Bindung an kognitive Agenten

11 of 92

Daten in den Geisteswissenschaften

a selectively constructed, machine-actionable abstraction that represents some aspects of a given object of humanistic inquiry.

Schöch, Christof. “Big? Smart? Clean? Messy? Data in the Humanities.” Journal of Digital Humanities 2, no. 3 (2013): 2–13.

capta:that which is recorded or collected”��data: “that which is given

Drucker, Johanna. “Humanities Approaches to Graphical Display.” Digital Humanities Quarterly 5, no. 1 (2011): 1–21.

12 of 92

Monday September-15th-1828

Settled Derius Drake DR

To ax dlvd By Puffer 9/1 1 50

(Historische) Daten

DALL-E 3 + magnific.ai : A vivid, historical scene set in a small, rural American village in the early 19th century. In the foreground, two men are conducting a transaction. One man, middle-aged with a rugged appearance, wearing a simple shirt, waistcoat, and trousers with suspenders, receives an ax from a younger, less robust man similarly dressed. The ax has a wooden handle and polished iron head. The setting includes rustic wooden buildings, a dirt road, and surrounding forests. Additional details include bystanders, a wooden cart, and a horse, under soft morning light.

Repräsentiert

13 of 92

Monday September-15th-1828

Settled Derius Drake DR

To ax dlvd By Puffer 9/1 1 50

(Historische) Information

Kontextualisierung

Aktion

Wissen

(Historische) Daten

  • Thaller, Manfred. „On Information in Historical Sources“. A Digital Ivory Tower. Prolegomena for a computer science for historical studies (blog), 24. April 2018. https://ivorytower.hypotheses.org/56.
  • Beretta, Francesco. “Semantic Data for Humanities and Social Sciences (SDHSS): An Ecosystem of CIDOC CRM Extensions for Research Data Production and Reuse,” 2024. https://doi.org/10.33968/9783966270502-05.

14 of 92

(Daten)Modellierung

Flanders, J., & Jannidis, F. (Eds.). (2018). The shape of data in digital humanities: modeling texts and text-based resources. Routledge. https://doi.org/10.4324/9781315552941.

Jannidis, F. (2017). Grundlagen der Datenmodellierung. In Digital Humanities: Eine Einführung, herausgegeben von Fotis Jannidis, Hubertus Kohle, und Malte Rehbein, 99–108. Stuttgart: J.B. Metzler.

Ciula, Arianna, Øyvind Eide, Cristina Marras, und Patrick Sahle. Modelling Between Digital and Humanities: Thinking in Practice. Open Book Publishers, 2023. https://doi.org/10.11647/obp.0369.

Ciula, Arianna, Øyvind Eide, Cristina Marras, und Patrick Sahle. „Models and Modelling between Digital and Humanities: Remarks from a Multidisciplinary Perspective“. Historical Social Research 43, Nr. 4 (2018): 343–61. https://doi.org/10.12759/hsr.43.2018.4.343-361.

15 of 92

  • Repräsentation�
  • Abstraktion &�Reduktion�
  • Praktikabilität & Zweckmäßigkeit

16 of 92

FAIR Data Principles

&

Modellierung

Wilkinson, Mark D, Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. “The FAIR Guiding Principles for Scientific Data Management and Stewardship.” Scientific Data 3, no. 1 (2016): 1–9.

https://www.go-fair.org/fair-principles/fairification-process

FAIRification Process

17 of 92

Monday September-15th-1828

Settled Derius Drake DR

To ax dlvd By Puffer 9/1 1 50

Settled By cutting two sticks Cr

109 Pliny Puffer Cr

By 1 ax dlv.d. Drake 9/ 1 50

342 Asa Danforth Cr

By drawing two logs from Rogers

Monday Sept. 22d 1828

342 Asa Danforth Cr

By 1 Days work with oxen, wheels, &

Settled Derius Drake D

To order upon T. Smith for 3/ 50

"

By 1 Days work CrOctober 3d 1828

25 Thomas Danforth 2d

To 1 lb. 4d Cut Nails .8

" 1 Buss. Rye 90t 90 98

Settled Nathaniel Lincoln D

To cash 8/ 50

342 Asa Danforth C

By drawing two sticks from Mss Bowend

Laban Morey Wheaton Day Book 1828-1829 & 1831-1832. https://gams.uni-graz.at/o:depcha.wheaton.1#WH_IMG.001

18 of 92

Monday September-15th-1828

Settled Derius Drake DR

To ax dlvd By Puffer 9/1 1 50

Settled By cutting two sticks Cr

109 Pliny Puffer Cr

By 1 ax dlv.d. Drake 9/ 1 50

342 Asa Danforth Cr

By drawing two logs from Rogers

Monday Sept. 22d 1828

342 Asa Danforth Cr

By 1 Days work with oxen, wheels

Settled Derius Drake D

To order upon T. Smith for 3/ 50

"

By 1 Days work Cr

October 3d 1828

25 Thomas Danforth 2d

To 1 lb. 4d Cut Nails .8

" 1 Buss. Rye 90t 90 98

Settled Nathaniel Lincoln D

To cash 8/ 50

342 Asa Danforth C

By drawing two sticks from Mss Bowend

Hands-On: Von Daten zum Modell

  1. Identifizieren der wichtigsten Entitäten
  2. Datum
  3. Transaktionen
  4. Personen
    • Käufer
    • Verkäufer
  5. Gegenbuchung
  6. Wirtschaftsgüter
    • Dienstleistungen
    • Güter
  7. Geldbeträge

  • Definieren von Attributen für jede Entität
  • Personen
    • Namen
      • Vornamen
      • Nachnamen
  • Geldbeträge
    • Währung
    • Quantität

  • Definieren von Beziehungen

  • Person ist beteiligt in einer Transaktion

19 of 92

Identifizieren der wichtigsten Entitäten

Entität

Definition

Beispiel

Transaktionen

Einzelne Aufzeichnungen von Austausch oder finanziellen Aktivitäten.

"By 1 Days work Cr"

Personen

Personen, die als Gläubiger oder Schuldner an Transaktionen beteiligt sind.

Derius Drake

Waren/Dienstleistungen

Gegenstände oder Dienstleistungen, die in Transaktionen ausgetauscht werden.

1 lb. 4d Cut Nails (1 Pfund 4d Nägel)

Konten

Finanzberichte, die den Kredit- und Debitstatus von Personen verfolgen.

Konto, das mit Asa Danforth verbunden ist

Einträge

Datumsbezogene Logeinträge, die mehrere Transaktionen enthalten können.

Eintrag für "Montag, 15. September 1828"

Ereignisse

Spezifische Vorkommnisse oder Aktionen, die in Transaktionen vermerkt sind.

Kontoausgleich

Datum

Eindeutige Zeitpunkte, zu denen Transaktionen aufgezeichnet werden.

15. September 1828

20 of 92

Definieren von Attributen

für jede Entität

Transaktionen

  • Transaktions-ID: Eindeutige Kennung jeder Transaktion.
  • Datum, Person, Konto, Ereignis: IDs verlinkt zu den entsprechenden Entitäten.
  • Beschreibung: Kurzbeschreibung der Transaktion.
  • Betrag: Monetärer Wert der Transaktion.
  • Transaktionstyp: Kredit oder Debit.�

Personen

  • Personen-ID: Eindeutige Kennung.
  • Name: Vollständiger Name.
  • Rolle: Rolle in Transaktionen (z.B. Gläubiger, Schuldner).

Waren/Dienstleistungen

  • Waren/Dienstleistungs-ID: Eindeutige Kennung.
  • Beschreibung: Detaillierte Beschreibung des Artikels oder der Dienstleistung.
  • Einheitspreis: Kosten pro Einheit.
  • Maßeinheit: Maßeinheit der Ware oder Dienstleistung.

Konten

  • Konto-ID: Eindeutige Kennung.
  • Personen-ID: Besitzer des Kontos.
  • Saldo: Aktueller Kontostand.
  • Datum der letzten Transaktion: Datum der letzten Transaktion.

Einträge

  • Eintrags-ID: Eindeutige Kennung.
  • Datum und Beschreibung: Verlinkt zum Datum und Zusammenfassung des Eintrags.

Ereignisse

  • Ereignis-ID: Eindeutige Kennung.
  • Beschreibung: Beschreibung des Ereignisses.

Daten

  • Datums-ID: Eindeutige Kennung.
  • Datum: Kalenderdatum der Transaktionen oder Einträge.

21 of 92

Definieren

von Beziehungen

22 of 92

Tabelle

| Transaction ID | Date | Person | Account ID | Event | Description | Amount | Transaction Type |

|----------------|------------|--------------|------------|-----------------------|-----------------------------------------|---------------|------------------|�| 001 | 1828-09-15 | Derius Drake | | Ax delivered by Puffer | Settled transaction for ax | 1.50 | Debit |

| 002 | 1828-09-15 | Pliny Puffer | 109 | Cutting two sticks | Credit for cutting two sticks | Not specified | Credit |

| 003 | 1828-09-15 | Derius Drake | | Ax delivered by Drake | Settled transaction for ax | 1.50 | Debit |

| 004 | 1828-09-22 | Asa Danforth | 342 | Day's work with oxen, wheels | Credit for drawing two logs from Rogers | Not specified | Credit |

23 of 92

XML

<Transactions>

<Transaction>

<TransactionID>001</TransactionID>

<Date>1828-09-15</Date>

<Person>Derius Drake</Person>

<AccountID></AccountID>

<Event>Ax delivered by Puffer</Event>

<Description>Settled transaction for ax</Description>

<Amount>1.50</Amount>

<TransactionType>Debit</TransactionType>

</Transaction>

<Transaction>

<TransactionID>002</TransactionID>

<Date>1828-09-15</Date>

<Person>Pliny Puffer</Person>

<AccountID>109</AccountID>

<Event>Cutting two sticks</Event>

<Description>Credit for cutting two sticks</Description>

<Amount>Not specified</Amount>

<TransactionType>Credit</TransactionType>

</Transaction>

<Transaction>

<TransactionID>003</TransactionID>

<Date>1828-09-15</Date>

<Person>Derius Drake</Person>

<AccountID></AccountID>

<Event>Ax delivered by Drake</Event>

<Description>Settled transaction for ax</Description>

<Amount>1.50</Amount>

<TransactionType>Debit</TransactionType>

</Transaction>

</Transactions>

24 of 92

Graph - RDF

@prefix : <http://example.org/transaction/>.

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.

@prefix xsd: <http://www.w3.org/2001/XMLSchema#>.

# Define the Person class

:Person a rdfs:Class.

# Define the Transaction class

:Transaction a rdfs:Class.

# Define the Account class

:Account a rdfs:Class.

# Persons

:DeriusDrake a :Person;

rdfs:label "Derius Drake".

:PlinyPuffer a :Person;

rdfs:label "Pliny Puffer".

:AsaDanforth a :Person;

rdfs:label "Asa Danforth".

# Accounts

:Account109 a :Account;

rdfs:label "Account 109".

:Account342 a :Account;

rdfs:label "Account 342".

# Transactions

:Transaction001 a :Transaction;

:date "1828-09-15"^^xsd:date;

:involvedPerson :DeriusDrake;

:event "Ax delivered by Puffer";

:description "Settled transaction for ax";

:amount "1.50"^^xsd:decimal;

:transactionType "Debit".

:Transaction002 a :Transaction;

:date "1828-09-15"^^xsd:date;

:involvedPerson :PlinyPuffer;

:involvedAccount :Account109;

:event "Cutting two sticks";

:description "Credit for cutting two sticks";

:transactionType "Credit".

:Transaction003 a :Transaction;

:date "1828-09-15"^^xsd:date;

:involvedPerson :DeriusDrake;

:event "Ax delivered by Drake";

:description "Settled transaction for ax";

:amount "1.50"^^xsd:decimal;

:transactionType "Debit".

:Transaction004 a :Transaction;

:date "1828-09-22"^^xsd:date;

:involvedPerson :AsaDanforth;

:involvedAccount :Account342;

:event "Day's work with oxen, wheels";

:description "Credit for drawing two logs from Rogers";

:transactionType "Credit".

25 of 92

Graphen

RDF

Semantic Web

Hitzler, Pascal. „A review of the semantic web field“. Communications of the ACM 64, Nr. 2 (2021): 76–83. https://doi.org/10.1145/3397512.

26 of 92

“RAW DATA NOW!”

Web of Documents

Web of Data

Tim Berners-Lee: The next Web of open, linked data. 2009. https://youtube/OM6XIICm_qo?t=655

27 of 92

Wikidata und DBpedia

28 of 92

The 5-Star Model

Linked Open Data Principles

  1. Use URIs as names for things�
  2. Use HTTP URIs so that people can look up those names.�
  3. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL)�
  4. Include links to other URIs. So that they can discover more things.

Berners-Lee, Tim. „Linked Data“, 2006. https://www.w3.org/DesignIssues/LinkedData.html. �Blaney, Jonathan. „Introduction to the Principles of Linked Open Data“. Programming Historian, 7. Mai 2017. https://programminghistorian.org/en/lessons/intro-to-linked-data.

29 of 92

Berners-Lee, Tim, James Hendler, und Ora Lassila. „The Semantic Web“. Scientific American 284, Nr. 5 (2001): 34–43. https://www.jstor.org/stable/pdf/26059207.pdf?refreqid=excelsior%3A1d9c33aa1ea640d57940082b42df15e6

30 of 92

Web of Data vs. Linked Data vs. Semantic Web

Semantic Web or Web of Data? A Diachronic Study (1999 to 2017) of the Publications of Tim Berners‐Lee and the World Wide Web Consortium. https://www.researchgate.net/publication/326415631_Semantic_Web_or_Web_of_Data_A_Diachronic_Study_1999_to_2017_of_the_Publications_of_Tim_Berners-Lee_and_the_World_Wide_Web_Consortium, 23.03.2021.

31 of 92

Semantic Web

�aka.

Web Of Data Technology Stack

Knowledge Engineering with Semantic Web Technologies by Harald Sack: https://www.youtube.com/playlist?list=PLoOmvuyo5UAcBXlhTti7kzetSsi1PpJGR

Semantic Web Layer Cake Tweak, Explained:

https://medium.com/openlink-software-blog/semantic-web-layer-cake-tweak-explained-6ba5c6ac3fab

32 of 92

Uniform Resource Identifier / �Internationalized Resource identifier

33 of 92

RDF - Resource Description Framework - Turtle Serialisation

@prefix example: <http://example.org/> .

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

@prefix foaf: <http://xmlns.com/foaf/0.1/> .

@prefix rel: <http://www.perceive.net/schemas/relationship/> .

<example:green-goblin>

rel:enemyOf <example:spiderman> ;

a foaf:Person ;

foaf:name "Green Goblin" .

<example:spiderman>

rel:enemyOf <example:green-goblin> ;

a foaf:Person ;

foaf:name "Spiderman";

foaf:name "Человек-паук"@ru .

34 of 92

RDFS - Resource Description Framework Schema

Corn

Poales

Food

Plant

rdfs:subClassOf

rdfs:subClassOf

rdfs:subClassOf

rdf:type

ex:basisFor

Popcorn

35 of 92

OWL - Web Ontology Language

36 of 92

SPARQL Query Language for RDF

PREFIX foaf:<http://xmlns.com/foaf/0.1/>

SELECT ?name ?mbox

WHERE

{ ?x foaf:name ?name .

?x foaf:mbox ?mbox }

37 of 92

38 of 92

The Resource Description Framework (RDF)

Schreiber, Guus, und Yves Raimond. „RDF 1.1 Primer.“ W3C, 2014. http://www.w3.org/TR/rdf11-primer. �

Tomaszuk, Dominik, und David Hyland-Wood. „RDF 1.1: Knowledge Representation and Data Integration Language for the Web“. Symmetry 12, Nr. 1 (2. Januar 2020): 84. https://doi.org/10.3390/sym12010084.�

03.5 - ISE2021 - Resource Description Framework RDF as simple Data Model. https://youtu.be/-aB_C-jzA2M?si=HhapkJmfzGLZMZIF

03.5b - RDF Turtle Serialization. https://youtu.be/1lI-j_LGQ74?si=ijcw3LiXtYLhUvCy

39 of 92

RDF - Sample

<Bob> <is a> <Person>.�

<Bob> <is friend of> <Alice>.�

<Bob> <is born on><the 4th of July 1990>.�

<Bob> <is interested in> � <the Mona Lisa>.�

<Mona Lisa> <was created by><Leonardo da Vinci>.�

<'La Joconde à Washington'> <is about><the Mona Lisa>.

Schreiber, Guus, und Yves Raimond. „RDF 1.1 Primer.“ W3C, 2014. http://www.w3.org/TR/rdf11-primer.

40 of 92

RDF Turtle Serialisation

BASE <http://example.org/>

PREFIX foaf: <http://xmlns.com/foaf/0.1/>

PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

PREFIX schema: <http://schema.org/>

PREFIX dcterms: <http://purl.org/dc/terms/>

PREFIX wd: <http://www.wikidata.org/entity/>

# Bob's personal information

<bob> a foaf:Person ;

foaf:knows <alice> ;

schema:birthDate "1990-07-04"^^xsd:date ;

foaf:topic_interest wd:Q12418 .

# Information about the Mona Lisa

wd:Q12418

dcterms:title "Mona Lisa" ;

dcterms:creator <http://dbpedia.org/resource/Leonardo_da_Vinci> .

# Europeana data item linked to the Mona Lisa

<http://data.europeana.eu/item/04802/243FA8618938F4117025F17A8B813C5F9AA4D619>

dcterms:subject wd:Q12418 .

41 of 92

Converting RDF and visualize it

RDF and Editor

42 of 92

Hands-On: RDF Graph erweitern, validieren und zeichnen

@prefix : <http://example.org/transaction/>.

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.

@prefix xsd: <http://www.w3.org/2001/XMLSchema#>.

# Classes

:Person a rdfs:Class.

:Transaction a rdfs:Class.

:Account a rdfs:Class.

# Individuals

:DeriusDrake a :Person;

rdfs:label "Derius Drake".

:Account109 a :Account;

rdfs:label "Account 109".

:Transaction007 a :Transaction;

:date "1828-09-15"^^xsd:date;

:involvedPerson :DeriusDrake;

:involvedAccount :Account109;

:event "Ax delivery by Puffer";

:description "Settlement for ax delivered on September 1st";

:amount "1.50"^^xsd:decimal;

:transactionType "Debit".

Monday September-15th-1828

Settled Derius Drake DR

To ax dlvd By Puffer 9/1 1 50

Füge eine weitere Transaktion hinzu: Derius Drake kauft einen Apfel um 1 $ von Laban Morey Wheaton.

Validiere und Visualisiere den RDF Graph.

Auf den folgenden Folien gibt es Tipps und Lösungen.

43 of 92

Hinweise und Tipps

  • Als .ttl abspeichern.
  • Easy RDF: validieren und konvertieren
  • Visual Studio Code mit Extension
  • GPT-4o als Tutor-Tool verwenden.
  • (GPT-4o) liefert ziemlich sicher beim Prompt der Angabe die korrekte Ausgabe.

44 of 92

Easy RDF: validieren und konvertieren

45 of 92

46 of 92

47 of 92

@prefix : <http://example.org/transaction/>.

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.

@prefix xsd: <http://www.w3.org/2001/XMLSchema#>.

# Classes

:Person a rdfs:Class.

:Transaction a rdfs:Class.

:Account a rdfs:Class.

# Individuals

:DeriusDrake a :Person;

rdfs:label "Derius Drake".

:Account109 a :Account;

rdfs:label "Account 109".

:Transaction007 a :Transaction;

:date "1828-09-15"^^xsd:date;

:involvedPerson :DeriusDrake;

:involvedAccount :Account109;

:event "Ax delivery by Puffer";

:description "Settlement for ax delivered on September 1st";

:amount "1.50"^^xsd:decimal;

:transactionType "Debit".

# Individuen für neue Transaktion

:LabanMoreyWheaton a :Person;

rdfs:label "Laban Morey Wheaton".

:Transaction008 a :Transaction;

:date "2023-05-12"^^xsd:date; # Datum der Transaktion

:involvedPerson :DeriusDrake; # Käufer

:involvedAccount :Account109; # Konto von Derius Drake

:event "Apple purchase from Laban Morey Wheaton"; # Ereignisbeschreibung

:description "Purchase of one apple from Laban Morey Wheaton"; # Vollständige Beschreibung

:amount "1.00"^^xsd:decimal; # Betrag der Transaktion

:transactionType "Debit". # Typ der Transaktion (Debit für einen Kauf)

Beispiellösung

48 of 92

LLM & Prompt Engineering

Explizit und präzise

Chain of Thought (CoT): "Schritt für Schritt denken

Persona Modelling: “You are an expert in data modelling”

Pollin, C. (2024). Workshopreihe "Angewandte Generative KI in den (digitalen) Geisteswissenschaften" (v1.1.0). Zenodo. https://doi.org/10.5281/zenodo.10647754 ��https://chpollin.github.io/GM-DH

49 of 92

Linked Open Data

50 of 92

Linked Open Data in memory organizations

51 of 92

Linked Open Data

52 of 92

53 of 92

Linked Open Data

“Linked Open Data (LOD) ist ein Konzept zur Veröffentlichung und Verknüpfung von Daten im Web”

http://linkeddata.org/

https://lod-cloud.net/

https://lov.linkeddata.es/dataset/lov/

Tim Berners Lee TED Talk 2009: https://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=de

Tim Berners Lee TED Talk 2010:�https://www.ted.com/talks/tim_berners_lee_the_year_open_data_went_worldwide?language=de

54 of 92

LOD in der

Praxis

55 of 92

56 of 92

LOD in der Werbung

57 of 92

Warum Linked Data for Libraries (LLD)

Library Linked Data wächst rasant

Bibliotheken haben riesige Datenmengen an vertrauenswürdigen! Daten

klassische Bibliothekskataloge sind Datensilos (keine Links nach außen ins Web)

MARC wird nur abgeschlossen in der Library Community genutzt

Datenaustausch!

LOD: sharable, extensible, and re-usable

https://www.w3.org/2005/Incubator/lld/wiki/Benefits

58 of 92

59 of 92

LOD

Praxis:

Abstraktions-

level:

FRBRoo

60 of 92

LOD

Praxis:

Abstraktions-

level:�BIBFRAME

61 of 92

LOD

Praxis:

Abstraktions-

level:�FRBR

62 of 92

LOD

Praxis:

Abstraktions-

level:�RDA

63 of 92

Library Linked Data: Standards for Librarians

RDA (Resource Description and Access)

BIBFRAME (Bibliographic Framework)

FRBR (Functional Requirements for Bibliographic Records)

FRBRoo (FRBR-object oriented)

FRAD (Functional Requirements for Authority Data)

FRSAD (Functional Requirements for Subject Authority Data)

64 of 92

Linked Data: Standards for Everyone

Schema.org

SKOS (Simple Knowledge Organization System)

Dublin Core

FOAF (Friend of a Friend)

OWL (Web Ontology Language)

VIAF (Virtual International Authority File)

65 of 92

Warum diese Standards nicht redundant sind

  • Komplementäre Rollen: Obwohl es Überschneidungen gibt, erfüllen diese Standards unterschiedliche Rollen. RDA konzentriert sich auf die Katalogisierungspraktiken, BIBFRAME auf die Repräsentation und Verknüpfung im Web, FRBR auf das konzeptionelle Modell, und FRBRoo auf die Integration in ein objektorientiertes Modell.
  • Evolutionsstufen: FRBR bildet die Grundlage, auf der RDA und BIBFRAME aufbauen. RDA operationalisiert viele FRBR-Konzepte in der Katalogisierungspraxis. BIBFRAME nutzt FRBR-Konzepte, um bibliografische Daten im Linked Data-Format darzustellen.
  • Erweiterung und Spezialisierung: FRBRoo erweitert FRBR, um komplexere Zusammenhänge zu berücksichtigen, die in der Katalogisierung und Dokumentation von Kultur- und Wissensobjekten erforderlich sind.

66 of 92

Wikidata & SPARQL

67 of 92

68 of 92

Wikidata

Informationen in strukturierter / computerlesbarer Form (RDF)

Daten kommen VON Wikipedia und gehen auch wieder AN Wikipedia (im Unterschied zu DBpedia)

Community basiert, jede/r kann Konzepte hinzufügen

Auch Ontologie ist Community basiert

Ziel: gemeinsames Weltwissen wird miteinander verknüpft (Wikipedia für Maschinen) - Sprachenunabhängig�Ich: https://www.wikidata.org/wiki/Q61610396 https://upload.wikimedia.org/wikipedia/commons/8/8d/Wikidata-in-brief-1.0.pdf

69 of 92

Wikidata

  • Q Nummer = Item = Konzept = Objekt / Subjekt
  • fast immer Wikipedia Artikel
  • Beispiele
    • Q1 - the Universe
    • Q2 - Earth
    • Q5 - human
    • Q571 - book
    • Q7075 - library
  • P Nummer = Property = Prädikat
  • Kontrolliertes Vokabular
  • Vorschlag, Diskussion, Approval
  • Beispiele
    • P31 - instance of
    • P279 - subclass of
    • P214 - VIAF ID
    • Wikidata:List_of_properties

    • Q7075 - library

70 of 92

SPARQL

Abfragesprache für RDF-Daten: SPARQL ist die Standardabfragesprache für RDF-Daten und ermöglicht es, gezielt nach Informationen in RDF-Datenbanken zu suchen und diese zu extrahieren.

Abfrage- und Manipulationsmöglichkeiten: SPARQL bietet verschiedene Arten von Abfragen, darunter SELECT-Abfragen (für die Rückgabe von Ergebnismengen), CONSTRUCT-Abfragen (zum Erzeugen neuer RDF-Grafen), ASK-Abfragen (zum Prüfen von Bedingungen) und DESCRIBE-Abfragen (zum Beschreiben von Ressourcen).

Unterstützung von Triple Patterns: SPARQL-Abfragen bestehen aus Triple Patterns, die ähnlich wie Subjekt-Prädikat-Objekt-Aussagen in RDF aufgebaut sind und die Struktur der gesuchten Daten definieren.

Integration mit Webtechnologien: SPARQL ist eng mit anderen Webtechnologien integriert und ermöglicht die Abfrage verteilter Datenquellen über das Web, was es zu einem wichtigen Werkzeug für Linked Data und das Semantic Web macht.

Flexibilität und Erweiterbarkeit: SPARQL unterstützt komplexe Abfragen, einschließlich der Verknüpfung von Daten, Filtern, Aggregationen und Unterabfragen, und kann durch benutzerdefinierte Funktionen erweitert werden.

Standardisiert von W3C: SPARQL ist ein von W3C (World Wide Web Consortium) standardisiertes Protokoll, das Interoperabilität und weitgehende Akzeptanz in der Web-Community gewährleistet.

71 of 92

Example SPARQL Abfrage

SELECT ?subj ?label �#gibt mir alle literarischen Werke �#deren Handlung in Österreich spielt, vor oder nach 1945

WHERE

{

{?subj wdt:P31 wd:Q571 } UNION {?subj wdt:P31 wd:Q7725634}.

?subj wdt:P577 ?date FILTER (?date < "1945-01-01T00:00:00Z"^^xsd:dateTime) .

?subj wdt:P840 wd:Q40 .

?subj rdfs:label ?label filter (lang(?label) = "de")

}

72 of 92

Data Wrangling &

OpenRefine

73 of 92

74 of 92

Data Preprocessing

  • Data Cleaning / Data Cleansing
    • verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken, Tabellen etc.
    • unvollständige, inkorrekte, ungenaue, irrelevante, überflüssige Daten (= dirty data) werden
      • modifiziert, ersetzt oder gelöscht
  • Data Integration
    • Daten aus verschiedenen Quellen zusammenführen
    • Damit werden konsistente Daten erzeugt

75 of 92

Data Preprocessing

  • Data Transformation
    • Rohdaten werden in ein nutzbares �Format gebracht
    • Daten werden aggregiert, also zusammengeführt
  • (Data Reduction)
    • Komprimierung der Daten auf �aussagekräftige Kennwerte �oder Reduktion der Anzahl der �betrachteten Merkmale
    • Effizient organisieren (sortieren etc.)

76 of 92

Data Wrangling

Datenaufbereitung (Data Wrangling, Data Munging)

Prozess: Transformation und Mapping von Rohdaten

Früher oft händisch z.B. in Excel erledigt

Später in Python, R, SQL

Neuerdings auch mit LLMs (chatGPT …)

Tools: https://hevodata.com/learn/data-wrangling-tools/

77 of 92

78 of 92

Tools

78

79 of 92

Getting started with OpenRefine

79

Resources

80 of 92

Open Refine

  • Ursprünglich von Google entwickelt (Google Refine)
  • Jetzt Open Source Data Wrangling Software
  • “powerful tool for working with messy data
  • cleaning it
  • transforming it from one format into another
  • and extending it with web services and external data.”

81 of 92

Open Refine - Übung

  • Wir führen gleiche Einträge in Verfasser zusammen / bereinigen Fehler / zählen
    • Text facet
  • Wir schauen uns das Numeric Facet an
    • Ranges
  • Replace
    • Regular Expressions (https://regexr.com/) → chatGPT hilft;)
    • \[(\d+)\] → $1
  • Transforms
    • toDate()
    • Timeline Facet
  • Benötigen wir alle Columns?

82 of 92

Text

83 of 92

Numeric

84 of 92

Timeline / toDate()

85 of 92

OpenRefine - Reconciliation

86 of 92

Open Refine Reconciliation Übung

  • Spalte Verlagsort
  • Wikidata (de) hinzufügen
  • Matchen
  • Neue Spalten hinzufügen
    • Land
    • GeoNames ID
  • Spalte Sprache 01
    • ISO
  • Alles als Excelsheet oder CSV exportieren

87 of 92

OpenRefine → Wikidata

  1. Abfrage von Wikidata nach Städten in AT ohne GND-Nummer:

https://query.wikidata.org/#SELECT%20%3Fitem%20%3FitemLabel%20WHERE%20%7B%0A%20%20%3Fitem%20wdt%3AP31%20wd%3AQ515%3B%0A%20%20%20%20%20%20%20%20wdt%3AP17%20wd%3AQ40.%0A%20%20FILTER%20NOT%20EXISTS%20%7B%20%3Fitem%20wdt%3AP227%20%3Fgnd%20%7D%0A%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22%5BAUTO_LANGUAGE%5D%2Cen%22.%20%7D%0A%7D%20LIMIT%2050

  • Laden Sie die CSV-Datei herunter und importieren Sie sie in OpenRefine
  • Abgleichen der Spalte „item“ mit Wikidata und Abgleichen der Spalte „itemLabel“ mit GND
  • Neue Spalte basierend auf den abgeglichenen Werten von „itemLabel“ mit GND-Nummer hinzufügen
  • Bearbeiten des Wikidata-Schemas

88 of 92

Wikibase Schema

89 of 92

OpenRefine Extensions

  • https://openrefine.org/extensions
  • RDF
  • FAIR data
  • GeoJSON
  • Named-Entity Recognition

90 of 92

OpenRefine Export

Standardmethoden: TSV, CSV, Excel, ODF, HTML

Custom tabular: Einstellungen ändern und in Google Sheets hochladen ...

RDF-Erweiterung: RDF/XML und RDF/Turtle

Templating: anpassbar (JSON, XML …)

Datenbankexport: SQL

Gesamtes Projekt exportieren

Wikidata: Upload, QuickStatements, Schema

91 of 92

92 of 92