Datenmodellierung und Datenarchitektur, Datenselektion, Datenbereinigung
Data Librarian. VU Datenbasierte Wissensproduktion und -organisation. 22.05.2024
Christopher Pollin
Christian Steiner�Digital Humanities Craft OG�www.dhcraft.org
Lernziele
Agenda
Christopher Pollin
Beurteilung
Aktive Teilnahme
Fertigstellung und Überarbeitungen der begonnenen Übungen bis zum 30.06.2024
ODER
Die Übungen im Laufe des heutigen Tages müssen nicht richtig sein. Hier gilt es einfach auszuprobieren, damit man dann fragen und diskutieren kann.
Gemeinsame Umfrage
Weisheit
Wissen
Information
Daten
Rowley, Jennifer E. “The Wisdom Hierarchy: Representations of the DIKW Hierarchy.” Journal of Information Science 33 (2007): 163–80. https://www-public.imtbs-tsp.eu/~gibson/Teaching/Teaching-ReadingMaterial/Rowley06.pdf.
Favre-Bulle, Bernard. Information Und Zusammenhang: Informationsfluß in Prozessen Der Wahrnehmung, Des Denkens Und Der Kommunikation. Wien, New York: Springer, 2001.
Meadows, Jack. Understanding Information. Berlin, Boston: K. G. Saur, 2019. https://doi.org/doi:10.1515/9783110950007.
Kuhlen, Rainer, Dirk Lewandowski, Wolfgang Semar, and Christa Womser-Hacker, eds. Grundlagen der Informationswissenschaft. Grundlagen der Informationswissenschaft. Berlin, Boston: De Gruyter Saur, 2023. https://doi.org/10.1515/9783110769043.
Daten bestehen aus rohen, unverarbeiteten Symbolen, Messungen oder Beobachtungen aus diversen Quellen in verschiedenen Formaten, die durch Verarbeitung und Kontextualisierung in Informationen und Wissen transformiert werden.
Informationen entstehen durch die Verarbeitung und Organisation von Daten, die durch spezifische Anforderungen strukturiert und somit in nützliche, verständliche Ressourcen für Entscheidungen und Analysen umgewandelt werden.
Wissen ist die Anwendung und Synthese von Informationen zu tiefgreifenden Einsichten oder Praktiken, die das Verständnis erweitern und komplexe Probleme lösen, indem sie persönliche und kontextuelle Erfahrungen integrieren.
Wie finden Sie die folgenden Definitionen?
Das sind (halluzinierte) Definitionen von GPT-4 Turbo + Prompt Engineering: https://chat.openai.com/c/9beafc3b-221e-416b-9f0a-6ef7e58133df
Synthese
Synthese
Synthese
Hands-On: Daten - Information - Wissen
Recherche:
Diskussion:
DIKW-Hierarchy
Rowley, Jennifer E. “The Wisdom Hierarchy: Representations of the DIKW Hierarchy.” Journal of Information Science 33 (2007): 163–80. https://www-public.imtbs-tsp.eu/~gibson/Teaching/Teaching-ReadingMaterial/Rowley06.pdf.
Algorithmisch vs. programmierbar.
Bedeutung vs. Wertigkeit
Struktur vs. Bindung an kognitive Agenten
Daten in den Geisteswissenschaften
“a selectively constructed, machine-actionable abstraction that represents some aspects of a given object of humanistic inquiry.”
Schöch, Christof. “Big? Smart? Clean? Messy? Data in the Humanities.” Journal of Digital Humanities 2, no. 3 (2013): 2–13.
capta: “that which is recorded or collected”��data: “that which is given”
Drucker, Johanna. “Humanities Approaches to Graphical Display.” Digital Humanities Quarterly 5, no. 1 (2011): 1–21.
Monday September-15th-1828
Settled Derius Drake DR
To ax dlvd By Puffer 9/1 1 50
(Historische) Daten
DALL-E 3 + magnific.ai : A vivid, historical scene set in a small, rural American village in the early 19th century. In the foreground, two men are conducting a transaction. One man, middle-aged with a rugged appearance, wearing a simple shirt, waistcoat, and trousers with suspenders, receives an ax from a younger, less robust man similarly dressed. The ax has a wooden handle and polished iron head. The setting includes rustic wooden buildings, a dirt road, and surrounding forests. Additional details include bystanders, a wooden cart, and a horse, under soft morning light.
Repräsentiert
Monday September-15th-1828
Settled Derius Drake DR
To ax dlvd By Puffer 9/1 1 50
(Historische) Information
Kontextualisierung
Aktion
Wissen
(Historische) Daten
(Daten)Modellierung
Flanders, J., & Jannidis, F. (Eds.). (2018). The shape of data in digital humanities: modeling texts and text-based resources. Routledge. https://doi.org/10.4324/9781315552941.
Jannidis, F. (2017). Grundlagen der Datenmodellierung. In Digital Humanities: Eine Einführung, herausgegeben von Fotis Jannidis, Hubertus Kohle, und Malte Rehbein, 99–108. Stuttgart: J.B. Metzler.
Ciula, Arianna, Øyvind Eide, Cristina Marras, und Patrick Sahle. Modelling Between Digital and Humanities: Thinking in Practice. Open Book Publishers, 2023. https://doi.org/10.11647/obp.0369.
Ciula, Arianna, Øyvind Eide, Cristina Marras, und Patrick Sahle. „Models and Modelling between Digital and Humanities: Remarks from a Multidisciplinary Perspective“. Historical Social Research 43, Nr. 4 (2018): 343–61. https://doi.org/10.12759/hsr.43.2018.4.343-361.
FAIR Data Principles
&
Modellierung
Wilkinson, Mark D, Michel Dumontier, IJsbrand Jan Aalbersberg, Gabrielle Appleton, Myles Axton, Arie Baak, Niklas Blomberg, et al. “The FAIR Guiding Principles for Scientific Data Management and Stewardship.” Scientific Data 3, no. 1 (2016): 1–9.
https://www.go-fair.org/fair-principles/fairification-process
FAIRification Process
Monday September-15th-1828
Settled Derius Drake DR
To ax dlvd By Puffer 9/1 1 50
Settled By cutting two sticks Cr
109 Pliny Puffer Cr
By 1 ax dlv.d. Drake 9/ 1 50
342 Asa Danforth Cr
By drawing two logs from Rogers
Monday Sept. 22d 1828
342 Asa Danforth Cr
By 1 Days work with oxen, wheels, &
Settled Derius Drake D
To order upon T. Smith for 3/ 50
"
By 1 Days work CrOctober 3d 1828
25 Thomas Danforth 2d
To 1 lb. 4d Cut Nails .8
" 1 Buss. Rye 90t 90 98
Settled Nathaniel Lincoln D
To cash 8/ 50
342 Asa Danforth C
By drawing two sticks from Mss Bowend
Laban Morey Wheaton Day Book 1828-1829 & 1831-1832. https://gams.uni-graz.at/o:depcha.wheaton.1#WH_IMG.001
Monday September-15th-1828
Settled Derius Drake DR
To ax dlvd By Puffer 9/1 1 50
Settled By cutting two sticks Cr
109 Pliny Puffer Cr
By 1 ax dlv.d. Drake 9/ 1 50
342 Asa Danforth Cr
By drawing two logs from Rogers
Monday Sept. 22d 1828
342 Asa Danforth Cr
By 1 Days work with oxen, wheels
Settled Derius Drake D
To order upon T. Smith for 3/ 50
"
By 1 Days work Cr
October 3d 1828
25 Thomas Danforth 2d
To 1 lb. 4d Cut Nails .8
" 1 Buss. Rye 90t 90 98
Settled Nathaniel Lincoln D
To cash 8/ 50
342 Asa Danforth C
By drawing two sticks from Mss Bowend
Hands-On: Von Daten zum Modell
Identifizieren der wichtigsten Entitäten
Entität | Definition | Beispiel |
Transaktionen | Einzelne Aufzeichnungen von Austausch oder finanziellen Aktivitäten. | "By 1 Days work Cr" |
Personen | Personen, die als Gläubiger oder Schuldner an Transaktionen beteiligt sind. | Derius Drake |
Waren/Dienstleistungen | Gegenstände oder Dienstleistungen, die in Transaktionen ausgetauscht werden. | 1 lb. 4d Cut Nails (1 Pfund 4d Nägel) |
Konten | Finanzberichte, die den Kredit- und Debitstatus von Personen verfolgen. | Konto, das mit Asa Danforth verbunden ist |
Einträge | Datumsbezogene Logeinträge, die mehrere Transaktionen enthalten können. | Eintrag für "Montag, 15. September 1828" |
Ereignisse | Spezifische Vorkommnisse oder Aktionen, die in Transaktionen vermerkt sind. | Kontoausgleich |
Datum | Eindeutige Zeitpunkte, zu denen Transaktionen aufgezeichnet werden. | 15. September 1828 |
Definieren von Attributen
für jede Entität
Transaktionen
Personen
Waren/Dienstleistungen
Konten
Einträge
Ereignisse
Daten
Definieren
von Beziehungen
Tabelle
| Transaction ID | Date | Person | Account ID | Event | Description | Amount | Transaction Type |
|----------------|------------|--------------|------------|-----------------------|-----------------------------------------|---------------|------------------|�| 001 | 1828-09-15 | Derius Drake | | Ax delivered by Puffer | Settled transaction for ax | 1.50 | Debit |
| 002 | 1828-09-15 | Pliny Puffer | 109 | Cutting two sticks | Credit for cutting two sticks | Not specified | Credit |
| 003 | 1828-09-15 | Derius Drake | | Ax delivered by Drake | Settled transaction for ax | 1.50 | Debit |
| 004 | 1828-09-22 | Asa Danforth | 342 | Day's work with oxen, wheels | Credit for drawing two logs from Rogers | Not specified | Credit |
XML
<Transactions>
<Transaction>
<TransactionID>001</TransactionID>
<Date>1828-09-15</Date>
<Person>Derius Drake</Person>
<AccountID></AccountID>
<Event>Ax delivered by Puffer</Event>
<Description>Settled transaction for ax</Description>
<Amount>1.50</Amount>
<TransactionType>Debit</TransactionType>
</Transaction>
<Transaction>
<TransactionID>002</TransactionID>
<Date>1828-09-15</Date>
<Person>Pliny Puffer</Person>
<AccountID>109</AccountID>
<Event>Cutting two sticks</Event>
<Description>Credit for cutting two sticks</Description>
<Amount>Not specified</Amount>
<TransactionType>Credit</TransactionType>
</Transaction>
<Transaction>
<TransactionID>003</TransactionID>
<Date>1828-09-15</Date>
<Person>Derius Drake</Person>
<AccountID></AccountID>
<Event>Ax delivered by Drake</Event>
<Description>Settled transaction for ax</Description>
<Amount>1.50</Amount>
<TransactionType>Debit</TransactionType>
</Transaction>
</Transactions>
Graph - RDF
@prefix : <http://example.org/transaction/>.
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.
@prefix xsd: <http://www.w3.org/2001/XMLSchema#>.
# Define the Person class
:Person a rdfs:Class.
# Define the Transaction class
:Transaction a rdfs:Class.
# Define the Account class
:Account a rdfs:Class.
# Persons
:DeriusDrake a :Person;
rdfs:label "Derius Drake".
:PlinyPuffer a :Person;
rdfs:label "Pliny Puffer".
:AsaDanforth a :Person;
rdfs:label "Asa Danforth".
# Accounts
:Account109 a :Account;
rdfs:label "Account 109".
:Account342 a :Account;
rdfs:label "Account 342".
# Transactions
:Transaction001 a :Transaction;
:date "1828-09-15"^^xsd:date;
:involvedPerson :DeriusDrake;
:event "Ax delivered by Puffer";
:description "Settled transaction for ax";
:amount "1.50"^^xsd:decimal;
:transactionType "Debit".
:Transaction002 a :Transaction;
:date "1828-09-15"^^xsd:date;
:involvedPerson :PlinyPuffer;
:involvedAccount :Account109;
:event "Cutting two sticks";
:description "Credit for cutting two sticks";
:transactionType "Credit".
:Transaction003 a :Transaction;
:date "1828-09-15"^^xsd:date;
:involvedPerson :DeriusDrake;
:event "Ax delivered by Drake";
:description "Settled transaction for ax";
:amount "1.50"^^xsd:decimal;
:transactionType "Debit".
:Transaction004 a :Transaction;
:date "1828-09-22"^^xsd:date;
:involvedPerson :AsaDanforth;
:involvedAccount :Account342;
:event "Day's work with oxen, wheels";
:description "Credit for drawing two logs from Rogers";
:transactionType "Credit".
Graphen
RDF
Semantic Web
Hitzler, Pascal. „A review of the semantic web field“. Communications of the ACM 64, Nr. 2 (2021): 76–83. https://doi.org/10.1145/3397512.
“RAW DATA NOW!”
Web of Documents
Web of Data
Tim Berners-Lee: The next Web of open, linked data. 2009. https://youtube/OM6XIICm_qo?t=655
Wikidata und DBpedia
URI - Hamlet�https://www.wikidata.org/wiki/Q41567 �https://www.wikidata.org/wiki/Special:EntityData/Q41567rdf
URI - Hamlet�https://dbpedia.org/page/Hamlet
The 5-Star Model
Linked Open Data Principles
Berners-Lee, Tim. „Linked Data“, 2006. https://www.w3.org/DesignIssues/LinkedData.html. �Blaney, Jonathan. „Introduction to the Principles of Linked Open Data“. Programming Historian, 7. Mai 2017. https://programminghistorian.org/en/lessons/intro-to-linked-data.
Berners-Lee, Tim, James Hendler, und Ora Lassila. „The Semantic Web“. Scientific American 284, Nr. 5 (2001): 34–43. https://www.jstor.org/stable/pdf/26059207.pdf?refreqid=excelsior%3A1d9c33aa1ea640d57940082b42df15e6
Web of Data vs. Linked Data vs. Semantic Web
Semantic Web or Web of Data? A Diachronic Study (1999 to 2017) of the Publications of Tim Berners‐Lee and the World Wide Web Consortium. https://www.researchgate.net/publication/326415631_Semantic_Web_or_Web_of_Data_A_Diachronic_Study_1999_to_2017_of_the_Publications_of_Tim_Berners-Lee_and_the_World_Wide_Web_Consortium, 23.03.2021.
Semantic Web
�aka.
Web Of Data Technology Stack
Knowledge Engineering with Semantic Web Technologies by Harald Sack: https://www.youtube.com/playlist?list=PLoOmvuyo5UAcBXlhTti7kzetSsi1PpJGR
Semantic Web Layer Cake Tweak, Explained:
https://medium.com/openlink-software-blog/semantic-web-layer-cake-tweak-explained-6ba5c6ac3fab
Uniform Resource Identifier / �Internationalized Resource identifier
RDF - Resource Description Framework - Turtle Serialisation
@prefix example: <http://example.org/> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix rel: <http://www.perceive.net/schemas/relationship/> .
<example:green-goblin>
rel:enemyOf <example:spiderman> ;
a foaf:Person ;
foaf:name "Green Goblin" .
<example:spiderman>
rel:enemyOf <example:green-goblin> ;
a foaf:Person ;
foaf:name "Spiderman";
foaf:name "Человек-паук"@ru .
RDFS - Resource Description Framework Schema
Corn
Poales
Food
Plant
rdfs:subClassOf
rdfs:subClassOf
rdfs:subClassOf
rdf:type
ex:basisFor
Popcorn
OWL - Web Ontology Language
SPARQL Query Language for RDF
PREFIX foaf:<http://xmlns.com/foaf/0.1/>
SELECT ?name ?mbox
WHERE
{ ?x foaf:name ?name .
?x foaf:mbox ?mbox }
The Resource Description Framework (RDF)
Schreiber, Guus, und Yves Raimond. „RDF 1.1 Primer.“ W3C, 2014. http://www.w3.org/TR/rdf11-primer. �
Tomaszuk, Dominik, und David Hyland-Wood. „RDF 1.1: Knowledge Representation and Data Integration Language for the Web“. Symmetry 12, Nr. 1 (2. Januar 2020): 84. https://doi.org/10.3390/sym12010084.�
03.5 - ISE2021 - Resource Description Framework RDF as simple Data Model. https://youtu.be/-aB_C-jzA2M?si=HhapkJmfzGLZMZIF �
03.5b - RDF Turtle Serialization. https://youtu.be/1lI-j_LGQ74?si=ijcw3LiXtYLhUvCy
RDF - Sample
<Bob> <is a> <Person>.�
<Bob> <is friend of> <Alice>.�
<Bob> <is born on> � <the 4th of July 1990>.�
<Bob> <is interested in> � <the Mona Lisa>.�
<Mona Lisa> <was created by> � <Leonardo da Vinci>.�
<'La Joconde à Washington'> <is about> � <the Mona Lisa>.
Schreiber, Guus, und Yves Raimond. „RDF 1.1 Primer.“ W3C, 2014. http://www.w3.org/TR/rdf11-primer.
RDF Turtle Serialisation
BASE <http://example.org/>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
PREFIX schema: <http://schema.org/>
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX wd: <http://www.wikidata.org/entity/>
# Bob's personal information
<bob> a foaf:Person ;
foaf:knows <alice> ;
schema:birthDate "1990-07-04"^^xsd:date ;
foaf:topic_interest wd:Q12418 .
# Information about the Mona Lisa
wd:Q12418
dcterms:title "Mona Lisa" ;
dcterms:creator <http://dbpedia.org/resource/Leonardo_da_Vinci> .
# Europeana data item linked to the Mona Lisa
<http://data.europeana.eu/item/04802/243FA8618938F4117025F17A8B813C5F9AA4D619>
dcterms:subject wd:Q12418 .
Converting RDF and visualize it
RDF and Editor
Hands-On: RDF Graph erweitern, validieren und zeichnen
@prefix : <http://example.org/transaction/>.
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.
@prefix xsd: <http://www.w3.org/2001/XMLSchema#>.
# Classes
:Person a rdfs:Class.
:Transaction a rdfs:Class.
:Account a rdfs:Class.
# Individuals
:DeriusDrake a :Person;
rdfs:label "Derius Drake".
:Account109 a :Account;
rdfs:label "Account 109".
:Transaction007 a :Transaction;
:date "1828-09-15"^^xsd:date;
:involvedPerson :DeriusDrake;
:involvedAccount :Account109;
:event "Ax delivery by Puffer";
:description "Settlement for ax delivered on September 1st";
:amount "1.50"^^xsd:decimal;
:transactionType "Debit".
Monday September-15th-1828
Settled Derius Drake DR
To ax dlvd By Puffer 9/1 1 50
Füge eine weitere Transaktion hinzu: Derius Drake kauft einen Apfel um 1 $ von Laban Morey Wheaton.
Validiere und Visualisiere den RDF Graph.
Auf den folgenden Folien gibt es Tipps und Lösungen.
Hinweise und Tipps
Easy RDF: validieren und konvertieren
@prefix : <http://example.org/transaction/>.
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.
@prefix xsd: <http://www.w3.org/2001/XMLSchema#>.
# Classes
:Person a rdfs:Class.
:Transaction a rdfs:Class.
:Account a rdfs:Class.
# Individuals
:DeriusDrake a :Person;
rdfs:label "Derius Drake".
:Account109 a :Account;
rdfs:label "Account 109".
:Transaction007 a :Transaction;
:date "1828-09-15"^^xsd:date;
:involvedPerson :DeriusDrake;
:involvedAccount :Account109;
:event "Ax delivery by Puffer";
:description "Settlement for ax delivered on September 1st";
:amount "1.50"^^xsd:decimal;
:transactionType "Debit".
# Individuen für neue Transaktion
:LabanMoreyWheaton a :Person;
rdfs:label "Laban Morey Wheaton".
:Transaction008 a :Transaction;
:date "2023-05-12"^^xsd:date; # Datum der Transaktion
:involvedPerson :DeriusDrake; # Käufer
:involvedAccount :Account109; # Konto von Derius Drake
:event "Apple purchase from Laban Morey Wheaton"; # Ereignisbeschreibung
:description "Purchase of one apple from Laban Morey Wheaton"; # Vollständige Beschreibung
:amount "1.00"^^xsd:decimal; # Betrag der Transaktion
:transactionType "Debit". # Typ der Transaktion (Debit für einen Kauf)
Beispiellösung
LLM & Prompt Engineering
Explizit und präzise
Chain of Thought (CoT): "Schritt für Schritt denken
Persona Modelling: “You are an expert in data modelling”
Pollin, C. (2024). Workshopreihe "Angewandte Generative KI in den (digitalen) Geisteswissenschaften" (v1.1.0). Zenodo. https://doi.org/10.5281/zenodo.10647754 ��https://chpollin.github.io/GM-DH
Linked Open Data
Linked Open Data in memory organizations
Linked Open Data
Linked Open Data
“Linked Open Data (LOD) ist ein Konzept zur Veröffentlichung und Verknüpfung von Daten im Web”
https://lov.linkeddata.es/dataset/lov/
Tim Berners Lee TED Talk 2009: https://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=de
Tim Berners Lee TED Talk 2010:�https://www.ted.com/talks/tim_berners_lee_the_year_open_data_went_worldwide?language=de
LOD in der
Praxis
LOD in der Werbung
Warum Linked Data for Libraries (LLD)
Library Linked Data wächst rasant
Bibliotheken haben riesige Datenmengen an vertrauenswürdigen! Daten
klassische Bibliothekskataloge sind Datensilos (keine Links nach außen ins Web)
MARC wird nur abgeschlossen in der Library Community genutzt
Datenaustausch!
LOD: sharable, extensible, and re-usable
LOD
Praxis:
Abstraktions-
level:
FRBRoo
LOD
Praxis:
Abstraktions-
level:�BIBFRAME
LOD
Praxis:
Abstraktions-
level:�FRBR
LOD
Praxis:
Abstraktions-
level:�RDA
Library Linked Data: Standards for Librarians
Linked Data: Standards for Everyone
Schema.org
SKOS (Simple Knowledge Organization System)
Dublin Core
FOAF (Friend of a Friend)
OWL (Web Ontology Language)
VIAF (Virtual International Authority File)
Warum diese Standards nicht redundant sind
Wikidata & SPARQL
Wikidata
Informationen in strukturierter / computerlesbarer Form (RDF)
Daten kommen VON Wikipedia und gehen auch wieder AN Wikipedia (im Unterschied zu DBpedia)
Community basiert, jede/r kann Konzepte hinzufügen
Auch Ontologie ist Community basiert
Ziel: gemeinsames Weltwissen wird miteinander verknüpft (Wikipedia für Maschinen) - Sprachenunabhängig�Ich: https://www.wikidata.org/wiki/Q61610396 https://upload.wikimedia.org/wikipedia/commons/8/8d/Wikidata-in-brief-1.0.pdf
Wikidata
SPARQL
Abfragesprache für RDF-Daten: SPARQL ist die Standardabfragesprache für RDF-Daten und ermöglicht es, gezielt nach Informationen in RDF-Datenbanken zu suchen und diese zu extrahieren.
Abfrage- und Manipulationsmöglichkeiten: SPARQL bietet verschiedene Arten von Abfragen, darunter SELECT-Abfragen (für die Rückgabe von Ergebnismengen), CONSTRUCT-Abfragen (zum Erzeugen neuer RDF-Grafen), ASK-Abfragen (zum Prüfen von Bedingungen) und DESCRIBE-Abfragen (zum Beschreiben von Ressourcen).
Unterstützung von Triple Patterns: SPARQL-Abfragen bestehen aus Triple Patterns, die ähnlich wie Subjekt-Prädikat-Objekt-Aussagen in RDF aufgebaut sind und die Struktur der gesuchten Daten definieren.
Integration mit Webtechnologien: SPARQL ist eng mit anderen Webtechnologien integriert und ermöglicht die Abfrage verteilter Datenquellen über das Web, was es zu einem wichtigen Werkzeug für Linked Data und das Semantic Web macht.
Flexibilität und Erweiterbarkeit: SPARQL unterstützt komplexe Abfragen, einschließlich der Verknüpfung von Daten, Filtern, Aggregationen und Unterabfragen, und kann durch benutzerdefinierte Funktionen erweitert werden.
Standardisiert von W3C: SPARQL ist ein von W3C (World Wide Web Consortium) standardisiertes Protokoll, das Interoperabilität und weitgehende Akzeptanz in der Web-Community gewährleistet.
Example SPARQL Abfrage
SELECT ?subj ?label �#gibt mir alle literarischen Werke �#deren Handlung in Österreich spielt, vor oder nach 1945
WHERE
{
{?subj wdt:P31 wd:Q571 } UNION {?subj wdt:P31 wd:Q7725634}.
?subj wdt:P577 ?date FILTER (?date < "1945-01-01T00:00:00Z"^^xsd:dateTime) .
?subj wdt:P840 wd:Q40 .
?subj rdfs:label ?label filter (lang(?label) = "de")
}
Data Wrangling &
OpenRefine
Data Preprocessing
Data Preprocessing
Data Wrangling
Datenaufbereitung (Data Wrangling, Data Munging)
Prozess: Transformation und Mapping von Rohdaten
Früher oft händisch z.B. in Excel erledigt
Später in Python, R, SQL
Neuerdings auch mit LLMs (chatGPT …)
Tools
78
Getting started with OpenRefine
79
Resources
Open Refine
Open Refine - Übung
Text
Numeric
Timeline / toDate()
OpenRefine - Reconciliation
Open Refine Reconciliation Übung
OpenRefine → Wikidata
Wikibase Schema
OpenRefine Extensions
OpenRefine Export
Standardmethoden: TSV, CSV, Excel, ODF, HTML
Custom tabular: Einstellungen ändern und in Google Sheets hochladen ...
RDF-Erweiterung: RDF/XML und RDF/Turtle
Templating: anpassbar (JSON, XML …)
Datenbankexport: SQL
Gesamtes Projekt exportieren
Wikidata: Upload, QuickStatements, Schema