1 of 36

Metadata�DCAT, DCAT-AP, VoID

Jakub Klímek

2 of 36

Data Catalog Vocabulary (DCAT)

Data Catalog Vocabulary (DCAT) - Version 3

  • W3C Recommendation
    • 22 August 2024
  • Reuses other vocabularies
    • dcterms, foaf, rdf, rdfs, skos, vcard, xsd

2

3 of 36

Data Catalog Vocabulary�(DCAT)

6 core classes

  • dcat:Catalog
  • dcat:Dataset
  • dcat:Distribution
  • dcat:DataService
  • dcat:CatalogRecord
  • dcat:DatasetSeries

3

4 of 36

DCAT Dataset definition

A collection of data, published or curated by a single agent, and available for access or download in one or more representations.

4

5 of 36

dcat:Dataset, subclass of dcat:Resource

:dataset-001 a dcat:Dataset ;

dct:title "Imaginary dataset"@en ;

dcat:keyword "accountability"@en, "transparency"@en, "payments"@en ;

dct:creator :finance-employee-001 ;

dct:issued "2011-12-05"^^xsd:date ;

dct:modified "2011-12-15"^^xsd:date ;

dcat:contactPoint <http://example.org/transparency-office/contact> ;

dct:temporal <http://reference.data.gov.uk/id/quarter/2006-Q1> ;

dcat:temporalResolution "P1D"^^xsd:duration ;

dct:spatial <http://sws.geonames.org/6695072/> ;

dcat:spatialResolutionInMeters "30.0"^^xsd:decimal ;

dct:publisher :finance-ministry ;

dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;

dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-W> ;

dcat:distribution :dataset-001-csv .

5

6 of 36

dcat:Catalog, subclass of dcat:Dataset

:catalog a dcat:Catalog ;

dct:title "Imaginary Catalog"@en ;

rdfs:label "Imaginary Catalog"@en ;

foaf:homepage <http://example.org/catalog> ;

dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;

dct:publisher :transparency-office ;

dcat:dataset :dataset-001, :dataset-002, :dataset-003 ;

dcat:service :table-service-005, :sparql-service-006 .

:transparency-office a foaf:Organization ;

rdfs:label "Transparency Office"@en .

6

7 of 36

Classifying datasets

:catalog dcat:themeTaxonomy :themes .

:themes a skos:ConceptScheme ;

skos:prefLabel "A set of domains to classify documents"@en .

:dataset-001 dcat:theme :accountability .

:accountability a skos:Concept ;

skos:inScheme :themes ;

skos:prefLabel "Accountability"@en .

7

8 of 36

dcat:Distribution

:dataset-001-csv

a dcat:Distribution ;

dcat:downloadURL <http://www.example.org/files/001.csv> ;

dct:title "CSV distribution of imaginary dataset 001"@en ;

dcat:mediaType <http://www.iana.org/assignments/media-types/text/csv> ;

dcat:byteSize "5120"^^xsd:decimal ;

.

8

9 of 36

Dataset behind a Web page

:dataset-002

a dcat:Dataset ;

dcat:landingPage <http://example.org/dataset-002.html> ;

dcat:distribution :dataset-002-csv ;

.

:dataset-002-csv

a dcat:Distribution ;

dcat:accessURL <http://example.org/dataset-002.html> ;

dcat:mediaType <http://www.iana.org/assignments/media-types/text/csv> ;

.

Dataset’s landing page is the same as the distribution’s accessURL

9

10 of 36

Dataset with direct download

:dataset-003

a dcat:Dataset ;

dcat:landingPage <http://example.org/dataset-003.html> ;

dcat:distribution :dataset-003-csv ;

.

:dataset-003-csv

a dcat:Distribution ;

dcat:accessURL <http://example.org/dataset-003.csv> ;

dcat:downloadURL <http://example.org/dataset-003.csv> ;

dcat:mediaType <http://www.iana.org/assignments/media-types/text/csv> ;

.

downloadURL gets duplicated into accessURL

10

11 of 36

dcat:DataService

:table-service-005 a dcat:DataService ;

dct:conformsTo <http://example.org/apidef/table/v2.2> ;

dcat:endpointDescription <http://example.org/api/table-005/capability> ;

dcat:endpointURL <http://example.org/api/table-005> ;

dcat:servesDataset :dataset-003, :dataset-004 .��

  • dct:conformsTo - standard
    • SPARQL 1.1
  • dcat:endpointDescription - operations

11

12 of 36

Dataset available through a data service

:dataset-004 a dcat:Dataset ;

dcat:distribution :dataset-004-csv .

:dataset-004-csv a dcat:Distribution ;

dcat:accessService :table-service-005 ;

dcat:accessURL <http://example.org/api/table-005> ;

dcat:mediaType <http://www.iana.org/assignments/media-types/text/csv> .

:table-service-005 a dcat:DataService ;

dct:conformsTo <http://example.org/apidef/table/v2.2> ;

dcat:endpointDescription <http://example.org/api/table-005/capability> ;

dcat:endpointURL <http://example.org/api/table-005> ;

dcat:servesDataset :dataset-003, :dataset-004 .

Distribution’s accessURL is the same as Data Service’s endpointURL

12

13 of 36

dcat:DatasetSeries

:series-1 a dcat:DatasetSeries ;

:dataset-1 a dcat:Dataset ;

dcat:inSeries :series-1 .

:dataset-2 a dcat:Dataset ;

dcat:inSeries :series-1 .

  • Temporal series
  • Spatial series
  • Thematic series

Not versions!

13

14 of 36

dcat:CatalogRecord (optional)

:catalog dcat:record :record-001 .

:record-001 a dcat:CatalogRecord ;

foaf:primaryTopic :dataset-001 ;

dct:issued "2011-12-11"^^xsd:date .

14

15 of 36

DCAT - relationships

  • dct:hasPart
    • simple “hierarchy” of datasets and catalogs
  • dcat:Relationship
    • Qualified relation (Linked Data Patterns!)
    • dct:hadRole
      • role specification for relationship between resource and Agent
    • dct:relation
      • points to another dcat:Resource such as dcat:Dataset

15

16 of 36

Data Catalog Vocabulary�(DCAT)

6 core classes

  • dcat:Catalog
  • dcat:Dataset
  • dcat:Distribution
  • dcat:DataService
  • dcat:CatalogRecord
  • dcat:DatasetSeries

16

17 of 36

DCAT-AP

DCAT Application Profile for data portals in Europe (DCAT-AP)

  • 3.0.0 June 2024
  • DCAT Application profile
    • additional set of restrictions
      • mandatory/recommended/optional classes/properties
      • specific codelists - EU Vocabularies
  • Recommendation for ALL data portals in Europe
    • by European Commission
      • Directorate-General for Informatics: DG DIGIT
      • Directorate-General for Communications Networks, Content & Technology: �DG CONNECT
    • by Publications Office of the EU

17

18 of 36

DCAT-AP�3.0.0

6 core classes

  • dcat:Catalog
  • dcat:Dataset
  • dcat:Distribution
  • dcat:DataService
  • dcat:CatalogRecord
  • dcat:DatasetSeries

  • mandatory, recommended, optional classes and properties
  • specific codelists - EU Vocabularies

19 of 36

DCAT-AP restrictions

  • Dataset (mandatory class)
    • Mandatory properties
      • dct:title
      • dct:description
  • Distribution
    • Mandatory properties
      • dcat:accessURL
  • Data Service
    • Mandatory properties
      • dcat:endpointURL
      • dct:title
  • Catalogue (mandatory class)
    • Mandatory properties
      • dct:title
      • dct:description
      • dct:publisher
      • dcat:dataset
  • Catalogue Record
    • Mandatory properties
      • foaf:primaryTopic
      • dct:modified

19

20 of 36

DCAT-AP Controlled Vocabularies (codelists)

20

Property URI

Used for Class

Vocabulary name

Vocabulary URI

dcat:mediaType

Distribution

IANA Media Types

dcat:theme

Dataset

Dataset Theme Vocabulary

dcat:themeTaxonomy

Catalogue

Dataset Theme Vocabulary

dct:accrualPeriodicity

Dataset

EU Vocabularies Frequency Named Authority List

dct:format

Distribution

EU Vocabularies File Type Named Authority List

dct:language

Catalogue, Dataset, Catalogue Record, Distribution

EU Vocabularies Languages Named Authority List

dct:publisher

Catalogue, Dataset

EU Vocabularies Corporate bodies Named Authority List

dct:spatial

Catalogue, Dataset

EU Vocabularies Continents Named Authority List, EU Vocabularies Countries Named Authority List, EU Vocabularies Places Named Authority List, Geonames

adms:status

Distribution

ADMS status vocabulary

dct:type

Agent

ADMS publisher type vocabulary

dct:type

Licence Document

ADMS licence type vocabulary

dcatap:availability

Distribution

Distribution availability vocabulary

21 of 36

Czech DCAT-AP specifics

FOS - Formal Open Standard for interfaces of local catalogs (in Czech)

  • Latest version based on DCAT-AP 3.0.0
  • Additional specifications for terms of use of open data
  • Specification of interfaces for local open data catalogs
  • See the input form of the Czech National Open Data Catalog

ns1:specifikace [

a ns1:Specifikace ;

ns1:autorské-dílo <https://data.gov.cz/podmínky-užití/neobsahuje-autorská-díla/> ;

ns1:databáze-chráněná-zvláštními-právy <https://data.gov.cz/podmínky-užití/není-chráněna-zvláštním-právem-pořizovatele-databáze/> ;

ns1:databáze-jako-autorské-dílo <https://data.gov.cz/podmínky-užití/není-autorskoprávně-chráněnou-databází/> ;

ns1:osobní-údaje <https://data.gov.cz/podmínky-užití/neobsahuje-osobní-údaje/>

] .

21

22 of 36

DCAT-AP Dataset example

@prefix dcat: <http://www.w3.org/ns/dcat#> .

@prefix dcterms: <http://purl.org/dc/terms/> .

@prefix foaf: <http://xmlns.com/foaf/0.1/> .

@prefix ns1: <https://data.gov.cz/slovník/podmínky-užití/> .

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

@prefix vcard: <http://www.w3.org/2006/vcard/ns#> .

@prefix xml: <http://www.w3.org/XML/1998/namespace> .

@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu> a dcat:Dataset ;

dcterms:title "Číselník pro dny v týdnu"@cs ;

dcterms:description "Tento číselník obsahuje dny v týdnu. Jejich identifikátory IRI by měly být používány pro jednoznačnou identifikaci dnů v týdnu."@cs ;

dcat:keyword "OFN"@cs, "den"@cs, "týden"@cs, "číselník"@cs, "codelist"@en ;

dcat:theme <http://publications.europa.eu/resource/authority/data-theme/GOVE> ;

dcterms:accrualPeriodicity <http://publications.europa.eu/resource/authority/frequency/IRREG> ;

dcterms:conformsTo <https://ofn.gov.cz/číselníky/> ;

dcterms:publisher <https://rpp-opendata.egon.gov.cz/odrpp/zdroj/orgán-veřejné-moci/00007064> ;

dcterms:spatial <https://linked.cuzk.cz/resource/ruian/stat/1> ;

dcat:contactPoint [ a vcard:Organization ;

vcard:fn "Kontakt pro otevřená data"@cs ;

vcard:hasEmail <mailto:otevrenadata@mvcr.cz> ] ;

dcat:distribution <https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/1>,

<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/2>,

#...

<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/9> ;

foaf:page <https://data.mvcr.gov.cz/soubory/číselníky/dny-v-týdnu.html> .

22

23 of 36

DCAT-AP Distribution example

<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/1> a dcat:Distribution ;

dcterms:format <http://publications.europa.eu/resource/authority/file-type/RDF_TURTLE> ;

dcterms:title "Číselník v RDF Turtle"@cs,

"Codelist in RDF Turtle"@en ;

dcat:accessURL <https://data.mvcr.gov.cz/soubory/číselníky/dny-v-týdnu.ttl> ;

dcat:downloadURL <https://data.mvcr.gov.cz/soubory/číselníky/dny-v-týdnu.ttl> ;

dcat:mediaType <http://www.iana.org/assignments/media-types/text/turtle> ;

ns1:specifikace [ a ns1:Specifikace ;

ns1:autorské-dílo <https://data.gov.cz/podmínky-užití/neobsahuje-autorská-díla/> ;

ns1:databáze-chráněná-zvláštními-právy <https://data.gov.cz/podmínky-užití/není-chráněna-zvláštním-právem-pořizovatele-databáze/> ;

ns1:databáze-jako-autorské-dílo <https://data.gov.cz/podmínky-užití/není-autorskoprávně-chráněnou-databází/> ;

ns1:osobní-údaje <https://data.gov.cz/podmínky-užití/neobsahuje-osobní-údaje/> ] .

23

24 of 36

DCAT-AP Distribution with data service example

<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/2> a dcat:Distribution ;

dcterms:title "SPARQL Endpoint"@cs,

"SPARQL Endpoint"@en ;

dcat:accessService <https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/2/přístupová-služba> ;

dcat:accessURL <https://data.mvcr.gov.cz/sparql> ;

ns1:specifikace [ a ns1:Specifikace ;

ns1:autorské-dílo <https://data.gov.cz/podmínky-užití/neobsahuje-autorská-díla/> ;

ns1:databáze-chráněná-zvláštními-právy <https://data.gov.cz/podmínky-užití/není-chráněna-zvláštním-právem-pořizovatele-databáze/> ;

ns1:databáze-jako-autorské-dílo <https://data.gov.cz/podmínky-užití/není-autorskoprávně-chráněnou-databází/> ;

ns1:osobní-údaje <https://data.gov.cz/podmínky-užití/neobsahuje-osobní-údaje/> ] .

<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/2/přístupová-služba> a dcat:DataService ;

dcterms:title "SPARQL Endpoint"@cs,

"SPARQL Endpoint"@en ;

dcat:endpointDescription <https://data.mvcr.gov.cz/sparql> ;

dcat:endpointURL <https://data.mvcr.gov.cz/sparql> ;

dcat:servesDataset <https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu> .

24

25 of 36

DCAT-AP catalogs and example

@prefix dcat: <http://www.w3.org/ns/dcat#> .

@prefix dct: <http://purl.org/dc/terms/> .

@prefix dcterms: <http://purl.org/dc/terms/> .

@prefix foaf: <http://xmlns.com/foaf/0.1/> .

@prefix ns1: <https://data.mvcr.gov.cz/zdroj/> .

@prefix ns10: <http://publications.europa.eu/resource/authority/country/> .

@prefix ns5: <http://publications.europa.eu/resource/authority/language/> .

@prefix ns6: <https://data.mvcr.gov.cz/zdroj/datové-sady/rpp/> .

@prefix ns7: <https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/> .

@prefix ns8: <http://publications.europa.eu/resource/authority/> .

@prefix ns9: <http://publications.europa.eu/resource/authority/eurovoc/schema#> .

ns1:katalog a dcat:Catalog ;

dct:description "Lokální katalog otevřených dat MVČR"@cs ;

dct:language ns5:CES ;

dct:publisher <https://rpp-opendata.egon.gov.cz/odrpp/zdroj/orgán-veřejné-moci/00007064> ;

dct:spatial ns10:CZE ;

dct:title "Lokální katalog otevřených dat MVČR"@cs ;

dcat:dataset

ns6:role,

ns6:soukromoprávní-uživatelé-údajů,

...

ns6:číselník-typů-místních-příslušností-k-subjektům,

ns6:číselník-typů-rozhodnutí-o-schválení-převodu-působnosti,

...

ns7:témata-událostí ;

dcat:themeTaxonomy ns8:data-theme,

ns9:EuroVoc ;

foaf:homepage <https://data.mvcr.gov.cz> .

25

26 of 36

  • W3C Interest Group Note, 03 March 2011
  • Vocabulary for description of datasets
  • According to VoID, a dataset is a set of RDF triples that are published, maintained or aggregated by a single provider
    • social dimension: meaningful collection of triples
    • deals with a certain topic
    • originates from a certain source or process
    • is hosted on a certain server, or is aggregated by a certain custodian
    • is accessible on the Web
    • through resolvable HTTP URIs
    • through a SPARQL endpoint
    • contains sufficiently many triples that there is benefit in providing a concise summary

26

VoID Dataset is different from:

  • DCAT Dataset
    • it is not only RDF
  • RDF Dataset
    • 1 default graph
    • n named graphs

27 of 36

VoID: General dataset metadata

  • Web page links (foaf:)
    • foaf:homepage, foaf:page
  • Basic Dublin Core metadata (dcterms:)
    • dcterms:title, dcterms:description, dcterms:creator, dcterms:publisher, dcterms:contributor, dcterms:source, dcterms:date, dcterms:created, dcterms:issued, dcterms:modified
  • Contact information�dcterms:publisher :Alice ;� :Alice a foaf:Person .
  • Categorizing datasets by subject
    • dcterms:subject
    • DBpedia resources if precise enough

27

28 of 36

VoID: General dataset metadata

  • Technical features
    • void:feature
    • Serializations
      • http://www.w3.org/ns/formats/Turtle
      • http://www.w3.org/ns/formats/RDF_XML
      • http://www.w3.org/ns/formats/N3
      • http://www.w3.org/ns/formats/N-Triples
      • http://www.w3.org/ns/formats/RDFa

28

29 of 36

VoID: Access metadata

  • void:sparqlEndpoint
  • void:dataDump
  • void:rootResource
    • e.g. for hierarchical datasets
  • void:exampleResource
  • void:uriLookupEndpoint
    • alternative to SPARQL DESCRIBE, e.g.�:Sindice a void:Dataset ; � void:uriLookupEndpoint <http://api.sindice.com/v2/search?qt=term&q=> .
  • void:openSearchDescription

29

30 of 36

VoID: Structural metadata

  • void:uriSpace:DBpedia a void:Dataset;� void:uriSpace "http://dbpedia.org/resource/" .�
  • void:uriRegexPattern:DBpedia a void:Dataset;� void:uriRegexPattern "^http://dbpedia\\.org/resource/" .�
  • void:vocabulary:LiveJournal a void:Dataset;� void:vocabulary <http://xmlns.com/foaf/0.1/> .

30

31 of 36

VoID: Structural metadata - void:subset

:DBpedia a void:Dataset;

void:subset :DBpedia_shortabstracts;

void:subset :DBpedia_infoboxes .

:DBpedia_shortabstracts a void:Dataset;

dcterms:title "DBpedia Short Abstracts";

dcterms:description "Short Abstracts (max. 500 chars long) of Wikipedia Articles";

void:dataDump <http://downloads.dbpedia.org/3.3/en/shortabstract_en.nt.bz2> .

:DBpedia_infoboxes a void:Dataset;

dcterms:title "DBpedia Infoboxes";

dcterms:description "Information that has been extracted from Wikipedia infoboxes.";

void:dataDump <http://downloads.dbpedia.org/3.3/en/infobox_en.nt.bz2> .

31

32 of 36

VoID: Partitioning datasets

:MyDataset a void:Dataset;

void:classPartition [ void:class foaf:Person; ];

void:classPartition [ void:class foaf:Organization; ];

void:propertyPartition [ void:property foaf:name; ];

void:propertyPartition [ void:property foaf:member; ];

.

32

33 of 36

VoID: Precomputed statistics

triples, entities, classes, properties, distinctSubjects, distinctObjects, documents

:DBpedia a void:Dataset;

void:classPartition [

void:class foaf:Person;

void:entities 312000;

];

void:propertyPartition [

void:property foaf:name;

void:triples 312000;

] .

33

34 of 36

VoID: Linkset

  • RDF link
    • RDF triple
    • subject and object are described in different datasets
  • Linkset
    • collection of RDF links between two datasets
    • all subjects are in one dataset and all objects are in another dataset
    • RDF links often have the owl:sameAs predicate
      • any other property could occur as the predicate of RDF links as well

34

35 of 36

VoID: Describing linksets

Less descriptive, not preferred:

:DBpedia_Geonames a void:Linkset ;

void:target :DBpedia ;

void:target :Geonames .

Proper, preferred:

:DBpedia_Geonames a void:Linkset ;

void:subjectsTarget :DBpedia ;

void:objectsTarget :Geonames ;

void:linkPredicate owl:sameAs .

35

36 of 36

VoID example

@prefix dcterms: <http://purl.org/dc/terms/> .

@prefix void: <http://rdfs.org/ns/void#> .

@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

<http://linked.opendata.cz/resource/dataset/coi.cz/kontroly-sankce-zakazy> a void:Dataset ;

dcterms:title "Kontroly, sankce a zákazy ČOI"@cs, "Inspections, sanctions and bans of CTIA"@en ;

dcterms:creator <http://purl.org/klimek#me>, <http://mynarz.net/#jindrich> ;

dcterms:contributor <http://opendata.cz> ;

dcterms:description "Přehled základních informací o všech kontrolách, které inspektoři České obchodní inspekce provedli od 1. 1. 2012., včetně informací o veškerých pravomocných pokutách uložených na základě těchto kontrol a seznamu výrobků, jejichž prodej byl při těchto kontrolách zakázán, ať již z důvodu rozporů s technickými normami či dalšími předpisy, nebo pro porušení některých práv duševního vlastnictví."@cs ;

dcterms:source <http://www.coi.cz/userdata/files/dokumenty-ke-stazeni/open-data/zakazy.xls>,

<http://www.coi.cz/userdata/files/dokumenty-ke-stazeni/open-data/kontroly.xls>,

<http://www.coi.cz/userdata/files/dokumenty-ke-stazeni/open-data/sankce.xls> ;

dcterms:license <http://www.coi.cz/cz/spotrebitel/open-data-databaze-kontrol-sankci-a-zakazu/open-data-licence/> ;

void:exampleResource <http://linked.opendata.cz/resource/domain/coi.cz/check-action/221211240203501>, <http://linked.opendata.cz/resource/domain/coi.cz/ban/75715> ;

void:sparqlEndpoint <http://linked.opendata.cz/sparql> ;

void:dataDump <http://linked.opendata.cz/dump/coi.cz.zip> ;

dcterms:publisher <http://opendata.cz> ;

dcterms:modified "2013-10-08"^^xsd:date .

36