Metadata�DCAT, DCAT-AP, VoID
Jakub Klímek
This work is licensed under a Creative Commons Attribution 4.0 International License.
Data Catalog Vocabulary (DCAT)
Data Catalog Vocabulary (DCAT) - Version 3
2
Data Catalog Vocabulary�(DCAT)
6 core classes
3
DCAT Dataset definition
A collection of data, published or curated by a single agent, and available for access or download in one or more representations.
4
dcat:Dataset, subclass of dcat:Resource
:dataset-001 a dcat:Dataset ;
dct:title "Imaginary dataset"@en ;
dcat:keyword "accountability"@en, "transparency"@en, "payments"@en ;
dct:creator :finance-employee-001 ;
dct:issued "2011-12-05"^^xsd:date ;
dct:modified "2011-12-15"^^xsd:date ;
dcat:contactPoint <http://example.org/transparency-office/contact> ;
dct:temporal <http://reference.data.gov.uk/id/quarter/2006-Q1> ;
dcat:temporalResolution "P1D"^^xsd:duration ;
dct:spatial <http://sws.geonames.org/6695072/> ;
dcat:spatialResolutionInMeters "30.0"^^xsd:decimal ;
dct:publisher :finance-ministry ;
dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
dct:accrualPeriodicity <http://purl.org/linked-data/sdmx/2009/code#freq-W> ;
dcat:distribution :dataset-001-csv .
5
dcat:Catalog, subclass of dcat:Dataset
:catalog a dcat:Catalog ;
dct:title "Imaginary Catalog"@en ;
rdfs:label "Imaginary Catalog"@en ;
foaf:homepage <http://example.org/catalog> ;
dct:language <http://id.loc.gov/vocabulary/iso639-1/en> ;
dct:publisher :transparency-office ;
dcat:dataset :dataset-001, :dataset-002, :dataset-003 ;
dcat:service :table-service-005, :sparql-service-006 .
:transparency-office a foaf:Organization ;
rdfs:label "Transparency Office"@en .
6
Classifying datasets
:catalog dcat:themeTaxonomy :themes .
:themes a skos:ConceptScheme ;
skos:prefLabel "A set of domains to classify documents"@en .
:dataset-001 dcat:theme :accountability .
:accountability a skos:Concept ;
skos:inScheme :themes ;
skos:prefLabel "Accountability"@en .
7
dcat:Distribution
:dataset-001-csv
a dcat:Distribution ;
dcat:downloadURL <http://www.example.org/files/001.csv> ;
dct:title "CSV distribution of imaginary dataset 001"@en ;
dcat:mediaType <http://www.iana.org/assignments/media-types/text/csv> ;
dcat:byteSize "5120"^^xsd:decimal ;
.
8
Dataset behind a Web page
:dataset-002
a dcat:Dataset ;
dcat:landingPage <http://example.org/dataset-002.html> ;
dcat:distribution :dataset-002-csv ;
.
:dataset-002-csv
a dcat:Distribution ;
dcat:accessURL <http://example.org/dataset-002.html> ;
dcat:mediaType <http://www.iana.org/assignments/media-types/text/csv> ;
.
Dataset’s landing page is the same as the distribution’s accessURL
9
Dataset with direct download
:dataset-003
a dcat:Dataset ;
dcat:landingPage <http://example.org/dataset-003.html> ;
dcat:distribution :dataset-003-csv ;
.
:dataset-003-csv
a dcat:Distribution ;
dcat:accessURL <http://example.org/dataset-003.csv> ;
dcat:downloadURL <http://example.org/dataset-003.csv> ;
dcat:mediaType <http://www.iana.org/assignments/media-types/text/csv> ;
.
downloadURL gets duplicated into accessURL
10
dcat:DataService
:table-service-005 a dcat:DataService ;
dct:conformsTo <http://example.org/apidef/table/v2.2> ;
dcat:endpointDescription <http://example.org/api/table-005/capability> ;
dcat:endpointURL <http://example.org/api/table-005> ;
dcat:servesDataset :dataset-003, :dataset-004 .��
11
Dataset available through a data service
:dataset-004 a dcat:Dataset ;
dcat:distribution :dataset-004-csv .
:dataset-004-csv a dcat:Distribution ;
dcat:accessService :table-service-005 ;
dcat:accessURL <http://example.org/api/table-005> ;
dcat:mediaType <http://www.iana.org/assignments/media-types/text/csv> .
:table-service-005 a dcat:DataService ;
dct:conformsTo <http://example.org/apidef/table/v2.2> ;
dcat:endpointDescription <http://example.org/api/table-005/capability> ;
dcat:endpointURL <http://example.org/api/table-005> ;
dcat:servesDataset :dataset-003, :dataset-004 .
Distribution’s accessURL is the same as Data Service’s endpointURL
12
dcat:DatasetSeries
:series-1 a dcat:DatasetSeries ;
:dataset-1 a dcat:Dataset ;
dcat:inSeries :series-1 .
:dataset-2 a dcat:Dataset ;
dcat:inSeries :series-1 .
Not versions!
13
dcat:CatalogRecord (optional)
:catalog dcat:record :record-001 .
:record-001 a dcat:CatalogRecord ;
foaf:primaryTopic :dataset-001 ;
dct:issued "2011-12-11"^^xsd:date .
14
DCAT - relationships
15
Data Catalog Vocabulary�(DCAT)
6 core classes
16
DCAT-AP
DCAT Application Profile for data portals in Europe (DCAT-AP)
17
DCAT-AP�3.0.0
6 core classes
DCAT-AP restrictions
19
DCAT-AP Controlled Vocabularies (codelists)
20
Property URI | Used for Class | Vocabulary name | Vocabulary URI |
dcat:mediaType | Distribution | IANA Media Types | |
dcat:theme | Dataset | Dataset Theme Vocabulary | |
dcat:themeTaxonomy | Catalogue | Dataset Theme Vocabulary | |
dct:accrualPeriodicity | Dataset | EU Vocabularies Frequency Named Authority List | |
dct:format | Distribution | EU Vocabularies File Type Named Authority List | |
dct:language | Catalogue, Dataset, Catalogue Record, Distribution | EU Vocabularies Languages Named Authority List | |
dct:publisher | Catalogue, Dataset | EU Vocabularies Corporate bodies Named Authority List | |
dct:spatial | Catalogue, Dataset | EU Vocabularies Continents Named Authority List, EU Vocabularies Countries Named Authority List, EU Vocabularies Places Named Authority List, Geonames | |
adms:status | Distribution | ADMS status vocabulary | |
dct:type | Agent | ADMS publisher type vocabulary | |
dct:type | Licence Document | ADMS licence type vocabulary | |
dcatap:availability | Distribution | Distribution availability vocabulary |
Czech DCAT-AP specifics
FOS - Formal Open Standard for interfaces of local catalogs (in Czech)
ns1:specifikace [
a ns1:Specifikace ;
ns1:autorské-dílo <https://data.gov.cz/podmínky-užití/neobsahuje-autorská-díla/> ;
ns1:databáze-chráněná-zvláštními-právy <https://data.gov.cz/podmínky-užití/není-chráněna-zvláštním-právem-pořizovatele-databáze/> ;
ns1:databáze-jako-autorské-dílo <https://data.gov.cz/podmínky-užití/není-autorskoprávně-chráněnou-databází/> ;
ns1:osobní-údaje <https://data.gov.cz/podmínky-užití/neobsahuje-osobní-údaje/>
] .
21
DCAT-AP Dataset example
@prefix dcat: <http://www.w3.org/ns/dcat#> .
@prefix dcterms: <http://purl.org/dc/terms/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix ns1: <https://data.gov.cz/slovník/podmínky-užití/> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix vcard: <http://www.w3.org/2006/vcard/ns#> .
@prefix xml: <http://www.w3.org/XML/1998/namespace> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu> a dcat:Dataset ;
dcterms:title "Číselník pro dny v týdnu"@cs ;
dcterms:description "Tento číselník obsahuje dny v týdnu. Jejich identifikátory IRI by měly být používány pro jednoznačnou identifikaci dnů v týdnu."@cs ;
dcat:keyword "OFN"@cs, "den"@cs, "týden"@cs, "číselník"@cs, "codelist"@en ;
dcat:theme <http://publications.europa.eu/resource/authority/data-theme/GOVE> ;
dcterms:accrualPeriodicity <http://publications.europa.eu/resource/authority/frequency/IRREG> ;
dcterms:conformsTo <https://ofn.gov.cz/číselníky/> ;
dcterms:publisher <https://rpp-opendata.egon.gov.cz/odrpp/zdroj/orgán-veřejné-moci/00007064> ;
dcterms:spatial <https://linked.cuzk.cz/resource/ruian/stat/1> ;
dcat:contactPoint [ a vcard:Organization ;
vcard:fn "Kontakt pro otevřená data"@cs ;
vcard:hasEmail <mailto:otevrenadata@mvcr.cz> ] ;
dcat:distribution <https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/1>,
<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/2>,
#...
<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/9> ;
foaf:page <https://data.mvcr.gov.cz/soubory/číselníky/dny-v-týdnu.html> .
22
DCAT-AP Distribution example
<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/1> a dcat:Distribution ;
dcterms:format <http://publications.europa.eu/resource/authority/file-type/RDF_TURTLE> ;
dcterms:title "Číselník v RDF Turtle"@cs,
"Codelist in RDF Turtle"@en ;
dcat:accessURL <https://data.mvcr.gov.cz/soubory/číselníky/dny-v-týdnu.ttl> ;
dcat:downloadURL <https://data.mvcr.gov.cz/soubory/číselníky/dny-v-týdnu.ttl> ;
dcat:mediaType <http://www.iana.org/assignments/media-types/text/turtle> ;
ns1:specifikace [ a ns1:Specifikace ;
ns1:autorské-dílo <https://data.gov.cz/podmínky-užití/neobsahuje-autorská-díla/> ;
ns1:databáze-chráněná-zvláštními-právy <https://data.gov.cz/podmínky-užití/není-chráněna-zvláštním-právem-pořizovatele-databáze/> ;
ns1:databáze-jako-autorské-dílo <https://data.gov.cz/podmínky-užití/není-autorskoprávně-chráněnou-databází/> ;
ns1:osobní-údaje <https://data.gov.cz/podmínky-užití/neobsahuje-osobní-údaje/> ] .
23
DCAT-AP Distribution with data service example
<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/2> a dcat:Distribution ;
dcterms:title "SPARQL Endpoint"@cs,
"SPARQL Endpoint"@en ;
dcat:accessService <https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/2/přístupová-služba> ;
dcat:accessURL <https://data.mvcr.gov.cz/sparql> ;
ns1:specifikace [ a ns1:Specifikace ;
ns1:autorské-dílo <https://data.gov.cz/podmínky-užití/neobsahuje-autorská-díla/> ;
ns1:databáze-chráněná-zvláštními-právy <https://data.gov.cz/podmínky-užití/není-chráněna-zvláštním-právem-pořizovatele-databáze/> ;
ns1:databáze-jako-autorské-dílo <https://data.gov.cz/podmínky-užití/není-autorskoprávně-chráněnou-databází/> ;
ns1:osobní-údaje <https://data.gov.cz/podmínky-užití/neobsahuje-osobní-údaje/> ] .
<https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu/distribuce/2/přístupová-služba> a dcat:DataService ;
dcterms:title "SPARQL Endpoint"@cs,
"SPARQL Endpoint"@en ;
dcat:endpointDescription <https://data.mvcr.gov.cz/sparql> ;
dcat:endpointURL <https://data.mvcr.gov.cz/sparql> ;
dcat:servesDataset <https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/dny-v-týdnu> .
24
DCAT-AP catalogs and example
@prefix dcat: <http://www.w3.org/ns/dcat#> .
@prefix dct: <http://purl.org/dc/terms/> .
@prefix dcterms: <http://purl.org/dc/terms/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix ns1: <https://data.mvcr.gov.cz/zdroj/> .
@prefix ns10: <http://publications.europa.eu/resource/authority/country/> .
@prefix ns5: <http://publications.europa.eu/resource/authority/language/> .
@prefix ns6: <https://data.mvcr.gov.cz/zdroj/datové-sady/rpp/> .
@prefix ns7: <https://data.mvcr.gov.cz/zdroj/datové-sady/číselníky/> .
@prefix ns8: <http://publications.europa.eu/resource/authority/> .
@prefix ns9: <http://publications.europa.eu/resource/authority/eurovoc/schema#> .
ns1:katalog a dcat:Catalog ;
dct:description "Lokální katalog otevřených dat MVČR"@cs ;
dct:language ns5:CES ;
dct:publisher <https://rpp-opendata.egon.gov.cz/odrpp/zdroj/orgán-veřejné-moci/00007064> ;
dct:spatial ns10:CZE ;
dct:title "Lokální katalog otevřených dat MVČR"@cs ;
dcat:dataset
ns6:role,
ns6:soukromoprávní-uživatelé-údajů,
...
ns6:číselník-typů-místních-příslušností-k-subjektům,
ns6:číselník-typů-rozhodnutí-o-schválení-převodu-působnosti,
...
ns7:témata-událostí ;
dcat:themeTaxonomy ns8:data-theme,
ns9:EuroVoc ;
foaf:homepage <https://data.mvcr.gov.cz> .
25
void: VoID Vocabulary
26
VoID Dataset is different from:
VoID: General dataset metadata
27
VoID: General dataset metadata
28
VoID: Access metadata
29
VoID: Structural metadata
30
VoID: Structural metadata - void:subset
:DBpedia a void:Dataset;
void:subset :DBpedia_shortabstracts;
void:subset :DBpedia_infoboxes .
:DBpedia_shortabstracts a void:Dataset;
dcterms:title "DBpedia Short Abstracts";
dcterms:description "Short Abstracts (max. 500 chars long) of Wikipedia Articles";
void:dataDump <http://downloads.dbpedia.org/3.3/en/shortabstract_en.nt.bz2> .
:DBpedia_infoboxes a void:Dataset;
dcterms:title "DBpedia Infoboxes";
dcterms:description "Information that has been extracted from Wikipedia infoboxes.";
void:dataDump <http://downloads.dbpedia.org/3.3/en/infobox_en.nt.bz2> .
31
VoID: Partitioning datasets
:MyDataset a void:Dataset;
void:classPartition [ void:class foaf:Person; ];
void:classPartition [ void:class foaf:Organization; ];
void:propertyPartition [ void:property foaf:name; ];
void:propertyPartition [ void:property foaf:member; ];
.
32
VoID: Precomputed statistics
triples, entities, classes, properties, distinctSubjects, distinctObjects, documents
:DBpedia a void:Dataset;
void:classPartition [
void:class foaf:Person;
void:entities 312000;
];
void:propertyPartition [
void:property foaf:name;
void:triples 312000;
] .
33
VoID: Linkset
34
VoID: Describing linksets
Less descriptive, not preferred:
:DBpedia_Geonames a void:Linkset ;
void:target :DBpedia ;
void:target :Geonames .
Proper, preferred:
:DBpedia_Geonames a void:Linkset ;
void:subjectsTarget :DBpedia ;
void:objectsTarget :Geonames ;
void:linkPredicate owl:sameAs .
35
VoID example
@prefix dcterms: <http://purl.org/dc/terms/> .
@prefix void: <http://rdfs.org/ns/void#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
<http://linked.opendata.cz/resource/dataset/coi.cz/kontroly-sankce-zakazy> a void:Dataset ;
dcterms:title "Kontroly, sankce a zákazy ČOI"@cs, "Inspections, sanctions and bans of CTIA"@en ;
dcterms:creator <http://purl.org/klimek#me>, <http://mynarz.net/#jindrich> ;
dcterms:contributor <http://opendata.cz> ;
dcterms:description "Přehled základních informací o všech kontrolách, které inspektoři České obchodní inspekce provedli od 1. 1. 2012., včetně informací o veškerých pravomocných pokutách uložených na základě těchto kontrol a seznamu výrobků, jejichž prodej byl při těchto kontrolách zakázán, ať již z důvodu rozporů s technickými normami či dalšími předpisy, nebo pro porušení některých práv duševního vlastnictví."@cs ;
dcterms:source <http://www.coi.cz/userdata/files/dokumenty-ke-stazeni/open-data/zakazy.xls>,
<http://www.coi.cz/userdata/files/dokumenty-ke-stazeni/open-data/kontroly.xls>,
<http://www.coi.cz/userdata/files/dokumenty-ke-stazeni/open-data/sankce.xls> ;
dcterms:license <http://www.coi.cz/cz/spotrebitel/open-data-databaze-kontrol-sankci-a-zakazu/open-data-licence/> ;
void:exampleResource <http://linked.opendata.cz/resource/domain/coi.cz/check-action/221211240203501>, <http://linked.opendata.cz/resource/domain/coi.cz/ban/75715> ;
void:sparqlEndpoint <http://linked.opendata.cz/sparql> ;
void:dataDump <http://linked.opendata.cz/dump/coi.cz.zip> ;
dcterms:publisher <http://opendata.cz> ;
dcterms:modified "2013-10-08"^^xsd:date .
36