Cílem tohoto dokumentu je specifikovat rozhraní lokálních katalogů otevřených dat (LKOD) pro jejich harvestování Národním katalogem otevřených dat (NKOD). Dokument je založen na základním datovém modelu pro kataolgy dat DCAT-AP-CZ. Na jeho základě jsou dodána specifika pro kontext harvestace lokálních katalogů otevřených dat do NKOD, včetně datových sad s vysokou socio-ekonomickou hodnotou, tzv. High-Value Datasets (HVDs). Poté jsou specifikovány 2 varianty rozhraní pro harvestaci, jedna využívá SPARQL endpoint a jedna specifikuje variantu uložení záznamů v souborech, bez použití SPARQL endpointu.
Provozování lokálního katalogu otevřených dat (LKOD) je jedním ze způsobů zajištění katalogizace dat v Národním katalogu otevřených dat (NKOD). Pro otevřená data je registrace v NKOD jedna ze zákonných podmínek pro to, aby data mohla být nazývána otevřenými daty. Tento způsob katalogizace je vhodný pro všechny organizace, u kterých se dá předpokládat katalogizace většího množství datových sad či častější aktualizace jejich metadat.
§ 24 odst. 2 vyhlášky č. 360/2023 Sb., o dlouhodobém řízení informačních systémů veřejné správy říká: Údaje vedené v informačním systému jsou poskytovány podle otevřené formální normy pro rozhraní katalogů otevřených dat, kterou zveřejňuje Digitální a informační agentura způsobem umožňujícím dálkový přístup. Pro účely plnění tohoto paragrafu vyhlášky slouží Otevřená formální norma DCAT-AP-CZ: Specifikace pro vyhlášku č. 360/2023 Sb., o dlouhodobém řízení informačních systémů veřejné správy, nikoliv tento dokument.
Oproti doporučení ze 11.1.2021 jsou v této OFN následující změny:
dct:partOf
na dcat:inSeries
http://data.europa.eu/eli/reg_impl/2023/138/oj
pro označení datové sady s vysokou socio-ekonomickou hodnotou (HVDs)
V této sekci jsou popsány položky, které mohou být evidované v Národním katalogu otevřených dat (NKOD) pro každou datovou sadu a její distribuci. Položky se řídí standardem DCAT Application Profile for data portals in Europe Version 3.0.0 (DCAT-AP 3.0.0). Jedná se o standard založený na propojených datech, předpokládá se tedy znalost Otevřené formální normy Propojená data.
DCAT-AP 3.0.0 rozlišuje čtyři základní typy entit. Datovou sadu, její distribuci, datovou službu a datovou sérii. Metadata datové sady ji popisují bez ohledu na konkrétní reprezentaci jejích dat. Ta je popsána jako distribuce datové sady, která reprezentuje buď soubor ke stažení, nebo odkazuje na datovou službu, přes kterou jsou data k dispozici. Distribucí může mít datová sada více, lišit se ale mohou pouze formátem souboru ke stažení (např. CSV či JSON) či způsobem zpřístupnění (soubor ke stažení či datová služba). Obsahově by distribuce měly být ekvivalentní. Datová série pak reprezentuje skupinu datových sad. Jednotlivé datové sady v sérii se mohou lišit například geograficky, např. datové sady za jednotlivé obce, nebo časově, např. datové sady za jednotlivé roky. Datovou sérii však mohou tvořit například i datové sady z jednoho informačního systému. Datové série nemají vlastní distribuce.
V popisu položek a rozhraní budou použity následující prefixy slovníků.
dcat: http://www.w3.org/ns/dcat#
dct: http://purl.org/dc/terms/
foaf: http://xmlns.com/foaf/0.1/
rdfs: http://www.w3.org/2000/01/rdf-schema#
schema: http://schema.org/
skos: http://www.w3.org/2004/02/skos/core#
xsd: http://www.w3.org/2001/XMLSchema#
vcard: http://www.w3.org/2006/vcard/ns#
dcatap: http://data.europa.eu/r5r/
pu: https://data.gov.cz/slovník/podmínky-užití/
nkod: https://data.gov.cz/slovník/nkod/
Pro přehlednost zápisu budou použity ještě následující prefixy zkracující IRI vzorových entit.
sada: https://data.gov.cz/zdroj/datová-sada/1
série: https://data.gov.cz/zdroj/datová-série/1
katalog: https://data.gov.cz/zdroj/katalog/1
distribuce: https://data.gov.cz/zdroj/datová-sada/1/distribuce/1
služba: https://data.gov.cz/zdroj/datová-sada/1/distribuce/2/datová-služba
čas: https://data.gov.cz/zdroj/datová-sada/1/časové-pokrytí
kontakt: https://data.gov.cz/zdroj/datová-sada/1/kontaktní-bod
podmínky: https://data.gov.cz/zdroj/datová-sada/1/distribuce/1/podmínky-užití
správce: https://data.gov.cz/zdroj/katalog/kontaktní-bod
katalog: a dcat:Catalog .
název
, dct:title
katalog: dct:title "Katalog otevřených dat Ministerstva dopravy"@cs, "Open Data Catalog of the Ministry of Transport"@en .
popis
, dct:description
katalog: dct:description "Otevřená data Ministerstva dopravy. Obsahuje datové sady o jízdních řádech a liniových vedeních veřejné dopravy."@cs, "Open data of the Ministry of Transport. It contains datasets regarding timetables of public transport."@en .
poskytovatel
, dct:publisher
katalog: dct:publisher <https://rpp-opendata.egon.gov.cz/odrpp/zdroj/orgán-veřejné-moci/66003008> .
kontaktní_bod
, dcat:contactPoint
vcard:Kind
s vlastnostmi vcard:fn
a vcard:hasEmail
.
katalog: dcat:contactPoint správce: . správce: a vcard:Individual ; vcard:fn "Jan Novák"@cs ; vcard:hasEmail <mailto:jan.novak@organizace.cz> .
domovská_stránka
, foaf:homepage
katalog: foaf:homepage <https://data.gov.cz/> .
datová_sada
, dcat:dataset
katalog: dcat:dataset sada: .
sada: a dcat:Dataset .
název
, dct:title
sada: dct:title "Kontroly plnění povinností zaměstnavatelů v oblasti sociálního zabezpečení"@cs, "Duty fulfillment inspections in the area of social security"@en .
popis
, dct:description
sada: dct:description "Statistika kontrol plnění povinností zaměstnavatelů v oblasti sociálního zabezpečení od roku 2009"@cs, "Social security statistics for 2009"@en .
poskytovatel
, dct:publisher
sada: dct:publisher <https://rpp-opendata.egon.gov.cz/odrpp/zdroj/orgán-veřejné-moci/66003008> .
téma
, dcat:theme
sada: dcat:theme <http://publications.europa.eu/resource/authority/data-theme/TRAN> .
periodicita_aktualizace
, dct:accrualPeriodicity
sada: dct:accrualPeriodicity <http://publications.europa.eu/resource/authority/frequency/MONTHLY> .
klíčové_slovo
, dcat:keyword
sada: dcat:keyword "kontrola"@cs, "statistika"@cs, "inspection"@en, "statistics"@en .
prvek_rúian
, dct:spatial
sada: dct:spatial <https://linked.cuzk.cz/resource/ruian/stat/1> .
geografické_území
, dct:spatial
sada: dct:spatial <http://publications.europa.eu/resource/authority/continent/EUROPE> .
sada: dct:spatial <https://sws.geonames.org/6290257/> .
časové_pokrytí
, dct:temporal
dct:PeriodOfTime
s vlastnostmi dcat:startDate
a dcat:endDate
, které mají datový typ xsd:date
.
sada: dct:temporal čas: . čas: dcat:startDate "2009-01-01"^^xsd:date ; dcat:endDate "2017-12-31"^^xsd:date .
kontaktní_bod
, dcat:contactPoint
vcard:Kind
s vlastnostmi vcard:fn
a vcard:hasEmail
.
sada: dcat:contactPoint kontakt: . kontakt: a vcard:Individual ; vcard:fn "Jan Novák"@cs ; vcard:hasEmail <mailto:jan.novak@organizace.cz> .
dokumentace
, foaf:page
sada: foaf:page <https://data.cssz.cz/documentation/kontroly-plneni-povinnosti-zamestnavatelu-v-oblasti-socialniho-zabezpeceni> .
specifikace
, dct:conformsTo
sada: dct:conformsTo <https://ofn.gov.cz/turistické-cíle/2020-07-01/> .
koncept_euroVoc
, dcat:theme
sada: dcat:theme <http://eurovoc.europa.eu/1001>, <http://eurovoc.europa.eu/4050> .
prostorové_rozlišení_v_metrech
, dcat:spatialResolutionInMeters
"0.5"
časové_rozlišení
, dcat:temporalResolution
xsd:duration
P1D
právní_předpis
, dcatap:applicableLegislation
http://data.europa.eu/eli/reg_impl/2023/138/oj
http://data.europa.eu/eli/dir/2019/1024/oj
http://data.europa.eu/eli/reg/2022/868/oj
https://www.e-sbirka.cz/eli/cz/sb/1999/106/2024-01-01/dokument/norma/cast_1/par_3a/odst_6
https://www.e-sbirka.cz/eli/cz/sb/1999/106/2024-01-01/dokument/norma/cast_1/par_5a/odst_1
je_součástí
, dcat:inSeries
sada: dcat:inSeries <https://datový.katalog.cz/zdroj/datové-sady/série1> .
distribuce
, dcat:distribution
sada: dcat:distribution distribuce: .
distribuce: a dcat:Distribution.
podmínky_užití
, pu:specifikace
pu:Specifikace
s vlastnostmi pu:autorské-dílo
, pu:databáze-jako-autorské-dílo
, pu:databáze-chráněná-zvláštními-právy
a pu:osobní-údaje
.
distribuce: pu:specifikace podmínky: . podmínky: a pu:Specifikace ; pu:autorské-dílo <https://data.gov.cz/podmínky-užití/neobsahuje-autorská-díla/> ; pu:databáze-jako-autorské-dílo <https://data.gov.cz/podmínky-užití/není-autorskoprávně-chráněnou-databází/> ; pu:databáze-chráněná-zvláštními-právy <https://data.gov.cz/podmínky-užití/není-chráněna-zvláštním-právem-pořizovatele-databáze/> ; pu:osobní-údaje <https://data.gov.cz/podmínky-užití/neobsahuje-osobní-údaje/> .
přístupové_url
, dcat:accessURL
distribuce: dcat:accessURL <https://data.cssz.cz/dump/kontroly-plneni-povinnosti-zamestnavatelu-v-oblasti-socialniho-zabezpeceni.csv> .
právní_předpis
, dcatap:applicableLegislation
http://data.europa.eu/eli/reg_impl/2023/138/oj
http://data.europa.eu/eli/dir/2019/1024/oj
http://data.europa.eu/eli/reg/2022/868/oj
https://www.e-sbirka.cz/eli/cz/sb/1999/106/2024-01-01/dokument/norma/cast_1/par_3a/odst_6
https://www.e-sbirka.cz/eli/cz/sb/1999/106/2024-01-01/dokument/norma/cast_1/par_5a/odst_1
název
, dct:title
distribuce: dct:title "Kontroly plnění povinností zaměstnavatelů v oblasti sociálního zabezpečení v CSV."@cs, "CSV representation of inspections in the area of social security."@en .
Jedná se o variantu třídy Distribuce pro reprezentaci souboru ke stažení. Následující položky se používají navíc k těm společným pro všechny distribuce.
distribuce: a dcat:Distribution.
soubor_ke_stažení
, dcat:downloadURL
distribuce: dcat:downloadURL <https://data.cssz.cz/dump/kontroly-plneni-povinnosti-zamestnavatelu-v-oblasti-socialniho-zabezpeceni.csv> .
formát
, dct:format
distribuce: dct:format <http://publications.europa.eu/resource/authority/file-type/CSV> .
typ_média
, dcat:mediaType
distribuce: dcat:mediaType <http://www.iana.org/assignments/media-types/text/csv> .
schéma
, dct:conformsTo
distribuce: dct:conformsTo <https://data.cssz.cz/dump/kontroly-plneni-povinnosti-zamestnavatelu-v-oblasti-socialniho-zabezpeceni-schema.json> .
typ_média_komprese
, dcat:compressFormat
distribuce: dcat:compressFormat <http://www.iana.org/assignments/media-types/application/zip> .
typ_média_balíčku
, dcat:packageFormat
distribuce: dcat:packageFormat <http://www.iana.org/assignments/media-types/application/zip> .
Jedná se o variantu třídy Distribuce pro reprezentaci distribuce pomocí datové služby. Následující položky se používají navíc k těm společným pro všechny distribuce.
distribuce: a dcat:Distribution.
přístupová_služba
, dcat:accessService
distribuce: dcat:accessService služba: .
služba: a dcat:DataService .
název
, dct:title
služba: dct:title "SPARQL endpoint České správy sociálního zabezpečení"@cs, "Czech Social Security Administration SPARQL endpoint"@en .
přístupový_bod
, dcat:endpointURL
https://data.cssz.cz/sparql
právní_předpis
, dcatap:applicableLegislation
http://data.europa.eu/eli/reg_impl/2023/138/oj
http://data.europa.eu/eli/dir/2019/1024/oj
https://www.e-sbirka.cz/eli/cz/sb/1999/106/2024-01-01/dokument/norma/cast_1/par_3a/odst_6
https://www.e-sbirka.cz/eli/cz/sb/1999/106/2024-01-01/dokument/norma/cast_1/par_5a/odst_1
specifikace
, dct:conformsTo
služba: dct:conformsTo <https://www.w3.org/TR/sparql11-protocol/> .
dokumentace
, foaf:page
služba: foaf:page <https://www.data.cz/služba/dokumentace> .
popis_přístupového_bodu
, dcat:endpointDescription
https://data.cssz.cz/sparql
Datová série zastřešuje související datové sady a série. Souvislost může být časová (rozpočet v letech), prostorová (seznamy ulic v obcích) či tématická (datové sady z jednoho systému). Datová série je podtřídou Datové sady, ale nemá vlastní distribuce. Související DCAT-AP issue o typech datových sérií.
série: a dcat:DatasetSeries .
Tato sekce popisuje další položky a povinnosti, které se týkají pouze datových sad s vysokou socio-ekonomickou hodnotou, tzv. High Value Datasets (HVDs). Toto rozšíření je založeno na evropském standardu DCAT-AP High Value Datasets a zavádí položky nutné pro soulad s prováděcím nařízením HVD.
Součástí požadavků prováděcího nařízení HVD jsou i kvalitativní požadavky na metadatové záznamy. Ty zahrnují mj. perzistenci použitých identifikátorů (IRI) datových sad, datových služeb, podmínek užití, koncových bodů služeb. Detailní informace viz sekce 10 v DCAT-AP HVD, zejména pak sekce 10.4.
sada: a dcat:Dataset .
právní_předpis
, dcatap:applicableLegislation
http://data.europa.eu/eli/reg_impl/2023/138/oj
V červnu 2024 rozšířil Úřad pro publikace Evropské unie použitý číselník o všechna témata datových sad uvedených v prováděcím nařízení HVD.
Je třeba používat co nejdetailnější kategorii, např. http://data.europa.eu/bna/c_1e787364
pro "Referenční údaje pro vodočty, které jsou důležité pro plavbu", nikoliv pouze http://data.europa.eu/bna/c_b79e35eb
pro Mobilitu.
kategorie_hvd
, dcatap:hvdCategory
http://data.europa.eu/bna/c_1e787364
distribuce
, dcat:distribution
právní_předpis
, dcatap:applicableLegislation
http://data.europa.eu/eli/reg_impl/2023/138/oj
služba: a dcat:DataService .
právní_předpis
, dcatap:applicableLegislation
http://data.europa.eu/eli/reg_impl/2023/138/oj
V červnu 2024 rozšířil Úřad pro publikace Evropské unie použitý číselník o všechna témata datových sad uvedených v prováděcím nařízení HVD.
Je třeba používat co nejdetailnější kategorii, např. http://data.europa.eu/bna/c_1e787364
pro "Referenční údaje pro vodočty, které jsou důležité pro plavbu", nikoliv pouze http://data.europa.eu/bna/c_b79e35eb
pro Mobilitu.
kategorie_hvd
, dcatap:hvdCategory
http://data.europa.eu/bna/c_1e787364
kontaktní_bod
, dcat:contactPoint
vcard:Kind
s vlastnostmi vcard:fn
a vcard:hasEmail
.
služba: dcat:contactPoint správce: . správce: a vcard:Individual ; vcard:fn "Jan Novák"@cs ; vcard:hasEmail <mailto:jan.novak@organizace.cz> .
dokumentace
, foaf:page
služba: foaf:page <https://www.data.cz/služba/dokumentace> .
V této sekci je popis dvou možných rozhraní lokálních katalogů otevřených dat pro harvestaci záznamů do Národního katalogu otevřených dat.
Tato varianta rozhraní je určena pro instituce, které nechtějí nebo nemohou provozovat pro účely harvestace metadat o datových sadách do NKOD SPARQL endpoint.
Počítá se serializací metadat o datových sadách do statických souborů umístěných na web.
Jako indexový soubor pak poslouží soubor obsahující instanci třídy dcat:Catalog
, která pomocí vlastnosti dcat:dataset
ukazuje na URL jednotlivých datových sad a datových sérií.
Při přístupu na tato URL datových sad NKOD předpokládá, že v odpovědi dostane kompletní katalogizační záznam pro danou datovou sadu či sérii, včetně jejích distribucí a datových služeb.
Datové sady, datové série, distribuce a datové služby musí být identifikovány svými IRI, nesmí se jednat o RDF blank nody.
Příklady obsahují i příslušná JSON schémata pro validaci souborů ve variantě JSON-LD.
Soubor katalogu je soubor v RDF serializaci Turtle či JSON-LD, který obsahuje instanci třídy dcat:Catalog
a odkazy na jednotlivé katalogizované datové sady.
Na URL specifikovaných v souboru katalogu pak NKOD očekává soubory v RDF serializaci Turtle či JSON-LD obsahující kompletní metadatový záznam datové sady, včetně distribucí.
Na URL specifikovaných v souboru katalogu pak NKOD očekává soubory v RDF serializaci Turtle či JSON-LD obsahující kompletní metadatový záznam datové sady nebo datové série.
Datová sada v sérii ukazuje na URL datové série pomocí dcat:inSeries
(RDF Turtle) či je_součástí
(JSON-LD).
Na URL specifikovaných v souboru katalogu pak NKOD očekává soubory v RDF serializaci Turtle či JSON-LD obsahující kompletní metadatový záznam datové sady, včetně distribucí.
Pro HVD je třeba specifikovat nejen že na datovou sadu se vztahuje prováděcí nařízení HVD, ale i na které její distribuce a datové služby, jelikož to nemusí být na všechny.
V každém případě je to indikováno pomocí hodnoty dcatap:applicableLegislation
(RDF Turtle) či právní_předpis
(JSON-LD) s hodnotou http://data.europa.eu/eli/reg_impl/2023/138/oj
.
V této sekci uvádíme příklady katalogů užívajících rozhraní DCAT-AP Dokumenty.
Aktuální příklady lze nalézt v sekci Lokální katalogy v NKOD.
Toto rozhraní předpokládá, že metadata datových sad dle této specifikace jsou uložena a přístupná ve SPARQL endpointu.
Obsah záznamů je identický k rozhraní DCAT-AP Dokumenty.
Po registraci tohoto SPARQL endpointu se na něm NKOD zeptá nejprve na seznam instancí tříd dcat:Dataset
a dcat:DatasetSeries
, a poté se po skupinách bude ptát na povinné, nepovinné i další položky jednotlivých datových sad dle této specifikace a specifikace DCAT-AP 3.0.0.
Jedná se o nejjednodušší způsob registrace lokálního katalogu otevřených dat.
Datové sady, distribuce a datové služby musí být identifikovány svými IRI, nesmí se jednat o RDF blank nody.
V této sekci uvádíme příklady katalogů užívajících rozhraní SPARQL endpoint.
Aktuální příklady lze nalézt v sekci Lokální katalogy v NKOD.