Abstrakt

Tento dokument je otevřenou formální normou ve smyslu § 3a odst. 3 zákona č. 106/1999 Sb., o svobodném přístupu k informacím, pro prostorová data. Definuje základní pojmy v oblasti prostorových dat, popisuje standardy pro reprezentaci vektorových a rastrových dat a zasazuje je do kontextu služeb pro vyhledávání a přístup k prostorovým datům. Obsahuje také pokyny pro popis prostorových dat metadaty.

Úvod

Tento dokument je otevřenou formální normou pro prostorová data, kde je oproti ostatním typům dat potřeba počítat s prostorovou složkou. Prostorová data zahrnují všechny typy dat, které jsou prostorově určeny, tedy že přímo nebo nepřímo odkazují na určitou polohu nebo zeměpisnou oblast. Zpravidla jsou určena geometrickým objektem a prostorovými vztahy s okolím (topologií). Obecně lze prostorová data rozdělit na vektorová a rastrová. Standardizace otevřených prostorových dat je zaštítěna pracovní skupinou ISO/TC 211 a mezinárodní standardizační organizací Open Geospatial Consortium (OGC). Správa prostorových dat, včetně jejich publikace, popisu metadaty atd. je u větších organizací zajištěna vybudováním komplexní infrastruktury prostorových dat (Spatial Data Infrastructure - SDI). SDI umožňuje poskytování dat prostřednictvím standardizovaných služeb, jejich vyhledávání v katalogu pomocí klíčových slov a územního rozsahu a umožňuje například transformaci dat mezi jednotlivými formáty nebo souřadnicovými referenčními systémy. V případě menších obcí a organizací není budování SDI nezbytné, data lze poskytovat například vystavením souborů na internet, je však potřeba data pravidelně aktualizovat. Doporučujeme také vytvořit alespoň webovou stránku, která poskytovaná data popisuje.

Na obecní úrovni mohou být datovými sadami, které je vhodné publikovat jako prostorová data, například seznam památných stromů nebo pomníků (bodová data), lokální cestní nebo inženýrská síť (liniová data), přehled obecní zeleně nebo územní plán (plošná data). Vektorová data by měla být publikována ve vhodném otevřeném formátu za použití standardizovaných geometrických objektů. Reprezentace geometrických objektů bývá zpravidla popsána ve standardu formátu, proto je vhodné si před implementací standard alespoň zběžně prostudovat, zpravidla se však pro reprezentaci geometrickcých objektů používá buď standard Geography Markup Language ([[!gml]]), nebo Well-Known Text (WKT). Je krajně nevhodné reprezentovat prostorovou složku použitím atributů lat a lon, respektive x a y, nebo podobné. Tato reprezentace nemusí obsahovat některé důležité informace o objektu (jako je například souřadnicový referenční systém) a není schopná reprezentovat jiné než bodové prvky. Norma je ilustrována příklady dat ve formátech GML a GeoJSON.

Geometrické objekty

Geometrické objekty jsou abstraktním zobrazením jevu reálného světa určeného polohou.

Standardy pro vyjádření geometrických objektů

Obecně je vhodné k vyjádření geometrického objektu používat interpretaci geometrických objektů tak, jak je definována v použitém formátu. Nejrozšířenější formáty pro zápis geometrických objektů jsou WKT a GML.

Well-Known Text (WKT)

Formát byl vytvořen OGC a je specifikován ve standardech Simple Feature Access a ISO 19125. Je vhodný především k zápisu 2D geometrií, jako je point, multipoint, line, polyline, polygon apod. Většina knihoven pro zpracování WKT očekává data v souřadnicovém referenčním systému WGS 84, souřadnice ale mohou být v libovolném souřadnicovém referenčním systému. Samotná reprezentace souřadnic ve WKT je nicméně bez definovaného souřadnicového systému. Použitý souřadnicový referenční systém by tedy měl být uveden jinde v datech. V GeoSPARQL je souřadnicový referenční systém pro WKT uveden před objektem, je možné ho tam uvádět i ve vektorových formátech.

Geography Mark-up Language (GML)

Formát je rozšířením značkovacího jazyka XML za účelem reprezentace geometrických objektů. Je definován ve standardu OGC [[!gml]] a je velice robustní. Umožňuje zápis souřadnic v mnoha souřadnicových systémech (pro ČR je nejdůležitější podpora souřadnicového referenčního systému S-JTSK) a reprezentaci všech forem prostorových informací, včetně pokryvu nebo senzorových dat. Větší robustnost je vykoupena větší složitostí zápisu.

Typy geometrických objektů

Základními typy geometrických objektů jsou:

Bod

Objekt je reprezentován bodem (Point). Podobně jako bod je reprezentován i multipoint - objekt reprezentovaný množinou bodů.

Lomená čára

Objekt je reprezentován lomenou čárou (například uliční čára, osa vodního toku).

Polygon

Objekt je reprezentován plochou, plochami, případně plochou s dírou (například plocha zeleně, vodní plocha, plocha parcely).

Souřadnicové referenční systémy

Pro definici souřadnicových referenčních systémů je používán registr EPSG (European Petroleum Survey Group), podporovaný všemi programy pro práci s prostorovými daty (GIS). Existuje několik způsobů zápisu kódu souřadncových referenčních systémů, ale dle doporučení OGC je nejvhodnější používat zápis ve formě HTTP URI http://opengis.net/def/crs/EPSG/0/[kód], například http://opengis.net/def/crs/EPSG/0/4326. Tento zápis formou HTTP URI je doporučen i touto otevřenou formální normou. Často se lze setkat i se zápisem ve formě URN (urn:ogc:def:crs:EPSG::4326) nebo jeho zkrácené formě (EPSG:4326). Zkrácený zápis má opačné pořadí souřadnic v případě souřadnicových refrenčních systémů, které mají standardně osy nastavené jinak než v kartézském systému souřadnic (typicky například WGS 84 nebo ETRS89, viz dále). Registr obsahuje celou řadu souřadnicových referenčních systémů, které opatřuje kódem. V České republice jsou nejčastěji využívány souřadnicové referenční systémy uvedené níže. Souřadnicové referenční systémy jsou rozlišovány geografické a projektované (využívající projekci geografického souřadnicového referenčního systému).

Systém jednotné trigonometrické sítě katastrální (S-JTSK)

Systém jednotné trigonometrické sítě katastrální (S-JTSK) - používaný např. v katastru nemovitostí. Pro využití v GIS je využíváno EPSG kódu 5514, který otáčí osy systému a souřadnice nabývají negativních hodnot (jsou uvozeny znaménkem minus). Kód 5514 představuje projektovaný systém S-JTSK / Krovak East North, tedy Křovákovo zobrazení geografického souřadnicového systému S-JTSK. Souřadnice jsou uváděny v metrech na osách X a Y jako vzdálenost od počátku systému, kterým je vrchol kuželu.

Příklad zobrazení dat v souřadnicovém referenčním systému S-JTSK / Krovak East North v GML je vidět v příkladu zápisu lomené čáry.

World Geodetic System 1984 (WGS 84)

World Geodetic System 1984 (WGS 84) - někdy laicky zvaný též "souřadnice GPS". Souřadnice bývají uvedeny ve stupních s několika desetinnými místy. Některé publikační formáty (např. GPX, GeoJSON nebo KML) počítají přímo s tím, že data jsou uložena v tomto souřadnicovém referenčním systému. V registru EPSG je tento souřadnicový referenční systém označen kódem 4326. Souřadnice jsou uváděny ve stupních jako zeměpisná šířka a délka, při zkráceném zápisu kódu souřadnicového referenčního systému ve formě URN jsou zapisovány v opačném pořadí (X, Y).

Web Mercator

Systém WGS 84 / Pseuso Mercator, označovaný také Web (nebo Google) Mercator - je projektovaný souřadnicový referenční systém používaný na většině globálních webových aplikací. Jeho nevýhodou je mimo jiné zkreslení významné velikosti ploch směrem k pólům. Je označen kódem 3857. Souřadnice jsou uváděny v metrech jako vzdálenost na osách X a Y od počátku, kterým je průsečík rovníku a nultého poledníku.

European Terrestrial Reference System (ETRS89)

European Terrestrial Reference System - je geografický souřadnicový referenční systém zpřesňující WGS 84 pro území Evropy. Zápis je stejný jako u WGS 84, souřadnice se liší v rámci milimetrů až centimetrů. Je označen kódem 4258. Souřadnice jsou uváděny ve stupních jako zeměpisná šířka a délka, při zkráceném zápisu kódu souřadnicového referenčního systému ve fromě URN jsou zapisovány v opačném pořadí (X, Y).

Vlastní organizace již neexistuje, ale oficiální stránka registru epsg, kde lze najít podrobnosti o všech EPSG kódech je dostupná na webové stránce www.epsg-registry.org/. Přehlednou a úplnou webovou aplikaci nad databází souřadnicových referenčních systémů vedených v EPSG lze najít také na webu epsg.io.

Vektorové formáty

Datové sady prostorových dat by měly být publikovány ve vhodném otevřeném formátu, který musí umožnit strojovou čitelnost. Tato sekce obsahuje přehled používaných otevřených formátů pro vektorová data.

Geography Markup Language (GML)

Jedná se formát XML pro prostorová data a standard OGC. Geometrie je zapisována za použití GML. Jedná se o komplexní formát, který je schopen zápisu v podstatě libovolného typu geometrických objektů a atributových hodnot. Formát GML ve verzi 3.2.1 je používán pro publikaci datových sad směrnice INSPIRE. K zápisu jsou používány dvojice tagů, jazyk XML je rozšířen o abstraktní typ AbstractFeatureType, který musí obsahovat geometrický objekt. Pro komplexní poskytování dat ve formátu GML je vhodné vytvořit schéma dokumentu v XML Schema Definition (XSD), které zajišťuje validitu dat.

OGC GeoPackage

Jedná se o nad souborovou databází SQLite postavený standardizovaný formát pro prostorová data. Lze do něj uložit stejnou strukturu jako do CSV a složitou geometrickou strukturu jako samostatný atribut. Vzhledem ke své povaze umí GeoPackage spravovat mimo vektorových dat i rastrová data. Jedná se o souborovou databázi, takže zde není uveden příklad dat. Více informací je ve standardu a na stránkách formátu.

GeoJSON [[!rfc7946]]

Jedná se o rozšíření formátu JSON pro reprezentaci geometrických objektů. Jednotlivé záznamy jsou reprezentovány jako samostatné objekty. Formát JSON vychází z formy objektu v jazyce JavaScript. Formát není tak robustní jako GML, ale není ani tak složitý. Podle specifikace formát předpokládá použití souřadnicového referenčního systému WGS 84. Původně specifikace počítala i s využitím jiných souřadnicových referenčních systémů, ale ukázalo se, že jejich použití je problematické. Do budoucna GeoJSON s použitím dalších souřadnicových referenčních systémů nepočítá. Přesto lze formát pro jiné souřadnicové referenční systémy využít, neexistuje ale standardizovaný způsob, jak souřadnicový referenční systém specifikovat. Doporučeným způsobem je využití atributu crs v následujícím příkladu, nebo využití formátů GML nebo GeoPackage. Formát JSON je hojně používaný jako výměnný formát v internetových formulářích. K dispozici je plná dokumentace formátu (v angličtině).

CSV [[!rfc4180]]

Tabulkový způsob zápisu vhodný pro nepříliš komplexní data. Jednotlivé záznamy atributové tabulky jsou zapsány jako řádky textového souboru a hodnoty záznamů jako řetězce oddělené čárkou (znak UTF-8 s kódem U+002C). Zápis geometrického objektu zpravidla obsahuje čárky, proto je vhodné hodnoty uzavřít do uvozovek (znak UTF-8 s kódem U+0022). Pro zápis prostorové informace je vhodné použít WKT. Data ve formátu CSV by měla obsahovat informaci o použitém souřadnicovém referenčním systému buď formou EPSG kódu, nebo URI (viz Souřadnicové referenční systémy), buď v hlavičce souboru, nebo jako atribut. Obecně však formát CSV není pro zápis prostorových objektů příliš doporučován.

ESRI Shapefile

ESRI Shapefile je poměrně zastaralý, přesto stále hojně používaný formát pro správu prostorových dat, vyvinutý společností ESRI, která uvolnila technickou dokumentaci formátu. Jedná se o otevřený formát, který uchovává informace ve více souborech. Vlastnosti jednotlivých prvků dodržují strukturu pro datovou sadu. Organizace spravující data prostřednictvím software od společnosti ESRI by s publikací dat v tomto formátu neměly mít problémy. Formát má řadu známých chyb a jeho používání není doporučeno. Pro publikaci otevřených dat je vhodnější použít formát GML, GeoJSON nebo GeoPackage.

Rastrové formáty

Pro rastrová data platí podobné podmínky jako pro kolekce obrázků, s několika upřesněními.

  1. Obrazové soubory jsou georeferencované v daném popsaném souřadnicovém referenčním systému,
  2. datová sada může obsahovat více obrazových souborů, ty by však měly obsahovat data stejného typu ve stejném souřadnicovém referenčním systému,
  3. datová sada by měla být opatřena metadaty, které obsahují dodatečný popis datové sady,
  4. data by měla být publikována v otevřeném formátu pro rastrová prostorová data.

Příklady některých vhodných otevřených formátů pro rastrová data jsou uvedeny níže.

GeoTIFF

Jedná se o metadatový standard umožňující georeferencování obrázků ve formátu TIFF. Definice formátu je na adrese https://trac.osgeo.org/geotiff/.

JPEG 2000 [[!JPEG2000]]

JPEG 2000 je obrazový kompresní formát odpovídající standardu ISO/IEC 15444-5:2015. Organizace OGC specifikovala metadatový standard ve formátu GML pro georeferencování JPEG 2000 - tímto standardem je GML JP2. Formát JPEG 2000 není přímo otevřený, ale všichni vlastníci patentů se shodli na tom, že specifikace bude volně dostupná každému bez poplatků.

OGC GeoPackage

Jedná se o nad souborovou databází SQLite postavený standardizovaný formát pro prostorová data, uvedený již mezi formáty pro vektrová data.Od verze knihovny GDAL 2.0 podporuje i rastrová data. Více na stránce zabývající se podporou rastrových dat v geopackage.

Propojená prostorová data

I prostorová data je možné publikovat podle principů propojených dat (linked data) tak, jak jsou popsána v otevřené formální normě pro Propojená data. K reprezentaci prostorových propojených dat slouží standard OGC GeoSPARQL [[geosparql]].

GeoSPARQL

K reprezentaci prostorových objektů GeoSPARQL využívá WKT i GML. Data je možné serializovat stejnými způsoby jako v otevřené formální normě pro Propojená data. Příklady, jak publikovat prostorová propojená data, jsou v této otevřené formální normě publikována v serializaci Turtle ([[turtle]]). GeoSPARQL je standard, ontologie a dotazovací jazyk. Ontologie definuje třídy SpatialObject, Feature, Geometry a její specializace a vztahy mezi nimi (viz obrázek).

GeoSPARQL Ontology
Schéma ontologie GeoSPARQL.

Objekt, který lze definovat v prostoru, je typu geo:Feature. Vyjádření geometrie je samostatný objekt typu geo:Geometry. Vztah mezi těmito objekty je:

Následující příklad představuje katastrální parcelu a její geometrii vyjádřenou jako WKT objekt:

Následující příklad ukazuje definici souřadnicového referenčního systému jako součást řetězce WKT:

Publikace dat

Datová sada může obsahovat objekty různých typů (například katastrální parcely a katastrální území), ale všechny objekty stejného typu v rámci datové sady musí mít stejnou strukturu (stejné atributy). Data je možné publikovat několika různými způsoby. Pro komplexní prostorová data s vybudovanou SDI je nejvhodnější publikovat data prostřednictvím standardizovaných služeb pro poskytování prostorových dat. Nejvhodnější jsou služby standardizované konsorciem OGC, jmenovitě Web Feature Service ([[!wfs]]) a Web Coverage Service (WCS).

Komplexní řešení pro SDI umožňují zpravidla poskytování dat na základě těchto standardů. Další možností je generovat datové soubory (pokrývající například území obce nebo povodí). Tyto soubory lze poskytovat prostřednictvím protokolu ATOM [[!rfc4287]], nebo vystavením na webové stránky. Poskytování dat přes ATOM patří mezi možnosti poskytování dat dle směrnice INSPIRE. Poskytování dat prostřednictvím webových služeb standardizovaných OGC nebo pomocí ATOM umožňuje uživatelům data snadněji vyhledávat a filtrovat. Pokud vaše organizace chce poskytovat komplexnější data, zvažte publikaci pomocí těchto služeb.

Kromě výše uvedených služeb standardizovaných OGC jsou ještě hojně používané služby Web Map Service [[!wms]] a Web Map Tile Service [[!wmts]]. Nejedná se však o služby poskytující otevřená data - služby poskytují pouze otisk dat ve formě obrázku. Přesto jsou vhodné k prohlížení dat nebo jako podkladové vrstvy ve webových prohlížečích.

Pokud jsou data organizace poskytována nebo zpracovávána externím subjektem - například firmou zpracovávající územní plán - měli by zadavatelé trvat na odevzdání práce v některém z otevřených formátů prostorových dat.

Podstatné je vyhnout se uzavřeným formátům. Mezi nejčastěji používané uzavřené formáty patří DWG, DGN, ESRI GeoDatabase a další. Stejně tak je vhodné vyhnout se proprietárním službám pro publikaci dat, které používají některé GIS softwary. Data publikovaná prostřednictvím těchto služeb nelze považovat za otevřená. Služby nebývají podporovány existujícími softwary třetích stran a licenční podmínky jejich využití nebývají transparentní. Jedná se například o tzv. REST API v softwarech firmy ESRI.

Web Feature Service (WFS)

WFS slouží k poskytování vektorových dat s konkrétními prvky na základě prostorových dotazů a filtrů (například omezení výběru pomocí typu prvku a ohraničujícího obdélníku). Služba se řídí standardem OGC Web Feature Service. Příkladem služby WFS běžící v českém prostředí je služba pro stahování katastrálních parcel podle směrnice INSPIRE provozovaná Českým úřadem zeměměřickým a katastrálním, která je dostupná přes přístupový bod WFS.

Web Coverage Service (WCS)

WCS slouží k poskytování pokrytí nebo jeho části na základě prostorových dotazů a filtrů. Služba se řídí standardem OGC Web Coverage Service. Příkladem služby WCS běžící v českém prostředí je služba pro stahování ortofotosnímků provozovaná Zeměměřickým úřadem, která je dostupná přes přístupový bod WCS.

Metadata

Kromě samotných dat je vhodné poskytovat i metadata - data o datech. Pro popis prostorových dat se běžně používá metadový standard dle normy ISO 19115.

V případě poskytování dat pomocí OGC standardizovaných služeb je vhodné poskytovat i metadata o těchto službách (např. podle standardu ISO 19119). Pro poskytování a vyhledávání metadat je vhodné používat službu OGC CSW, která spravuje metadatové záznamy a na jejich základě umožňuje vyhledávání datových sad a služeb.

V případě tvorby metadat dle norem ISO 19115 a 19119 je vhodné použít Metadatový profil ČR, který mimo jiné definuje položku o otevřenosti dat.

Metadata o vektorových datech by měla obsahovat popis atributů a poskytovaných datových formátů. Metadata o rastrových datech by měla obsahovat velikost pixelu, počet řádků a sloupců, počet kanálů, hodnotu no data, typ a hloubku pixelu, velikost nekomprimovaného rastru a minimální a maximální hodnotu kanálů. Pro vektorová i rastrová data by metadata měla obsahovat použitý souřadnicový referenční systém, informace o aktuálnosti a úplnosti dat, o jejich územním rozsahu, o způsobech publikace, o použité licenci a kvalitě dat a o poskytovateli dat a kontakt na něj. Většina těchto informací je v současné době již součástí Metadatového profilu ČR. Cílem je dostat do profilu nebo do metadatových dokumentů, s kterými je provázán, i ty zbývající položky.

INSPIRE

V roce 2007 vešla v platnost směrnice 2007/2/ES INSPIRE (Infrastructure for Spatial Information in Europe), která si klade za cíl standardizovat publikaci prostorových dat v Evropě. Data rozděluje do 34 témat na základě obsahu a definuje strukturu, v jaké by data měla být poskytována. Směrnice dále vyžaduje užívání standardů, které v tomto textu již byly zmíněny, jako je využití formátu GML, publikace dat prostřednictvím webových služeb OGC WFS, OGC WCS nebo pomocí ATOM, opatření dat i služeb metadaty podle standardů ISO 19115 a 19119 a jejich správu použitím služby OGC CSW. Směrnice je v České republice implementována novelou Zákona č. 123/1998 Sb., o právu na informace o životním prostředí, a Vyhláškou č. 103/2010 Sb.. V případě publikace dat orgánem veřejné správy je vhodné pokusit se publikovat data v souladu se směrnicí INSPIRE a to i v případě, že se nejedná o povinného poskytovatele ve smyslu implementace této směrnice Zákonem č. 123/1998 Sb.

Software

Datové formáty, které jsou podporovány sdružením OGC, by měly být podporovány prostřednictvím knihovny GDAL. Tu implementuje většina software určených pro správu prostorových dat. Mezi nejvýznamnější open-source projekty, které bez problému umožňují načítání dat ve formátech GML, GeoJSON, GeoPackage, CSV nebo Shapefile, ale které umí i stahovat nebo zobrazovat data prostřednictvím služeb WFS, WCS, WMS nebo WMTS, patří QGIS nebo Grass GIS. Seznam dalších open source GIS software je na Wikipedii. Nejpoužívanějším GIS software v České republice však zůstává komerční ArcGIS, přestože řadu standardů nepodporuje nebo podporuje velmi omezeně. K dispozici je také základní srovnání ArcGIS a QGIS.

QGIS

Open source projekt QGIS, dříve Quantum GIS je jedním z nejstabilnějších a nejrychleji se rozvíjejících GIS projektů. V aktuální verzi 3.x podporuje GML, GeoJSON, GeoPackage, Shapefile, standardy WFS (i ve verzi 2.0), WCS, WMS i WMTS. Software využívá knihovnu GDAL, některé její části byly implementovány přednostně, na jiné se ještě čeká. Zpracování komplexních typů v GML nebo zpracování dotazu GetFeatureInfo za použití importů schémat zůstávají problematické.

Grass GIS

Grass GIS patří mezi nejstarší a nejsilnější nástroje pro správu a analýzu prostorových informací, zároveň je však poměrně náročný na ovládání a nezkušení uživatelé mohou být ze začátku poměrně zmatení. Jeho prostorové analýzy jsou využívány i v jiných projektech. Software využívá knihovnu GDAL a podporuje všechny otevřené standardy, které jsou uvedeny v této otevřené formální normě.

ArcGIS

Americká firma ESRI patří posledních 20 let mezi lídry vývoje v GIS. Vyvíjejí standardy, které jsou široce používané, k otevřenosti však mají daleko. Formát Shapefile byl opatřen otevřenou dokumentací, ale například ESRI GeoDatabase zůstává proprietární. Software ArcGIS dlouhou dobu ignoroval vývoj evropských infrastruktur pro prostorová data využívajících otevřených standardů a implementace standardů jako je GML nebo WFS ve verzi 2.0 nebyla řešena buď vůbec, nebo nedostatečně.