GISáček


Srovnání standardů CEN, FGDC a ISO pro metadata

Ing. Jan Růžička
Institut ekonomiky a systémů řízení
VŠB – Technická univerzita Ostrava
17. listopadu 15, 708 33 Ostrava – Poruba
E – mail: jan.ruzicka@vsb.cz

Abstract

This paper describes comparison of three main standards that are used for describing metadata of geodata. There are compared basics elements of metadata and author's points of view also. Paper discussed problems and deficiency of these standards.

Abstrakt

Příspěvek se zabývá srovnáním hlavních standardů, které se používají pro popis metadat o geodatech. V příspěvku jsou srovnávány základní prvky jednotlivých standardů. Rovněž budou srovnávány přístupy jednotlivých skupin autorů daných standardů. Dále budou zmíněny problémy a nedostatky jednotlivých řešení.

Úvod

V současné době existuje pro popis metadat pro geoinformaci (geodat) několik více či méně závazných standardů (norem). V Evropě je využíván především standard CEN (prEN 12657 Geographic Information – Metadata). Jiným standardem v této oblasti je standard americké organizace FGDC (Federal Geographic Data Committee) nazvaný Standard for Digital Geospatial Metadata. Dalším je standard organizace ISO (International Organization for Standardization).

Všechny zmiňované standardy přistupují k popisu tzv. datové sady (souboru). Datovou sadu lze chápat jako data tvořící logický celek v rámci určitého informačního systému (datové báze). Přestože se výše zmiňované standardy často liší v některých detailech, všechny se snaží zachytit následující údaje popisující datovou sadu: identifikace (název, verze, ...), stručný popis (abstrakt, prostorové schéma, jazyk, důvod vytvoření), prvky kvality (popis vzniku, polohová přesnost, ...), související dokumenty, související datové sady, prostorový referenční systém, rozsah (prostorový, časový), popis obsahu (definice dat, klasifikace), administrativní metadata (organizace, osoby, údaje o distribuci), metadata o metadatech (autor, datum vzniku, ...).

V případě tohoto srovnání byl hodnocen předběžný standard ”ENV 12657:1998 Geographic information – Data description – Metadata” vytvořený Evropskou komisí pro normalizaci (CEN), konkrétně technickou skupinou CEN/TC 287. Dále bude tento standard pro zjednodušení uváděn jen pod názvem komise jež jej vytvořila, a to CEN. Zároveň pak byla hodnocena i norma ”ČSN P ENV 12657 Geografická informace – Popis dat – Metadata”, která je českým překladem CEN standardu (dále však zmiňována nebude, neboť je jen ekvivalentem CEN standardu). Dalším srovnávaným standardem byl standard, respektive jeho pracovní verze ISO/CD 19115 z konce roku 1999 vytvořená technickou komisí ISO/TC 211. Standard bude pro zjednodušení uváděn pod označením ISO. Posledním srovnávaným standardem byl Standard for Digital Geospatial Metadata, verze z roku 1998, který vytvořil Federal Geographic Data Comitee v USA. Standard bude pro zjednodušení uváděn pod označením FGDC.

Protože jsou zde hodnoceny dva neúplné standardy (pracovní) a pouze jeden dokončený je třeba říci, že standard CEN se již nevyvíjí a tudíž může být pokládán za dokončený. Pracovní verze standardu ISO, která byla hodnocena, byla jedna z posledních před finální verzí standardu a standard nedoznal od té doby výraznějších změn.

Použité výrazové prostředky ve standardech

Standard ISO zvolil pro popis standardu tři základní výrazové prostředky. Textový popis organizovaný v odstavcích, UML (Unified Modeling Language) schémata (diagramy) a textový popis organizovaný v tabulkách. Zvolení UML schémat je zjevně vhodné a poskytuje přehledný popis jednotlivých prvků metadat. Výhodou využití UML schémat, mimo jejich přehlednosti, je rovněž možnost jejich využití ve standardních OO (objektově orientovaných) návrhových prostředích, neboť UML se stal významným standardem v této oblasti. UML schémata bohužel nejsou vyčerpávajícím popisem a k získání všech potřebných informací k implementaci tohoto standardu je nutné využít i tabulkového popisu. Organizace v tabulkách je však značně nepřehledná a v této oblasti bude potřeba ještě trochu na standardu zapracovat. Nicméně součástí popisu v tabulkách jsou i zkrácené názvy prvků metadat, které mohou být s výhodou využity pro XML (eXtensible Markup Language) nebo jiný značkovací jazyk (např. SGML).

Standard CEN používá pro popis čtyři nástroje. Textový popis organizovaných v odstavcích (kapitolách), EXPRESS schémata, EXPRESS-G schémata a text organizovaný v tabulkách. EXPRESS-G schémata poskytují stejně jako UML schémata přehledný popis prvků metadat, neboť poskytují informace ve formě diagramů. Stejně jako UML schémata neposkytují kompletní popis prvků metadat. Nicméně narozdíl od ISO poskytuje CEN standard kompletní popis prvků metadat v podobě EXPRESS schémat, která jsou rovněž velmi přehledná, přestože se jedná o textový popis. EXPRESS sám osobě je ISO standardem a snad jediný důvod proč nebyl využit v případě ISO standardu je jeho menší rozšíření než UML. Přehledně jsou rovněž všechny informace uvedeny v tabulkách. Celkově, lze říci, že CEN standard je prezentován daleko přehlednějším způsobem než ISO.

Přestože FGDC standard nevyužívá pro prezentaci prvků metadat ani grafických schémat (diagramů), ani tabulek, jeví se jako velmi přehledný a v jednom zápise stejně jako EXPRESS popisuje všechny prvky standardu. Pro popis prvků metadat používá vlastní textový zápis, který je organizován do jednoduchých struktur a tyto struktury jsou snadno pochopitelné. Výhodou je, že čtenář nepotřebuje mít ke kvalitnímu čtení standardu znalosti EXPRESS nebo UML. Nevýhodou je nemožnost přímého využití schémat jako v případě ISO nebo CEN.

V dalších kapitolách bude hodnoceno to jak jsou jednotlivé složky (složky odpovídající standardu CEN) metadat řešeny ve srovnávaných standardech.

Identifikace datové sady (název, verze, ...)

Standard CEN vyžaduje název datové sady, který je jedinečný v rámci organizace, která datovou sadu pořizuje a umožňuje specifikovat verzi datové sady, alternativní názvy a organizaci se vztahem k dokumentu.

FGDC řeší tuto část jako ukazatel na třídu dokumentů. V této třídě je možné uvést název, verzi, typ dokumentu (např. datová sada) a organizaci se vztahem k dokumentu.

ISO řeší identifikaci obdobně jako FGDC.

Výhodou řešení ISO i FGDC je možnost využití zmíněné třídy k základní identifikaci různých dokumentů. Jak samotné datové sady, tak dokumentů, které mají k datové sadě vztah (tištěné, elektronické, mapy, video, audio, atd.).

Stručný popis (abstrakt, jazyk, důvod vytvoření, prostorové schéma, ...)

Všechny tři standardy umožňují definovat popis (abstrakt) datové sady, jazyk, znakovou sadu a důvod vytvoření datové sady. Přičemž pouze důvod vytvoření je nepovinný u ISO a CEN. Výrazné rozdíly nastávají v definování prostorového schématu datové sady, tj. zda se jedná o rast, vektor, s topologií, bez atd.

CEN definuje základní prostorová schémata (plochy s překryvy, bez překryvů, linie s topologií, bez topologie, rastr, TIN, atd.) a umožňuje definovat uživatelské prostorové schéma s využitím základních stavebních elementů jako jsou bod, linie, voxel, pixel. V CEN je tato informace povinná. Navíc pro prostorové schéma rastr nabízí možnost specifikace typu rastru a popisu rastru.

ISO nabízí pro popis prostorové reprezentace více než 10 tříd, které umožňují podrobný popis charakteru prostorové reprezentace, ale nevyžaduje jejich uvedení. Je zde stejně jako v CEN možné definovat typ (rastr, vektor, TIN, image, matrix, ..) navíc však jsou k dispozici strukturované položky pro popis vlastností rastru, vektoru a snímku. U vektoru je např. možné definovat počty objektů, geometrické typy, typ topologie, u rastru pak barevnou hloubku, rozměry, rozlišení, u snímku je možné uvést počet pásem, typ senzoru, parametry snímání, spektrální charakteristiky, podmínky snímání.

FGDC nabízí v případě vektoru obdobné možnosti jako ISO. V případě rastru a snímku nabízí pouze možnost specifikace na úrovni rastru, tj. rozlišení, barevná hloubka, rozměry. V případě vektoru však využívá specifikace dle VPF (Vector Product Format) formátu nebo SDTS (Spatial Data Transfer Standard) formátu, které jsou výměnnými vektorovými formáty.

Velice důležitou složkou metadat, především ve vztahu k metainformačním systémům je existence ukázky datové sady. Všechny tři standardy s touto položkou počítají, přičemž CEN uvádí pouze jako doporučení co by měla obsahovat a FGDC i ISO přesně specifikují její složky. Jedná se zejména o název, typ, umístění (URL), popis.

Prvky kvality (popis vzniku, polohová přesnost, ...)

CEN využívá k definování externí standard ENV 12656, přičemž musí být definován původ datové sady nebo některý z parametrů kvality. V případě parametrů kvality je možné specifikovat např. úplnost, stejnorodost, konzistenci, polohovou přesnost a také složky metakvality jednotlivých parametrů. ISO vede prvky kvality jako nepovinné. Využívá ISO 19113. Přičemž svým rozsahem odpovídá přibližně CEN. FGDC rovněž nevyžaduje specifikaci prvků kvality a rozsahem odpovídá CEN.

Související dokumenty

V případě CEN je ponechána volnost ve specifikaci dokumentace. Tato skutečnost může způsobit nejednoznačnost v identifikaci citovaných dokumentů. V případě ISO je dokumentace specifikována odkazem na jiný datový soubor, v tomto případě dokument. Pro popis dokumentu je využita základní identifikace a třída pro popis dokumentů (viz kapitola Identifikace datové sady). Je zde možné uvést název, autora, včetně ukazatelů na třídy osoby, organizace, ISSN, ISBN. FGDC řeší definici obdobně jako ISO.

Související datové sady

V případě CEN se na související datovou sadu odkazuje přes její jednoznačný název. Přičemž nejsou k dispozici specifikace typů vztahů.

ISO i FGDC řeší vazbu jako v případě souvisejících dokumentů, neboť související datová sada je také dokument. K dispozici je výběr z možných vztahů typu agregace, asociace, kompozice.

Prostorový referenční systém

Je v CEN i ISO řešen obdobně. V ISO pak odkazem na externí ISO standardy. Nejrozsáhlejší specifikace prostorových referenčních systémů je v FGDC. Součástí standardu je totiž seznam všech dostupných přímých prostorových referenčních systémů. Respektive je zde možnost výběru z číselníku mapových projekcí, referenčních elipsoidů, atd. Je zde možnost definování vlastního referenčního systému, který je založený jak na zeměpisných souřadnicích tak mapových souřadnicích.

Rozsah (prostorový, časový)

CEN, FGDC i ISO řeší podobně. Plošný rozsah se definuje jako obdélník, polygon nebo geografický areál. Areál se v případě ISO a FGDC vybírá z rejstříku (thesauru). V případě CEN se píše volný text a může se specifikovat kód areálu a nepřímý prostorový referenční systém pro příslušný areál(y). Výběr areálu(ů) z rejstříku zamezuje vzniku chyb z uvedení nepřesných (nejednoznačných) názvů areálů. Předpokladem je však existence takovýchto rejstříků. Výhodou je rovněž předání takového rejstříku jako součást metadat (nebo jako přílohu k metadatům) a ten je možné implementovat v metainformačním systému.

Všechny tři standardy umožňují definovat časový a vertikální rozsah. ISO však přidává i prostoro-časový aspekt (vývoj v čase) a pro vertikální přidává ukazatel na referenční systém. ISO a FGDC vyžadují souřadnice v geografických souřadnicích, CEN umožňuje definování souřadného systému v němž jsou souřadnice uváděny. Autoři CEN tímto dávají velký prostor k zadávání rozsahu v souřadnicích různých souřadných systémů, nicméně tím významným způsobem komplikují využití zadaného rozsahu pro vyhledávání v metainformačních systémech. Tvůrci metainformačních systémů pak musí mít k dispozici transformační rovnice pro nespočet různých souřadných systémů a to není prakticky možné.

Popis obsahu (definice dat)

CEN vyžaduje zadání textového popisu obsahu dat a umožňuje definovat strukturu v podobě typů objektu (tříd), jejich atributů a vztahů (nadtřída, podtřída, asociace). Všechny prvky struktury je možné klasifikovat s využitím prvků thesaurů.

V ISO je popis obsahu volitelný. Jeho specifikace je řešena jiným způsobem. Definuje se ukazatel na externí katalog objektů. Specifikuje se zda je tento katalog konformní s ISO 19110. A dále je možné uvést výčet objektů z katalogu, a to v případě, že datová sada neobsahuje všechny objekty definované v katalogu.

FGDC vyžaduje zadání stručného popisu obsahu nebo detailního popisu. Mohou být zadány obojí. Detailní popis je na úrovni CEN, ale bez vazby na thesaurus.

CEN poskytuje vhodné možnosti k popisu obsahu dat a oproti FGDC nabízí i možnost klasifikace obsahu což může výrazně rozšířit možnosti pro vyhledávání v metainformačních systémech. ISO nepřímo vyžaduje znalost ISO 19110, což může určitým způsobem komplikovat tvorbu metadat. Nicméně zadání popisu dat ISO nevyžaduje a tím se alibisticky zbavuje určité zodpovědnosti.

Klasifikace

CEN nabízí volitelnou klasifikaci pomocí thesaurů a prvků thesaurů. V případě thesauru je možné specifikovat název, administrátora, datum vzniku, verzi a ukazatel na externí dokumentaci k thesauru. Prvky thesaurů se definují názvem s možností definování vazeb mezi prvky (příbuzný, nadřazený, podřízený, synonymum).

ISO řeší klasifikaci ve dvou částech. První povinná vyžaduje zařazení datové sady do kategorie. K dispozici je výčet tématických kategorií, které jsou ve formě číselníku. Toto řešení nabízí to, že každá datová sada bude začleněna do určité tématické kategorie. V takovémto případě však musí být jednotlivé kategorie značně obecné, což v případě ISO neplatí. Některé datové sady jsou nezařaditelné do žádné z kategorií, a tak, ikdyž se to může zdát nevhodné, by vždy měla být k dispozici kategorie nazvaná ostatní. Druhou možností klasifikace je uvedení klíčových slov, a to je nepovinné. Uvádí se klíčové slovo, typ klíčového slova (tématické, místopisné, časové, ...) a thesaurus.

FGDC nabízí řešení obdobné ISO s tím rozdílem, že se uvádí klíčová slova v rámci příslušného typu thesauru a název thesauru. Typy thesaurů jsou čtyři: tématický, místopisný (geografický rejstřík), výškopisný, časový (časová období). Přičemž musí být uveden alespoň jeden termín z jednoho tématického thesauru.

Narozdíl od CEN nenabízí FGDC a ISO možnost definovat verzi a administrátora thesauru což může v určitých případech způsobit nepříjemnosti. CEN oproti tomu klasifikaci nevyžaduje, což je velkým nedostatkem tohoto standardu. Z praktických zkušeností vyplývá, že vyhledání datové sady podle zařazení (klasifikace) je tím nejčastějším dotazem v metainformačním systému.

Administrativní metadata (organizace, osoby, údaje o distribuci)

CEN nabízí možnost uvedení organizace a osoby (kontaktní místo) se vztahem k datové sadě. Umožňuje definovat názvy organizace, jména osob. Dovoluje specifikovat vztahy mezi jednotlivými subjekty ve formě volného textu. V ISO je povinné definovat vztah organizací a osob k datové sadě resp. údaje o kontaktním místě daleko přesněji. ISO oproti CEN udává i možné typy vztahů ve formě číselníků. Definuje třídy pro On-line zdroj, Telefon, Adresu atd. FGDC stejně jako ISO vyžaduje definování kontaktního místa a to přibližně v rozsahu ISO standardu.

Přístup k datům je v ISO rozebrán daleko podrobněji než v případě CEN. Zatímco CEN nabízí k popisu volný text pro všechny údaje, ISO poskytuje pro popis třídu zabývající se právními omezeními přístupu a třídu zabývající se stupněm utajení dat a dále několik číselníků. V případě právních omezení je možné definovat práva pro přístup nebo využití dat. FGDC umožňuje definování právních omezení pro přístup k datům a jejich využívání, ale narozdíl od ISO ponechává k definování volný text. Podobně jako ISO pak FGDC definuje systém klasifikace utajení dat a samotnou klasifikaci utajení.

Informace o podpůrných službách vzhledem k datům (především aktualizace) je v CEN věnována jedna položka ve formě volného textu. V ISO je možné definovat přesně co (datové sady, objekty, atributy, geometrie, ...) a jak často (definice s využitím třídy pro časovou složku) je aktualizováno. Není však možné specifikovat jiná specifika podpůrných služeb, např. cenu za aktualizaci. V případě FGDC je možné využít číselníku k definování periody aktualizace (stejně jako v ISO), není však možné specifikovat co je aktualizováno.

On-line přístup k datům je v CEN definován jako volný text nepovinného charakteru. FGDC nabízí možnost specifikace adresy počítače nebo v případě modemového spojení i některé jeho parametry jako je např. parita, rychlost. Dále umožňuje definovat instrukce pro přístup k datům. ISO řeší on-line přístup obdobně jako FGDC s tím rozdílem, že se nezabývá technickými parametry pro přenos dat a nechává jejich specifikaci na externích zdrojích. FGDC i ISO vede tuto složku jako nepovinnou.

Formáty pro přenos dat jsou v CEN nepovinná položka volného textu. ISO využívá k definici třídu, která dovoluje specifikovat název, verzi, specifikaci, dekomprimační techniku formátu. V ISO musí být alespoň jeden formát specifikován. FGDC řeší specifikaci formátů obdobně jako ISO s tím rozdílem, že názvy formátů nabízí jako číselník. Stejně jako v případě ISO je povinnost definovat minimálně jeden výměnný formát.

Datová média jsou v CEN jako volný volitelný text. V ISO je k dispozici třída umožňující definici názvu média, kompatibility, způsobu zápisu (tar, ISO 9660, atd.). FGDC umožňuje specifikovat datová média v rozsahu ISO s tím rozdílem, že v FGDC jde o povinnou složku.

Cena je v CEN povinná položka. ISO eviduje cenu jako součást třídy StandardOrderProcess a je volitelná. V případě FGDC je cena povinná položka.

Distribuční jednotky jsou ve všech třech standardech nepovinnou součástí metadat. V ISO je tato položka doplněna položkou o velikosti dat.

Metadata o metadatech (autor, datum vzniku, ...).

CEN rozlišuje tři typy datumů (vytvoření, aktualizace, verifikace) a jsou povinné resp. podmíněně povinné. Dalším povinným údajem je jazyk metadat.

V ISO je striktně vyžadován jazyk metadat a znaková sada. Bohužel stejně jako v případě CEN není vyžadován autor metadat. V ISO se eviduje pouze datum vzniku (nebo poslední aktualizace) metadat – nerozlišuje se mezi nimi. Mezi povinné údaje patří rovněž název a verze standardu.

FGDC nerozlišuje stejně jako ISO datum vzniku a datum aktualizace metadat. Umožňuje však stejně jako CEN specifikovat datum kontroly metadat. Povinným údajem je autor metadat. Rovněž je nutné specifikovat název, verzi, jazyk a znakovou sadu standardu. Přibývá nutnost specifikovat přístup k metadatům, využití metadat a stupeň utajení metadat.

FGDC je v tomto směru nejstriktnějším standardem, ale z praktických zkušeností vyplývá, že se nejlépe blíží potřebám metainformačních systémů. Především nutností specifikace autora metadat, přístupu k metadatům a stupně utajení metadat. Z praktických zkušeností autora tohoto příspěvku však vyplývá i potřeba rozlišení mezi datumem vzniku a datumem poslední aktualizace metadat.

Rozšiřující prvky metadat

ISO i FGDC umožňují obdobným způsobem přidat do metadat další prvky, které jsou nezbytné pro zápis specifických údajů o datech a které není obecný standard schopen postihnout. CEN takovou možnost nenabízí a tím se vyvaruje určitých potenciálních nebezpečí, které jsou s takovou možností spojeny. V extrémním případě může být výsledkem takovéto možnosti zcela nový popis metadat, který má s původním standardem společné pouze povinné prvky. Ve většině případů však takové extrémní nebezpečí nehrozí a tato možnost bývá obvykle více předností než nevýhodou.

Povinné složky metadat

  CEN ISO FGDC
jazyk metadat + + -

znaková sada metadat

- + -

název standardu

- + +

verze standardu

- + +

název datové sady

+ + +

abstrakt

+ + +

jazyk datové sady

+ + +

zaková sada datové sady

+ + +

prostorové schéma

+ - -

datum vzniku metadat

+ + +

datum aktualizace metadat

+ - -

datum kontroly metadat

+ - -

prostorový rozsah

+ - +

časový rozsah

+ - +

parametr kvality

+ - -

organizace

+ + +

kontaktní místo

- + +

kategorie

- + +

důvod vytvoření

- - +

frekvence aktualizace

- - +

omezení přístupu a využívání metadat

- - +

Závěr

Závěrem lze říci, že přestože by ISO standard měl vycházet z CEN, daleko více se podobá standardu FGDC. Standardy FGDC a ISO svou strukturou daleko konkrétněji rozebírají problematiku metadat. Zatímco CEN předkládá ve většině případech jen náměty jak některé části metadat zapisovat, FGDC i ISO dávají přesné předpisy k jejich zápisu. Na druhé straně však standard ISO nevynucuje mnohé užitečné údaje. Většinou se však jedná o obtížně specifikovatelné údaje ze strany tvůrce metadat. Tato skutečnost může vést k rychlejšímu rozvoji využívání metadat pro geodata. Ale může také vést k nedostatečné dokumentaci zdrojů dat. V případě ISO byla zvolena cesta raději méně informací, tak aby byly akceptovatelné jakoukoliv organizací a kdo chce evidovat více, může a má k tomu v ISO standardu možnosti.

Možná z výše uvedených důvodů se stane ISO standard daleko více využívaným standardem než CEN. Jiným důvodem může být, že vývoj standardu CEN končí. Rozhodně se však stane využívanějším standardem než CEN a FGDC z jednoho hlavního důvodu. Tímto důvodem je obecně platné uznávání standardů ISO jako nadnárodních standardů, které mohou pomoci k výměně informací, dat, výrobků mezi různými státy světa.

Z výsledku srovnání vyplývá, že standardy CEN a FGDC jsou daleko striktnější než standard ISO. ISO oproti CEN poskytuje daleko více přesnějších návodu jak metadata evidovat. Oproti standardu FGDC má bezesporu několik nedostatků, ale jednu velkou přednost a to tu, že je standardem ISO. Nevýhodou ISO standardu je jeho cena, která narůstá i tím, že se odvolává na jiné ISO normy.

Metainformační systémy založené na standardu CEN by měly začít uvažovat o přechodu na ISO standard v co nejbližší době. Prvním krokem pro přechod by měla být schopnost předání metadat v souladu s ISO standardem. V tomto případě bude nutné se zaměřit především na povinnou klasifikaci a kontaktní místo.

Literatura

  1. CEN /TC 287: ENV 12657:1998 Geographic information – Data description – Metadata, 1998
  2. FGDC: Standard for Digital Geospatial Metadata, 1998
  3. Gouveia, C., Henriques, P., Nicolau, R., Rocha, J., Santos, M.: Moving from CEN TC 257 to ISO/TC 211 - The approach of the Portuguese Natonal Geographic Information Infrastructure, In. Proceedings from 4th AGILE Conference on Geographic Information Science, Brno, Czech Republic, 2001
  4. ISO/TC 211: ISO/CD 19115, 1999
  5. Růžička J.: Metainformation system of CAGI, In. proceedings from 6th EC-GIS Workshop, The Spatial Information Society - Shaping the Future, Lyon 2000, Lyon 2000
  6. Růžička J.: XML a metainformační systémy, In. sborník z konference GIS Ostrava 2001, Ostrava 2001, ISSN 1213-239X

Copyright (C) VŠB - TU Ostrava, Institut geoinformatiky, 2001-3. Všechna práva vyhrazena. 
V případě, dotazů, komentářů, připomínek kontaktujte www-gis.hgf@vsb.cz
Tato stránka byla naposledy aktualizována: 29.03.2006 16:16
Stránky jsou optimalizovány pro Microsoft Internet Explorer v. 5.0 a vyšší.
Jsou vytvářeny v programovém prostředí FrontPage 2003.

NAVRCHOLU.cz