Diese Seite erläutert die Weiternutzung der Metadaten der GDI-DE durch GovData. Dies betrifft insbesondere die Abläufe der Metadatenabgabe, das Mapping der zu übertragenden, relevanten Informationen (die Zuordnung der ISO-Elemente zu DCAT-AP.de-Elementen) sowie die Zuordnung von Kategorien unter DCAT-AP.de aufgrund von in den ISO-Metadaten enthaltenen Informationen.
Seitenübersicht/ Schnellzugriff


Hintergrund

Der IT-Planungsrat hat DCAT-AP.de als formalen Austauschstandard für allgemeine offene Verwaltungsdaten festgelegt. Das bedeutet, dass die Informationen über Geo-Ressourcen, die unter Open Data fallen und mit entsprechenden Lizenz- bzw. Nutzungsbedingungen versehen sind, ebenfalls in Strukturen gem. DCAT-AP.de zu dokumentieren sind. Da die Geo-Ressourcen idealerweise bereits in der GDI-DE mittels Metadaten gem. ISO 19115/19119/19139 beschrieben sind, wurde zur Vermeidung von Doppelerfassungen eine Vorgehensweise etabliert, um die Metadaten aus der GDI-DE für Open Data-Portale unter DCAT-AP.de nutzbar zu machen und eine Auffindbarkeit in Open Data-Portalen automatisch zu ermöglichen.


Zugriff auf die ISO-Metadaten der GDI-DE

Die ISO-basierten Metadaten der GDI-DE werden über die Standard-CSW-Schnittstelle des Geodatenkatalog.de bereitgestellt. Die "Übersetzung" in DCAT-AP.de, d.h. das Extrahieren der relevanten Informationen aus den Metadaten der GDI-DE erfolgt durch einen Ableitungsprozess auf Seiten von GovData auf Basis des u.g. abgestimmten Mappings, d.h. auf Seiten der GDI-DE erfolgt keine aktive Ableitung mehr (Anmerkung: bis 2019 wurde durch einen Prozess beim Betrieb GDI-DE der Inhalt des Geodatenkatalog.de in die Struktur OGD abgeleitet und anschließend an GovData übergeben. Dieses Verfahren wird nicht mehr angewendet.).


Anforderungen an die ISO-Metadaten der GDI-DE

Grundsätzlich sind die Vorgaben der GDI-DE einzuhalten, die im Dokument Konventionen zu Metadaten formuliert sind und auch die Belange von INSPIRE sowie Open Data berücksichtigen. Details (insbesondere zu den nachfolgend aufgeführten Punkten) sind dort nachzulesen. An dieser Stelle erfolgt lediglich eine Zusammenfassung aufgrund der besonderen Bedeutung für die Weiternutzung der Metadaten der GDI-DE für GovData:

  • Daten-Dienste-Kopplung: Open Data-Portale sind „Daten-orientiert“, d.h. im Fokus steht die freie Daten-Ressource. Dienste (WMS, WFS, WCS, Atom-Feed etc.) sind Werkzeuge, um auf einen Datenbestand zuzugreifen. Dienste haben in Open Data-Portalen keine eigenen Metadatensätze, sondern werden als "Zugriffswege" der Dokumentation des Datenbestands zugeordnet. Entscheidend für die Gewinnung der Informationen zu den Diensten ist daher eine funktionierende Daten-Dienste-Kopplung in den Metadaten, da ausschließlich darüber die Dienste "erkannt" und dem zugehörigen Datenbestand zugeordnet werden können. Alternativ bzw. ergänzend werden durch GovData auch in den Daten-Metadaten etwaig enthaltene unmittelbare Download-Links zu statischen Datenmengen berücksichtigt.
  • Schlüsselwort "opendata": Zur Kennzeichnung der relevanten Daten-Metadaten sehen die Metadatenkonventionen der GDI-DE vor, das Schlüsselwort „opendata“ zu verwenden. Dieses ist das steuernde Merkmal und Indiz für GovData, dass ein relevanter Datenbestand vorliegt, dessen Metadaten nach dem u.g. Mapping abzuleiten sind und dessen Zugriffswege über Dienste in den per Verfolgung der Daten-Dienste-Kopplung auffindbaren Dienst-Metadaten (s.o.) dokumentiert sind.
  • Nutzungsbedingungen: Die zugrunde liegenden Lizenzbedingungen sind aus technischen Gründen in den Metadaten zusätzlich zu den Angaben in menschenlesbarem Freitext in einer bestimmten Syntax anzugeben (sog. JSON-Notation), um im Ableitungsprozess der Metadaten für Open Data-Portale entsprechend berücksichtigt werden zu können. Die JSON-Notation transportiert in Parameterform die notwendigen Informationen über die verwendete Lizenz (ID und Name), den Verweis auf den Lizenztext sowie den ggf. anzubringenden Quellenvermerk.


Beispiel

{
 "id":"dl-by-de/2.0", 
 "name": "Datenlizenz Deutschland Namensnennung 2.0", 
 "url": "https://www.govdata.de/dl-de/by-2-0", 
 "quelle": "Quelle: Land NRW (<Jahr des Datenbezugs>)"
}

Hinweis!


Hierbei ist Folgendes zu beachten: Die in der JSON-Notataion anzugebende Lizenz-ID ist gem. der Liste unter https://www.dcat-ap.de/def/licenses/ (Spalte "Lizenzcode") auszuwählen. Gegenüber der bis 2019 unter OGD verwendeten Lizenz-ID aus https://github.com/fraunhoferfokus/ogd-metadata/blob/master/lizenzen/deutschland.json ergeben sich dabei i. d. R. Änderungen, die der folgenden Tabelle entnommen werden können (gelb markiert):

OGD (alt)DCAT-AP.de (neu)
apacheapache
app_commercialother-commercial
app_freewareother-freeware
app_opensourceother-opensource
bsd-licensebsdlicense
cc-bycc-by
cc-by-4.0cc-by/4.0
cc-by-nc-4.0cc-by-nc/4.0
cc-by-ndcc-by-nd/3.0
cc-by-nd-4.0cc-by-nd/4.0
cc-by-sacc-by-sa
cc-by-sa-4.0cc-by-sa/4.0
cc-nccc-by-nc
cc-pdm-1.0ccpdm/1.0
cc-zerocc-zero
dl-de-by-1.0dl-by-de/1.0
dl-de-by-2.0dl-by-de/2.0
dl-de-by-nc-1.0dl-by-nc-de/1.0
dl-de-zero-2.0dl-zero-de/2.0
geonutzv-de-2013-03-19geoNutz/20130319
gfdlgfdl
gpl-3.0gpl/3.0
mozillamozilla
odc-byodby
odc-byodcpddl
odc-odblodbl
official-workofficialWork
other-closedother-closed
other-openother-open

Mapping der relevanten Informationen

Die Zuordnung, welche Information aus einem ISO-Metadatensatz in ein bestimmtes Element unter DCAT-AP.de überführt wird, ist in einem abgestimmten Mapping festgehalten, das 2017 in einem Pilotprojekt zwischen Open.NRW und dem GEOkatalog NRW erarbeitet und im Jahr 2021 gemeinsam mit der GKSt. GovData präzisiert wurde. Es dient gleichermaßen für die Abbildung der Inhalte des Geodatenkatalog.de für die Verwendung bei GovData.

Das Mapping ist als Excel-Tabelle dokumentiert.

Bei der Interpretation der ISO-Metadaten finden darüber hinaus folgende Grundsätze Anwendung:

  1. aus Geo-Diensten werden Distributionen:
    1. Geo-Dienste werden genauso wie Download-Links zu statischen Datenmengen aus den Daten-Metadaten behandelt und unter DCAT-AP.de zu sog. „Distributionen“, d.h. ergänzend zur Beschreibung der Daten werden Zugriffsmöglichkeiten zugeordnet. Im GovData-Portal werden in der Folge die zugehörigen Links präsentiert.
    2. Daten-Metadaten aus der GDI-DE, die weder Download-Links zu statischen Datenmengen aufweisen noch verknüpfte Dienst-Metadaten haben, sind mangels Bereitstellbarkeit von Distributionen sinnlos für eine Präsentation im GovData-Portal und werden daher in der Ableitung ignoriert.
  2. Interpretation der Lizenzangaben:
    1. die in den Daten-Metadaten zwingend zu dokumentierende Open Data-Lizenz gilt gemeinsam für die Daten selbst und alle zuzuordnenden Distributionen;
    2. wenn die zugehörigen Dienst-Metadaten (Daten-Dienste-Kopplung, s.o.) eigene Lizenzinformationen beinhalten, werden diese Informationen als nur für die daraus generierte einzelne Distribution geltend berücksichtigt. Die Dokumentation der Open Data-Lizenz für die Daten sowie für alle Distributionen ohne eigene Aussagen bleiben gem. a) dadurch unberührt.



Zuordnung von Kategorien

Zur Gruppierung  bzw. Filterung der Suchergebnisse in OpenData-Portalen wie z.B. GovData werden unter DCAT-AP.de die sog. "MDR Data Themes" genutzt. Da die dort verwendeten Begriffe nicht 1:1 die in den ISO-Metadaten der GDI-DE übliche Kategorisierung (Element topicCategory) abbilden, liegt der Ableitung von ISO-Metadaten zu DCAT-AP.de-Strukturen ebenso ein präzises Mapping der Kategorien zugrunde. Dadurch wird sichergestellt, dass jeder Kategorie der ISO-Metadaten mindestens eine Kategorie für Open Data zugeordnet wird. In vielen Fällen werden automatisch sogar mehrere MDR Data Themes ausgehend von einer einzigen Kategorie der ISO-Metadaten zugeordnet, um die Auffindbarkeit in OpenData-Portalen zu erhöhen. Auch dieses Mapping wurde im Pilotprojekt für Open.NRW erarbeitet und GovData zur Verfügung gestellt.

Die Zuordnung einer OpenData-Kategorie (MDR Data Theme) kann sich durch verschiedene Kriterien ergeben:

  1. Durch das ISO-Element topicCategory: systematische Zuordnung von OpenData-Kategorien entsprechend der unten aufgeführten Tabelle. Da eine multiple Ausprägung des ISO-Elements topicCategory möglich ist, ergeben sich u.U. auch entsprechend viele OpenData-Kategorien.
  2. Durch das Vorhandensein von Informationen bzgl. INSPIRE im ISO-Metadatensatz (INSPIRE-Thema als Schlüsselwort mit entsprechender Thesaurus-Angabe (GEMET)): Dadurch erfolgt eine Zuordnung zusätzlicher OpenData-Kategorien, die als fachlich sinnvoll bewertet worden sind. In vielen Fällen ergibt ein evtl. dokumentiertes INSPIRE-Thema jedoch „keine neuen Erkenntnisse“, d.h. es erfolgt keine weitere Zuordnung über diejenige hinaus, die sich aus dem ISO-Element topicCategory ohnehin ergibt.
  3. Durch die direkte Ablage von OpenData-Kategorien (MDR Data Themes) in den Schlüsselwörtern im ISO-Metadatensatz (Element keyword): hierdurch besteht für den Metadatenerfasser die Möglichkeit, ergänzend zum systematischen Mapping aus Nr.1 und ggf. Nr.2 eine bewusste Zuordnung zu weiteren OpenData-Kategorien zu bewirken. Dazu muss das gewünschte MDR Data Theme als „4-Buchstaben-Code“ ohne Thesaurus-Angabe erfasst werden.

Die folgende Tabelle dokumentiert die Ableitung gem. der Nr.1 und 2:

Themenkategorie ISODCAT-AP.de (MDR Data Themes)
MD_TopicCategoryCode Name DEfeste ZuordnungINSPIRE-Thema (sofern vorhanden) …… führt zusätzlich zu MDR Data Theme
farming Landwirtschaft 
  • ENVI
  • AGRI
  • Umwelt
  • Landwirtschaft, Fischerei, Forstwirtschaft und Nahrungsmittel
---------
biota Biologie 
  • ENVI
  • Umwelt
---------
boundariesGrenzen
  • REGI
  • GOVE
  • Regionen und Städte
  • Regierung und öffentlicher Sektor
---------
climatologyMeteorologyAtmosphere Atmosphäre 
  • ENVI
  • TECH
  • Umwelt
  • Wissenschaft und Technologie
---------
economy Wirtschaft 
  • ECON
  • Wirtschaft und Finanzen
Energiequellen
  • ENER
  • ENVI
  • TECH
  • Energie
  • Umwelt
  • Wissenschaft und Technologie
Mineralische Bodenschätze
  • ENVI
  • TECH
  • Umwelt
  • Wissenschaft und Technologie
elevation Höhenangaben 
  • ENVI
  • GOVE
  • TECH
  • Umwelt
  • Regierung und öffentlicher Sektor
  • Wissenschaft und Technologie
---------
environment Umwelt 
  • ENVI
  • Umwelt
---------
geoscientificInformation Geowissenschaften 
  • REGI
  • ENVI
  • TECH
  • Regionen und Städte
  • Umwelt
  • Wissenschaft und Technologie
---------
health Gesundheitswesen 
  • HEAL
  • Gesundheit
---------
imageryBaseMapsEarthCover Oberflächenbeschreibung 
  • ENVI
  • GOVE
  • TECH
  • REGI
  • AGRI
  • Umwelt
  • Regierung und öffentlicher Sektor
  • Wissenschaft und Technologie
  • Regionen und Städte
  • Landwirtschaft, Fischerei, Forstwirtschaft und Nahrungsmittel
---------
intelligenceMilitary Militär und Aufklärung 
  • JUST
  • Justiz, Rechtssystem und öffentliche Sicherheit
---------
inlandWaters Binnengewässer 
  • ENVI
  • TRAN
  • AGRI
  • Umwelt
  • Verkehr
  • Landwirtschaft, Fischerei, Forstwirtschaft und Nahrungsmittel
---------
location Ortsangaben 
  • REGI
  • GOVE
  • Regionen und Städte
  • Regierung und öffentlicher Sektor
---------
oceans Meere 
  • ENVI
  • TRAN
  • AGRI
  • Umwelt
  • Verkehr
  • Landwirtschaft, Fischerei, Forstwirtschaft und Nahrungsmittel
---------
---------
planningCadastre Planungsunterlagen, Kataster 
  • REGI
  • GOVE
  • Regionen und Städte
  • Regierung und öffentlicher Sektor
Bewirtschaftungsgebiete / Schutzgebiete / geregelte Gebiete und Berichterstattungseinheiten------
Bodennutzung------
Flurstücke/Grundstücke
  • JUST
  • Justiz, Rechtssystem und öffentliche Sicherheit
society Gesellschaft 
  • SOCI
  • EDUC
  • Bevölkerung und Gesellschaft
  • Bildung, Kultur und Sport
---------
structure Bauwerke 
  • REGI
  • TRAN
  • Regionen und Städte
  • Verkehr
Gebäude------
Produktions- und Industrieanlagen
  • ECON
  • Wirtschaft und   Finanzen
Umweltüberwachung
  • ENVI
  • Umwelt
transportation Verkehrswesen 
  • TRAN
  • Verkehr
---------
utilitiesCommunication Ver- und Entsorgung, Kommunikation 
  • ENER
  • ENVI
  • GOVE
  • Energie
  • Umwelt
  • Regierung und öffentlicher Sektor
---------

14 Kommentare

  1. Martin Thal sagt:

    Im JSON-Schnipsel (siehe Beispiel) sind Leerzeichen nach Komma und Doppelpunkt mit reingerutscht. Diese gehören nicht dorthin, oder?

    1. M.W. ist das unkritisch. Hast Du gegenteilige Erfahrungen gemacht?

      1. Martin Thal sagt:

        Nein noch nicht. Bin nur darüber gestolpert, weil ich die Schreibweise der neuen Lizenz ID für GovData in einem InGrid Ticket überprüft habe. Dort wurden keine Leerzeichen verwendet.  Da es mir aufgefallen ist, wollte ich den Hinweis geben.

      2. Anja Litka sagt:

        Nach Durchsicht der entsprechenden xsl-Datei (iso2dcat.xsl) erfolgt eine Entfernung der führende und folgende Leerzeichen am Anfang und Ende des übergebenen Strings ("starts-with(normalize-space(.), '{')"). Demnach werden vorhandene/überzählige Leerzeichen im JSON-Schnipsel ignoriert.

  2. Die Seite wurde überarbeitet bzw. ergänzt.

    Dies betrifft die Klarstellung, dass die Metadaten zunächst (nach den dafür geltenden Anforderungen) im Geodatenkatalog.de aufgenommen sein müssen.

    Außerdem wurden die bei GovData zwischenzeitlich etablierten Grundsätze zur Interpretation (1. keine Daten ohne Distributionen und 2. Umgang mit Lizenzangaben in Dienst-Metadaten) den Informationen zum Mapping hinzugefügt.

  3. Auf dieser Seite ist ab dem 15.12.2021 das präzisierte Mapping zu finden, das gemeinsam durch die GKSt. GovData, Open.NRW bzw. MWIDE NRW, die GDI-DE sowie die jeweils beauftragten Dienstleister für die technische Umsetzung abgestimmt wurde. Dabei betreffen die Präzisierungen vor allem die Dokumentation ("welche Information genau liefert mir das jeweilige Element?") und die daraus ableitbaren Entscheidungen, das Element gezielt und abhängig vom Inhalt zu verwenden. Der gesamte Prozess der Interpretation der Metadaten aus der GDI-DE nach den beschriebenen Grundsätzen ist dagegen unverändert.

    1. Als Nachtrag gab es eine geringfügige Überarbeitung bei der Definition des DCAT-Elements #70 "Datenstruktur". Substantiell hat sich dadurch jedoch nichts am Mapping geändert.

  4. Steffen Bach sagt:

    Kurze Frage. In welchen Zyklen ernten die Betreiber des GovData Portals den Geodatenkatalog.DE ab?

    1. Anja Litka sagt:

      Ca. alle 2 Tage. Du kannst dies über die "Aktivitätsanzeige" von jedem Datensatz nachschauen → s. bsp.haft "INSPIRE BW Verwaltungseinheiten ATKIS Basis-DLM"

      1. Martin Thal sagt:

        Ich klinke mich kurz ein und möchte meine Sicht wiedergeben:

        GovData erntet keine Metadaten vom Geodatenkatalog.de sondern vom Geoportal.de
        So jedenfalls mein Verständnis. Sehe ich das so richtig?

        1. Anja Litka sagt:

          Nein Martin Thal, wie kommst du darauf? GovData harvestet unsere CSW-Schnittstelle. Über https://ckan.govdata.de/ kannst über das Attribut "metadata_harvested_portal" von jedem Datensatz die Katalog-URL einsehen → s. bsp.haft:

          1. Martin Thal sagt:

            Anja Litka , dein Link bei "INSPIRE HH Verkehrsnetze HH-SIB" bestätigt meine Aussage, dass GovData die Metadaten vom Geoportal.de erhält und nicht wie ursprünglich in der Frage von Steffen Bach formuliert über den Geodatenkatalog.de. Für mich sind Geoportal.de und Geodatenkatalog.de zwei getrennte Portale, auch wenn beide vom BKG betrieben werden.

            Das Beispiel Verkehrsdaten Rad (Infrarotdetektoren) Hamburg lassen wir am besten für diese Diskussion weg, weil es für den HH-Metadatenfluss von nur opendata und opendata mit inspireidentifiziert zwei Wege gibt.
            Einmal über das Transparenzportal (TP) bei nur opendata und einmal über die GDI-DE bei opendata mit inspireidentifiziert.

      2. Steffen Bach sagt:

        Danke. Dann werden wir hier Untersuchungen anstellen müssen.

  5. Anja Litka sagt:

    Rückmeldung von GovData (S E I T E N B A U GmbH) und zur Klarstellung Martin Thal :

    ... bei GovData wird für das Abfragen der Daten die URL https://gdk.gdi-de.org/gdi-de/srv/ger/csw verwendet.

    Der Eintrag bei 'metadata_harvested_portal' ist ein vom Harvester hinzugefügter Wert, um Datensatz-Duplikate besser handhaben zu können. Dieser stammt somit nicht von den geharvesteten Daten selbst. Hier wird aktuell noch der alter Wert gespeichert, aber dieser findet auch nur rein intern Verwendung.