GeoSciML ein harmonisiertes Modell und Applikationsschema für die Beschreibung geologischer Daten

Um geowissenschaftliche Daten interoperabel, syntaktisch und semantisch, für die Zusammenführung aus verschiedenen Quellen, Institutionen zu generieren bedarf es einer gemeinsamen Absprache. Ein gemeinsames Datenmodell stellt quasi diese Absprache dar. Die TWG Geology and Mineral Resources stellten solche Datenmodelle in den INSPIRE Datenspezifikationen für die Geologie und den Mineralischen Bodenschätzen zusammen.  

Die Datenspezifikation Geologie basiert auf GeoSciML (V2.1). Für die Datenspezifikation der Mineralischen Rohstoffe wird EarthResourceML als Grundlage verwendet. EarthResourceML ist eine modulare Adaption an GeoSciML mit einer gemeinsamen Schnittstelle, dem GeologicFeature. Das bedeutet,  natürliche Rohstoffe die durch Bergbautätigkeiten abgebaut werden haben in aller Regel einen geologischen Hintergrund. Diese geologischen Informationen werden nicht redundant beschrieben sondern nur in GeoSciML. EarthResourceML  konzentriert sich nur auf Bergbautätigkeiten und ökonomisch betrachtet – Bodenschätze. Adäquat verhält es sich zu GroundwaterML (GWML), findet aber in der momentanen Fassung für die Hydrogeologie keine Anwendung.

GeoSciML wird entwickelt von einer internationalen Arbeitsgruppe, die “Interoperability Working Group“ der Commission for the Management and Application of Geological Sciences (CGI). Sie setzt sich aus Spezialisten der Geologie und Informationstechnik von Institutionen aus Nordamerika, Europa und Asien zusammen.

GeoSciML basiert auf den OGC konformen Geography Markup Language (GML – ISO DIS 19136) für die Bereitstellung raumbezogener Objekte und Geometrien sowie auf Observations and Measurements für  wissenschaftliche Messdaten und Beobachtungen.

weiter Infos unter:

GeoSciML ist kein Datenbankschema sondern ein Format für den Datenaustausch.  Institutionen können mit GeoSciML eine Schnittstelle anbieten, die auf ihre bestehenden Datenbank-Systeme zugreift, ohne dass Umstrukturierungen der internen Datenbanken erforderlich sind.
Architecture of the GeoSciML
 
In Datenportalen (ob View- oder Download Services) können dann Daten, unabhängig von Datenbankimplementierungen und Softwareumgebung  veröffentlicht und zwischen Organisationen über Web Services ausgetauscht werden. GeoSciML erlaubt Anwendungen mit global verteilten geologischen Daten und Informationen. Mit den strukturierten Eigenschaften und dem kontrolliertem Vokabular für geologische Fachbegriffe (CGI Terms, verantwortlich CGI Geoscience Concept Definitions working group) bietet GeoSciML die Grundlage für die semantische Interoperabilität und Harmonisierungsproessen geowissenschaftlicher Daten.

Momentan wird an der GeoSciML Version 3 gearbeitet.

1.0 Das Modell

Das UML Modell liegt u.a. als EnterpriseArchitect Projekt in der Version V2 vor "GeoSciML_V2_Unversioned.eap". Die Version V 3 ist zum jetzigen Stand als XMI/XML unter folgendem LINK abgelegt.

2.0 CGI_Codelists

Ein wichtiges Merkmal von GeoSciML ist die Verwendung von Schlüssellisten (codelist). Die Typen de Schlüssellisten / Codelist sind z.B. als "Range" Angaben (Zahlenwerte von .. bis..), Datumsangaben, etc. aber vor allem als Term (CGI_Term) definiert. Diese CGI_Terms werden auch als CGI_Vocabulary bezeichnet. Das CGI_Vokabular ist ein generisches Vokabular. Dieses Vokabular sollte als Grundlage des INSPIRE Prozess der TWG GE_MR evaluiert werden. Das heisst: das Vokabular ist erweiterbar und optimierungsfähig. Hier sind unterschiedliche Versionen veröffentlicht.

Das Vokabular ist gegliedert in unterschiedlichen Kategorien, z.B. Lithology, Age, GeneticCategory, EventProcess, etc.. Darin sind die jeweils zugehörigen Fachbegriffe (Term's) aufgelistet, definiert und hierachisch abgebildet. Jeder Fachbegriff ist einer URN (Uniformed Resource Name), als eindeutigen Identifyer zugeordnet.

Das Ablageformat der Codelist's hat sich im Laufe der Zeit verändert. Die ersten Listen wurden in Form von Excel-Tabellen (der sog. HKey - Hiearchieschlüssel - beschreibt die hierarchische Anordnung mit einer Zahlenfolge) abgelegt. Die aktuellen Versionen werden nur als RDF files, 'resource description framework', veröffentlicht. Zusätzlich wurden kleine Exporttools (Ausgabe: in xsd oder xls) für die bessere Lesbarkeit bereitgestellt. Die Tools sind hier zu finden: Tools.

2.1 Verwendung des Vokabulars in RDF

Die Erstellung des Vokabulars erfolgte in SKOS. SKOS (Simple Knowledge Organisation System) ist eine rdf Applikation für die Beschreibung eines Vokabulars. RDF ist ein wissensbasiertes Repräsentationsschema im Sinne des 'semantic web', welches Begriffe (auch Resourcen oder Konzepte genannt) in ihren semantischen Beziehungen darstellen kann.

Es werden verschieheden SKOS Editoren angeboten, wir in BGR arbeiten mit SKOSed, einem Pluggin für Protégé. Protégé ist eine Entwicklungsumgebung für Ontologien (eine Form der wissensbasierten Beschreibung).

In der folgenden Figur wird im linken Fenster die hierarchische Struktur abgebildet, im unteren mittleren Fenster werden "Broader" (allgemeinere) und "Narrower" (spezielle) Konzepte definiert. Im rechten unteren Fenster wird die Definition angegeben, hier von dem EventEnvironment Konzept "Deltaic System Setting". SKOS bietet unter anderem die Möglichkeit der mehrsprachigen Eingabe. Die englische Beschreibung erhält das Suffix @en, für eine mögliche deutsche Ereweiterung ist der Text dann mit @de zu erweitern.

Für Fragen zu dem Thema GeoSciML, Vokabular und SKOS stehe ich gerne zur Verfügung, Benutzer-c7c32.

  • Keine Stichwörter