Hintergrund zu diesem Papier

Der Ansprechpersonen-Workshop (AP-WS) zum Thema "Datenharmonisierung" im Sept. 2024 hat gezeigt, dass die Datenharmonisierung einer von mehreren Wegen ist, um Daten aus unterschiedlichen Quellen gemeinsam nutzen zu können. In diesem Papier werden die Wege, die beim AP-WS vorgestellt wurden, sowie weitere Projekte zusammengefasst, um einen aktuellen Überblick zu geben. Das Papier ist als "lebendiges Dokument" konzipiert, dass bei Bedarf ergänzt und fortgeschrieben werden kann.

Nutzbare Geodaten zeichnen sich durch folgende Eigenschaften aus:

  • Auffindbarkeit – Geodaten müssen leicht über zentrale oder dezentrale Portale gefunden werden können.
  • Verständlichkeit – Besonders Fachdaten sollten so beschrieben sein, dass auch Nicht-Fachleute sie interpretieren können.
  • Flächendeckende Verfügbarkeit – Idealerweise sind die Daten bundesweit konsistent.
  • Verwendbarkeit für Analysen – Daten sollten visualisierbar, herunterladbar und mit anderen Datensätzen kombinierbar sein.
  • Hohe Qualität und Verlässlichkeit – Dokumentation zur Datenerhebung, Aktualität und Metadaten müssen vorhanden sein.

Welche Wege gibt es, um nutzbare Daten zu schaffen?

Datenharmonisierung durch zentrale Stelle

Vorgehen:

  1. Dezentral gehaltene Daten werden an eine zentrale Stelle geliefert. 
  2. Diese zentrale Stelle fügt die originären Daten zusammen, bringt die Daten in ein gemeinsames Datenmodell mit den entsprechenden Metadaten. 

Beispiele:

Vorteile:

  • Arbeit wird nur einmal an einer Stelle gemacht.
  • Hohe Konsistenz und Standardisierung.

Nachteile:

  • Aktualisierungen der originären Daten werden nur zeitverzögert übernommen.
  • Hohe Abhängigkeit von der zentralen Stelle.

Aufgabe einer koordinierenden Stelle:

  • Koordination der Datenlieferung von dezentralen Stellen.
  • Qualitätsprüfung und Harmonisierung der gelieferten Daten.
  • Bereitstellung eines zentralen Datenmodells mit einheitlichen Metadaten.
  • Sicherstellung der regelmäßigen Aktualisierung der harmonisierten Daten.

Interoperabilität der dezentral bereitgestellten Daten (mit der Möglichkeit der einfachen Harmonisierung durch die datennutzende Stelle)

Vorgehen:

  1. Es gibt konkrete Vorgaben für die Bereitstellung der (dezentralen) Daten. Die Daten, die von verschiedenen Stellen bereitgestellt werden, sind alle im gleichen Datenformat mit einheitlichen Metadaten.
  2. Welche Vorgaben für eine dezentrale Bereitstellung getroffen werden müssen, beschreibt das Interoperabilitätskonzept. Im Falle von INSPIRE gibt es zusätzlich zur Durchführungsverordnung die technischen Leitfäden mit den fachspezifischen Details.

Beispiele:

Vorteile:

  • Höchste Aktualität der Daten.
  • Flexiblere dezentrale Verantwortung für Datenqualität.

Nachteile:

  • Tatsächliche Interoperabilität ist schwer zu erreichen.
  • Unterschiedliche Standards können zu Inkonsistenzen führen.
  • Mangelnde Kontrolle über die Datenqualität.

Aufgabe einer koordinierenden Stelle

  • Erstellung von Leitlinien und Standards für die dezentrale Datenbereitstellung.
  • Technische Unterstützung und Beratung für datenhaltende Stellen.
  • Monitoring der Interoperabilität und Identifikation von Optimierungsbedarf.

Technologie-/KI-gestützte Harmonisierung (Vortrag D. Martini)

Vorgehen:

  • Nutzung von Wissensrepräsentationen und Semantik zur Beschreibung von Daten (Semantic Web-Technologien)

  • Beschreibung der Daten durch Knowledge Representation Language (Wissenspräsentationssprache), z. B. Ressource Description Framework RDF Tripel-Modell 
  • Verknüpfung der Wissensgraphen/Trippel/RDF durch KI-Modelle, z.B. LLM
  • → Das Vorgehen ist noch nicht etabliert und muss für die GDI-DE erst (in einem Umsetzungsprojekt) geprüft werden

Beispiele:

  • GeoSPARQL hat RDF Vokabular mit Klassen und Attributen für die Annotation von Geoobjekten, sowie räumliche Queries und Operationen für Abfragesprache SPARQL
  • INSPIRE Registry mit Terminologien. Auch als RDF verfügbar.
  • Umsetzungsprojekt "Ontologien in der GDI-DE" des AK Architektur 

Vorteile:

  • Daten können aggregiert werden ohne die Daten selbst ändern zu müssen.
  • Standardisierte semantische Beschreibungen erleichtern die Integration.
  • Schnellere Identifikation von Inkonsistenzen durch KI.

Nachteile:

  • Hoher initialer Aufwand für die semantische Beschreibung der Daten.
  • Abhängigkeit von Ontologien und standardisierten Metadaten.
  • Hoher Initialaufwand für das Training von KI-Modellen.

Aufgaben einer koordinierenden Stelle

  • Entwicklung und Bereitstellung einer technischen Infrastruktur für Datenharmonisierung.
  • Bereitstellung einer Plattform für die Integration und Abfrage semantischer Daten.
  • Entwicklung und Training von KI-Modellen für die Geodatenharmonisierung.
  • Überwachung und Validierung der KI-gestützten Entscheidungen.

Semantische Beschreibung der Daten (Ansatz von RP)

Vorgehen:

  • Statt Aggregation von Datensätzen, semantische Beschreibung der Daten durch JSON-LD. 
  • Wer übernimmt semantische Beschreibung der Daten? Wie gut ist die Qualität der Beschreibung?

Beispiele:

  • Aggregierung von Bauleitpläne auf Basis der ISO-Metadaten

Vorteile: 

  • Daten sind über Suchmaschinen leicht zu finden
  • Erlaubt dezentrale Verwaltung und gleichzeitig harmonisierte Nutzung.

Nachteile:

  • Hohe Komplexität in der Implementierung.

Aufgabe einer koordinierenden Stelle:

  • Entwicklung und Bereitstellung eines semantischen Datenmodells für dezentrale Strukturen.
  • Pflege und Weiterentwicklung von standardisierten Metadatenmodellen zur besseren Integration.
  • Bereitstellung von Leitlinien und Tools für die Erstellung semantischer Beschreibungen.
  • Unterstützung von Datennutzern bei der Anbindung an zentrale Ontologien und semantische Datenbanken.

Bewertung der Methoden

Die folgende Einschätzung der Qualitätskriterien "Aktualität der Daten", "Konsistenz der Daten" und "Kontrolle der Ergebnisse" und generell der Aufwand für eine koordinierende Stelle kann als Grundlage für die Bewertung der verschiedenen Ansätze genutzt werden. 

MethodeAktualitätKonsistenzKontrolleAufwand für koordinierende Stelle
DatenharmonisierungMittelHochHochHoch
Dezentrale InteroperabilitätHochGeringGeringMittel
Technologie-/KI-gestützte HarmonisierungSehr hochHochHochSehr hoch
Semantische BeschreibungHochMittelMittelMittel

Fazit und Empfehlungen

Die Technologie-/KI-gestützte Harmonisierung nutzt semantische Technologien und maschinelles Lernen zur Interoperabilität und Datenqualität:

  • Semantic Web-Technologien und KI-gestützte Qualitätsprüfungen verbessern die Interoperabilität.
  • Eine Referenzarchitektur regelt Zuständigkeiten für Standards, Metadatenmodelle und KI-Modelle, wodurch eine einheitliche Steuerung gewährleistet wird.
  • KI-gestützte Verfahren erleichtern die Identifikation und Integration relevanter Datensätze.
  • Automatisierte semantische Modellierung erleichtert eine konsistente Bereitstellung im Geoportal.de.

Aus Sicht der Kst. GDI-DE ist die Technologie-/KI-gestützte Harmonisierung der langfristig nachhaltigste Ansatz. Allerdings ist der initiale Aufwand hoch, weshalb eine Hybridstrategie empfohlen wird: Zentrale und semantische Harmonisierung für kurzfristige Umsetzung, während Technologie-/KI-gestützte Lösungen langfristig entwickelt werden.