Hintergrund zu diesem Papier
Der Ansprechpersonen-Workshop (AP-WS) zum Thema "Datenharmonisierung" im Sept. 2024 hat gezeigt, dass die Datenharmonisierung einer von mehreren Wegen ist, um Daten aus unterschiedlichen Quellen gemeinsam nutzen zu können. In diesem Papier werden die Wege, die beim AP-WS vorgestellt wurden, sowie weitere Projekte zusammengefasst, um einen aktuellen Überblick zu geben. Das Papier ist als "lebendiges Dokument" konzipiert, dass bei Bedarf ergänzt und fortgeschrieben werden kann.
Nutzbare Geodaten zeichnen sich durch folgende Eigenschaften aus:
- Auffindbarkeit – Geodaten müssen leicht über zentrale oder dezentrale Portale gefunden werden können.
- Verständlichkeit – Besonders Fachdaten sollten so beschrieben sein, dass auch Nicht-Fachleute sie interpretieren können.
- Flächendeckende Verfügbarkeit – Idealerweise sind die Daten bundesweit konsistent.
- Verwendbarkeit für Analysen – Daten sollten visualisierbar, herunterladbar und mit anderen Datensätzen kombinierbar sein.
- Hohe Qualität und Verlässlichkeit – Dokumentation zur Datenerhebung, Aktualität und Metadaten müssen vorhanden sein.
Welche Wege gibt es, um nutzbare Daten zu schaffen?
Datenharmonisierung durch zentrale Stelle
Vorgehen:
- Dezentral gehaltene Daten werden an eine zentrale Stelle geliefert.
- Diese zentrale Stelle fügt die originären Daten zusammen, bringt die Daten in ein gemeinsames Datenmodell mit den entsprechenden Metadaten.
Beispiele:
- bundesweiter Datensatz Schutzgebiete des BfN aus Länderdaten (geoportal.de/Info/7115422a-78df-4f35-bb3f-3ab41dd420f5)
- EuroRegionalMap
- Radwegenetz
Vorteile:
- Arbeit wird nur einmal an einer Stelle gemacht.
- Hohe Konsistenz und Standardisierung.
Nachteile:
- Aktualisierungen der originären Daten werden nur zeitverzögert übernommen.
- Hohe Abhängigkeit von der zentralen Stelle.
Aufgabe einer koordinierenden Stelle:
- Koordination der Datenlieferung von dezentralen Stellen.
- Qualitätsprüfung und Harmonisierung der gelieferten Daten.
- Bereitstellung eines zentralen Datenmodells mit einheitlichen Metadaten.
- Sicherstellung der regelmäßigen Aktualisierung der harmonisierten Daten.
Interoperabilität der dezentral bereitgestellten Daten (mit der Möglichkeit der einfachen Harmonisierung durch die datennutzende Stelle)
Vorgehen:
- Es gibt konkrete Vorgaben für die Bereitstellung der (dezentralen) Daten. Die Daten, die von verschiedenen Stellen bereitgestellt werden, sind alle im gleichen Datenformat mit einheitlichen Metadaten.
- Welche Vorgaben für eine dezentrale Bereitstellung getroffen werden müssen, beschreibt das Interoperabilitätskonzept. Im Falle von INSPIRE gibt es zusätzlich zur Durchführungsverordnung die technischen Leitfäden mit den fachspezifischen Details.
Beispiele:
- Datensätze Schutzgebiete der Länder (map.html?preset=JiN4Ymz6gum7j3CSEJhWvt3I8v9WcqlrZFIC1gdXwq8, nicht vollständig), Leitfaden Schutzgebiete der LANA : https://wiki.gdi-de.org/x/nYEwKg
- Bauleitpläne (XPlanung)
Vorteile:
- Höchste Aktualität der Daten.
- Flexiblere dezentrale Verantwortung für Datenqualität.
Nachteile:
- Tatsächliche Interoperabilität ist schwer zu erreichen.
- Unterschiedliche Standards können zu Inkonsistenzen führen.
- Mangelnde Kontrolle über die Datenqualität.
Aufgabe einer koordinierenden Stelle
- Erstellung von Leitlinien und Standards für die dezentrale Datenbereitstellung.
- Technische Unterstützung und Beratung für datenhaltende Stellen.
- Monitoring der Interoperabilität und Identifikation von Optimierungsbedarf.
Technologie-/KI-gestützte Harmonisierung (Vortrag D. Martini)
Vorgehen:
Nutzung von Wissensrepräsentationen und Semantik zur Beschreibung von Daten (Semantic Web-Technologien)
- Beschreibung der Daten durch Knowledge Representation Language (Wissenspräsentationssprache), z. B. Ressource Description Framework RDF Tripel-Modell
- Verknüpfung der Wissensgraphen/Trippel/RDF durch KI-Modelle, z.B. LLM
- → Das Vorgehen ist noch nicht etabliert und muss für die GDI-DE erst (in einem Umsetzungsprojekt) geprüft werden
Beispiele:
- GeoSPARQL hat RDF Vokabular mit Klassen und Attributen für die Annotation von Geoobjekten, sowie räumliche Queries und Operationen für Abfragesprache SPARQL
- INSPIRE Registry mit Terminologien. Auch als RDF verfügbar.
- Umsetzungsprojekt "Ontologien in der GDI-DE" des AK Architektur
Vorteile:
- Daten können aggregiert werden ohne die Daten selbst ändern zu müssen.
- Standardisierte semantische Beschreibungen erleichtern die Integration.
- Schnellere Identifikation von Inkonsistenzen durch KI.
Nachteile:
- Hoher initialer Aufwand für die semantische Beschreibung der Daten.
- Abhängigkeit von Ontologien und standardisierten Metadaten.
- Hoher Initialaufwand für das Training von KI-Modellen.
Aufgaben einer koordinierenden Stelle
- Entwicklung und Bereitstellung einer technischen Infrastruktur für Datenharmonisierung.
- Bereitstellung einer Plattform für die Integration und Abfrage semantischer Daten.
- Entwicklung und Training von KI-Modellen für die Geodatenharmonisierung.
- Überwachung und Validierung der KI-gestützten Entscheidungen.
Semantische Beschreibung der Daten (Ansatz von RP)
Vorgehen:
- Statt Aggregation von Datensätzen, semantische Beschreibung der Daten durch JSON-LD.
- Wer übernimmt semantische Beschreibung der Daten? Wie gut ist die Qualität der Beschreibung?
Beispiele:
- Aggregierung von Bauleitpläne auf Basis der ISO-Metadaten
Vorteile:
- Daten sind über Suchmaschinen leicht zu finden
- Erlaubt dezentrale Verwaltung und gleichzeitig harmonisierte Nutzung.
Nachteile:
- Hohe Komplexität in der Implementierung.
Aufgabe einer koordinierenden Stelle:
- Entwicklung und Bereitstellung eines semantischen Datenmodells für dezentrale Strukturen.
- Pflege und Weiterentwicklung von standardisierten Metadatenmodellen zur besseren Integration.
- Bereitstellung von Leitlinien und Tools für die Erstellung semantischer Beschreibungen.
- Unterstützung von Datennutzern bei der Anbindung an zentrale Ontologien und semantische Datenbanken.
Bewertung der Methoden
Die folgende Einschätzung der Qualitätskriterien "Aktualität der Daten", "Konsistenz der Daten" und "Kontrolle der Ergebnisse" und generell der Aufwand für eine koordinierende Stelle kann als Grundlage für die Bewertung der verschiedenen Ansätze genutzt werden.
| Methode | Aktualität | Konsistenz | Kontrolle | Aufwand für koordinierende Stelle |
|---|---|---|---|---|
| Datenharmonisierung | Mittel | Hoch | Hoch | Hoch |
| Dezentrale Interoperabilität | Hoch | Gering | Gering | Mittel |
| Technologie-/KI-gestützte Harmonisierung | Sehr hoch | Hoch | Hoch | Sehr hoch |
| Semantische Beschreibung | Hoch | Mittel | Mittel | Mittel |
Fazit und Empfehlungen
Die Technologie-/KI-gestützte Harmonisierung nutzt semantische Technologien und maschinelles Lernen zur Interoperabilität und Datenqualität:
- Semantic Web-Technologien und KI-gestützte Qualitätsprüfungen verbessern die Interoperabilität.
- Eine Referenzarchitektur regelt Zuständigkeiten für Standards, Metadatenmodelle und KI-Modelle, wodurch eine einheitliche Steuerung gewährleistet wird.
- KI-gestützte Verfahren erleichtern die Identifikation und Integration relevanter Datensätze.
- Automatisierte semantische Modellierung erleichtert eine konsistente Bereitstellung im Geoportal.de.
Aus Sicht der Kst. GDI-DE ist die Technologie-/KI-gestützte Harmonisierung der langfristig nachhaltigste Ansatz. Allerdings ist der initiale Aufwand hoch, weshalb eine Hybridstrategie empfohlen wird: Zentrale und semantische Harmonisierung für kurzfristige Umsetzung, während Technologie-/KI-gestützte Lösungen langfristig entwickelt werden.
Kommentar
Anja Loddenkemper sagt:
Juli 24, 2025[Ich bin dabei, alte E-Mails abzuarbeiten, so komme ich jetzt also an diesen Ort, habe ich aber nicht wirklich Zeit mich hier genau umzuschauen... und bei dem AP-WS war ich auch nicht... aber ich will die E-Mail von Fr. Dr. Heine vom 05.05.2025 14:12 endlich zu den Akten legen... ist immerhin ein wichtiges Thema!]
In meinen Augen ist hier schon der erste Denkfehler:
"Vorgehen:
Wir haben irgendwo in der Fläche Daten und die werden dann an eine zentrale Stelle geliefert? Per E-Mail, Festplatte oder USB-Stick in einem gepolsterten Briefumschlag? Nein, das ist nicht das, was wir mit einer GDI erreichen wollen! Wir wollen, dass jeder in der Fläche seine Daten bereitstellt, gleichgültig wie sie aussehen. Das Datenmodell liegt offen in der GDI-DE Registry unter dem Namensraum dieser datenhaltenden Stelle. Die originären Daten werden über Darstellungs- und Downloaddienst bereitgestellt.
Wenn dann jemand diese Daten harmonisieren möchte, dann holt er sich aus dem Downloaddienst die Daten, liest das Datenmodell ein und transformiert die Daten nach seinen offengelegten Regeln (ohje, dazu existiert kein Standard). Er beschreibt in seinem Metadatensatz unter <lineage>, woher er die zu Grunde liegenden Daten einst bekam und beschreibt auch, was er damit gemacht hat. Er veröffentlicht sein eigenes Datenmodell dazu unter seinem Namensraum in der GDI-DE Registry. Auch er stellt die Daten über Darstellungs- und Downloaddienst bereit.
So werden Prozessketten in einer GDI gebaut.
Wem die Prozesskette zu kompliziert ist, dem steht es frei, sie zu verkürzen, indem er seine Daten bereits in einem harmonisierten Datenmodell führt. Dabei steht auch gar nicht mal so sehr das "harmonisiert" im Vordergrund. Eher ist es wohl so, dass es zunächst nur darum geht, überhaupt verständliche und dadurch interoperable Datenmodelle zu benutzen. Ein solches verständliches oder interoperables Datenmodell ist dann gegeben, wenn das Datenmodell persistent öffentlich zugänglich gemacht wurde, was eben das Schema, die Codelisten, die Styles angeht. Dafür gibt es eigentlich die GDI-DE Registry.
Die Harmonisierung ergibt sich dann irgendwann von "allein", da die Prozessketten sonst einfach zu kompliziert sind. Diese Erkenntnis, dass es besser ist, fachlich zusammenhängende Daten in einem gemeinschaftlichen Datenmodell zu führen, muss jede datenhaltende Stelle leider zunächst selbst gewinnen, denn bekanntlich bringen selbst Gesetze unsere datenhaltenden Stellen kaum dazu das zu tun, was verlangt ist. Einen Erkenntnisgewinn können wir jedoch fördern, gleichgültig ob es in unserem Zuständigkeitsbereich geht oder um ein Fachnetzwerk.
Bestimmt ist es auch möglich, automatisiert die Datenmodelle aus den bereitgestellten Daten per Downloaddienst und die Styles aus den existierenden Darstellungen abzuleiten und persistent bereitzustellen. Sowas wäre doch eine tolle Sache, wenn die GDI-DE Registry das dann automatisiert aufnehmen könnte, so dass in einem iterativen Prozess die datenhaltenden Stelle weitere wichtige Informationen zum tieferen Verständnis ihrer Daten dort einpflegen könnte. Nebeneffekt ist dann, dass auch die KI Zusammenhänge zwischen unterschiedlichen Datenmodellen auf Basis der bereitgestellten Daten samt Meta-Informationen leicht erkennen kann und und entsprechende Vorschläge machen kann, wie sich ein Sachverhalt am effizientesten technisch harmonisieren lässt. Aber die KI muss ja erstmal irgendeine Entscheidungsgrundlage haben. Wo ist denn die gerade? - Vielleicht noch unterwegs, in einem gepolsterten Briefumschlag...