Artikel

Gemeinschaftliche Modellierung von Offene-Daten-Pipelines – JValue-PML

Problemstellung

Offene Daten existieren in den unterschiedlichsten Formaten und sind häufig schlecht definiert. Vor ihre Verwertung ist ein arbeits- und kostenintensiver Daten-Engineering-Prozess geschaltet. Statt Nutzer und Nutzerinnen den Daten-Engineering-Prozess individuell durchführen zu lassen, wäre es besser, dies gemeinschaftlich in einem Open-Source-Projekt zu tun. Dazu fehlt aber eine Modellierungssprache mit Ausführungsumgebung für Daten-Pipelines. Daten-Pipelines sind Verfahren, bei denen Rohdaten aus verschiedenen Quellen aufgenommen und zur Analyse in einen Datenspeicher portiert werden.

Projektziel

Wir wollen eine Modellierungssprache für Daten-Pipelines, einen Compiler und eine Laufzeitumgebung entwickeln. Der Compiler liest Dateien, analysiert den Code übersetzt ihn in ein für die Zielplattform geeignetes Format. Mit Hilfe der Laufzeitumgebung können die Pipelines ausgeführt werden. Die Modellierungssprache muss eine textuelle Syntax haben, so dass interessierte Parteien über etablierte Open-Source-Infrastruktur gemeinschaftlich an Pipeline-Modellen arbeiten können.

Durchführung

Dazu werden wir (1) eine Modellierungssprache definieren, (2) einen Compiler entwickeln, und ein (3) Laufzeitsystems entwickeln, welches vom Compiler instrumentiert wird, um eine ausführbare Pipeline zu erhalten. Wir werden (4) mittels studentischer Projekte zu Mobilitätsdaten demonstrieren, dass die Pipeline-Modelle auf Basis unserer Sprache gemeinschaftlich entwickelt werden können.

Verbundkoordinator	Professur für Open-Source-Software, Friedrich-Alexander-Universität Erlangen-Nürnberg • FKZ: 19F1133A
Projektvolumen	83.333 € (davon 100% Förderung durch BMDV)
Projektlaufzeit	11/2022 – 10/2023
Projektpartner	-
Ansprechpartner	Professur für Open-Source-Software Prof. Dr. Dirk Riehle Telefon: +49 9131 85 28390 E-Mail: dirk.riehle@fau.de