"Spot the mistake in ~50 million data points, cleverly"
Beim
HIDA Datathon am 5.-6. November 2020 wurden von Wissenschaftlern der Helmholtz Gemeinschaft fünf aktuelle Probleme im Bereich der Umweltwissenschaften gesammelt, deren Lösung vielversprechend für eine Anwendung von Methoden im Bereich "Data Science" war. Christian Werner, Maximilian Graf und Julius Polz nahmen an der Challenge "Spot the mistake in ~50 million data points, cleverly" teil und gewannen. Diese Lösung ist ein erster Schritt und bietet viel Optimierungspotential. Der Ansatz soll in Zukunft gemeinsam mit dem UFZ weiterverfolgt werden, da es sich für viele Anwendungen am IMK-IFU und der Universität Augsburg anbietet. Unter dem Titel "Supervised and unsupervised machine-learning for automated quality control of environmental sensor data" wird ein weitgehend von Daten losgelöstes Projekt verstanden, das auch als Beitrag bei der diesjährigen EGU-Konferenz in der Session "Machine learning for earth system modelling" eingereicht wurde.
Die Challenge wurde vom UFZ in Leipzig gestellt. Es ging dabei um die SoilNet Bodenfeuchte und -temperatur Daten der TERENO Station "Hohes Holz", die seit einigen Jahren mit den am FZ Jülich entwickelten Sensoren erhoben werden. Diese Sensoren sind abhängig von einer manuellen Datenqualitätskontrolle. Das Ziel der Challenge war es, diesen Prozess zu automatisieren, wenn möglich ohne Benutzung der bereits gesammelten manuellen "Qualitätsflags". Entsprechend wird „unsupervised machine learning“ gegenüber den gängigen supervised Algorithmen bevorzugt, die für den Lernprozess die "Wahrheit" kennen müssen.
Die eingereichte Lösung des Problems bestand aus zwei Schlüsselkomponenten. Erstens die Überführung der teils unorganisierten Daten in ein kohärentes Zeitreihenformat, um generell maschinelles Lernen zu ermöglichen. Und zweitens die Anwendung von
Uniform Manifold Approximation and Projection (UMAP) und anschliessendem "Clustering" der Daten in verschiedene Kategorien. Mit diesem Ansatz konnten innerhalb von zwei Tagen alle Anforderungen einer Lösung, inklusive einer robusten Validierung der Methode, erfüllt werden.
Die effiziente und effektive Kombination unterschiedlichen Expertenwissens ermöglichte die folgende vorgestellte end-to-end Lösung.Beitrag startet bei 36:53 Minuten