transfer Ausgabe 02 | 2018

Daten, Daten, Daten

Raus aus dem Dschungel. Aber wie?

Unsere Welt wird digitaler. Diese Erkenntnis ist nicht neu. Dazu werden immer mehr Daten erfasst. Auch das ist nicht neu. Nur: Welche Daten sind ‹gut›, und welche sind den Aufwand, sie zu erheben, nicht wert? Wie finden wir uns im Datendschungel zurecht? Wir haben uns mit Dr. Kris Villez, Gruppenleiter an der Eawag, darüber unterhalten, welchen Standpunkt er aus Sicht der Wissenschaft vertritt.

Herr Dr. Villez, wir sammeln immer mehr Daten. Wieviel Sinn und Verstand lassen wir dabei noch walten?

Es wird immer billiger, Daten zu sammeln. Und es wird auch immer einfacher, Daten zu sammeln. Aber das bedeutet ja noch lange nicht, dass wir damit Informationen sammeln. Wir sollten hinterfragen, ob das, was wir messen, überhaupt nutzbar ist. Bringt es tatsächlich einen entsprechenden Gewinn? Man stellt relativ rasch fest, dass mit zusätzlichen Daten auch zusätzliche Aufwände entstehen – man muss sie ja nicht nur erfassen, sondern auch anschauen und in geeigneter Form verarbeiten.

«Viele Daten bedeuten ja noch lange nicht viele Informationen.»

Ich würde mal frech behaupten, dass Daten, die man nicht anschaut, auch nicht von hoher Qualität sind. Auch wenn man sie erst nach 2 Jahren betrachtet, bringen diese Daten wohl nichts. Die Empfehlung ist eindeutig: Man sollte nur solche Daten sammeln, die konkret genutzt werden. Und regelmässig überprüfen, ob sie überhaupt stimmen können: Die Daten eines Sensors, der nicht laufend gewartet wird, haben wenig Nutzen.

Wie findet man denn heraus, welche Daten «Sinn machen»?

Ich möchte es mal so sagen: Es ist wenig sinnvoll, ‹den Wagen vor das Pferd zu spannen›, sprich: zuerst Daten sammeln und dann überlegen, welche Aufgaben man damit – vielleicht erst in Jahren – lösen will.

«Wenn man nicht weiss, wozu man Daten sammelt, dann sollte man das auch nicht tun.»

Natürlich kann es vorkommen, dass sich eine neue Aufgabenstellung tatsächlich auf der Basis bereits erhobener Daten lösen liesse. Erfahrungsgemäss führt man jedoch eher eine neue Messkampagne durch, wenn man dem Datenbestand nicht vertrauen kann. Heisst: wenn die vorhandenen Daten nicht validiert sind.

«Was sich aus meiner Sicht lohnen würde, wäre eine Abstimmung unter all jenen, die an ‹Daten› interessiert sind: Anlagenbetreiber, Planer, Behörden. Da sammelt doch heute jeder für sich.»

Falls sich dies koordinieren liesse, wäre das ein grosser Fortschritt. Im Ergebnis besässe man eine konsolidierte und plausibilisierte Datenbasis, welche man dann für die verschiedensten Aufgabenstellungen heranziehen könnte.

Sie sprechen die Gültigkeit der Daten an. Mehr Daten schaffen auch mehr Unsicherheit. Wie begegnet man diesem Umstand?

Klassisch würde man die Gültigkeit mit einer manuellen Referenzmessung bestimmen. Aber das braucht viel Zeit. Man muss eine Probenentnahme organisieren und diese auswerten. Bis zum Ergebnis vergehen Stunden oder Tage. Und dann weiss man eigentlich nur, wie genau eine Messung vor zwei Stunden oder einigen Tagen war.

Ich denke, mit der wachsenden Menge an Daten, die wir sammeln, ist die ‹klassische› Datenkontrolle nicht mehr praktikabel. Schon eine kleine Abwasserreinigungsanlage (ARA) generiert kontinuierlich 1'000 bis 1'500 Datensätze, bei grossen Anlagen ist das leicht das Zehnfache. Hier arbeiten wir an Algorithmen, die eine automatisierte Prüfung von Daten auf Plausibilität ermöglichen. Das ersetzt den Menschen in der Entscheidungskette jedoch nicht. Wir können ihn allerdings von ermüdenden Routineaufgaben entlasten.

Wir müssen uns ja auch darüber im Klaren sein, dass ein Mensch damit überfordert ist, alle Daten anzuschauen und die richtigen von den falschen zu unterscheiden. Wir gehen davon aus, dass der allergrösste Teil der Daten richtig ist. Dann können geeignete Algorithmen schon einmal 80 bis 90% davon separieren, die man nicht gesondert betrachten muss und die bereits für Online-Entscheidungsprozesse genutzt werden können. Der Aufwand für die verbleibenden 10 bis 20%, die aufgrund von Unsicherheiten zur Integrität eine Beurteilung durch den Bediener erforderlich machen, erscheint dann wiederum machbar. So kann man eine grosse Menge an Daten prüfen, ohne den Aufwand zu vergrössern.

Findet man damit auch manipulierte Daten?

Beim Thema Cyberkriminalität setzt man andere Detektionsmechanismen ein, beispielsweise indem man den gesamten Messprozess ‹randomisiert›, also regelmässig nach einem Zufallsprinzip verändert. Was heisst das? Man fragt zum Beispiel nicht von allen Sensoren gleichzeitig und nicht immer in derselben Reihenfolge die Daten ab, sondern nutzt einen Kanal für mehrere Sensoren und wechselt laufend die Konfiguration. Der Angreifer kann dann keinen Rückschluss daraus ziehen, welcher Sensor gerade abgefragt wird.

«Wenn der Angreifer nicht weiss, welches Signal er manipuliert, dann wird es ihm kaum so gelingen, dass man den Fehler nicht entdeckt.»

Sein Ansinnen ist es meistens nicht, eine Anlage zu zerstören, sondern die Daten so zu verändern, dass ein Prozessexperte die Anlage abschalten würde. Also aufgrund der falschen Daten eine falsche Entscheidung zu provozieren.

Aus vielen auf den ersten Blick unkorrelierten Daten lassen sich oft wertvolle Erkenntnisse gewinnen. Wie lassen sich Zusammenhänge erkennbar machen?

Das hängt ein bisschen davon ab, ob ein Mensch oder ein Computer die Bewertung vornimmt. Beim Menschen ist man mit einer Darstellung in drei Dimensionen limitiert. Bei einer Maschine gibt es diese Grenze nicht. Entscheidungsprozesse mit mehr als drei Dimensionen sind allerdings sehr abstrakt. Und am Ende muss man die Erkenntnisse trotzdem so präsentieren können, dass der Mensch sie wieder versteht. Natürlich gibt es dafür schon Methoden, beispielsweise die sogenannte Hauptkomponentenanalyse (PCA), die auch in RITUNE® implementiert ist: Da sucht man lineare Zusammenhänge in Daten und Wege, diese optimal darzustellen. Für die ‹klassische› Messtechnik sind solche Methoden aus meiner Sicht eher noch zu abstrakt. Und ich sehe jetzt auch nicht, dass solche statistischen Methoden in der nahen Zukunft viel einfacher werden.

Viele meinen nach wie vor, dass die steigende Datenmenge und automatisierte Prozesse den Menschen und sein Fachwissen überflüssig machen.

Ganz im Gegenteil: Ich kann doch nur beurteilen ob eine Empfehlung der Maschine gut ist, wenn ich den Prozess verstehe. Bei all den Daten und der Suche nach immer besseren Automatismen geht manchmal vergessen, dass wir über viele Vorkenntnisse verfügen und Erfahrungen gesammelt haben. Die Frage ist höchstens, wie wir diese in unser ‹System› bringen.

«Der grösste Mehrwert besteht darin, Daten und unser Wissen zu kombinieren.»

Ich kann das auch am Beispiel der selbstfahrenden Autos erklären: Sie funktionieren, aber sie machen Fehler. Was macht man also? Man bringt Vorkenntnisse ins System. Wie sieht die Umgebung, wie ein Mensch aus? Was hat Priorität? Diese Entscheidungsebenen muss man ‹einprogrammieren›. Heisst: Vorkenntnisse im System helfen, Fehler zu vermeiden.

Ein weiterer Grund ist die Notwendigkeit, Daten vertrauen zu können. Und um zu vertrauen braucht man Verständnis.

Selbstlernende Systeme und einprogrammiertes Wissen: Sind dann in der Zukunft alle und alles vernetzt?

‹Künstliche Intelligenz (KI)› ist ein Hype, ja. Inzwischen sprechen aber bereits einige schon von einem neuen ‹KI-Winter›. Vieles wurde realisiert, vieles versprochen. Und das Versprochene weicht doch manchmal von dem ab, was in der Realität machbar ist. Ich denke, man muss die Erwartungen vielleicht neu einstellen und eine stabile Innovationskultur schaffen. Ohne zu viel zu versprechen. Die Menschen müssen sich mitentwickeln. Das würde auch Sorgen und Ängsten, ob es den Menschen in manchen Prozessen noch braucht, entgegenwirken. Natürlich werden bestimmte Arbeiten automatisiert. Aber ohne Fachkenntnisse wird es auch nicht gehen.

Damit verschieben sich aber höchstwahrscheinlich die Aufgabenstellungen. Was könnte das beispielsweise für einen Messtechniker oder Anlagenbetreuer auf der ARA heissen? Wahrscheinlich weniger manuelle Arbeit, vor allem weniger repetitive, langweilige Aufgaben. Vielleicht entnehmen Drohnen die Proben aus den Becken, und ersparen ihm lange Wege. In der gewonnenen Zeit kann er sich interessanteren Aufgaben, der Probe selbst, widmen. Er kann seine Erfahrungen einbringen, um die Datensammlungskette zu überprüfen.

«Was automatisiert wird, muss geprüft und validiert werden. Das ist aus meiner Sicht die neue Verantwortung, beispielsweise in der Messtechnik. Hier würde ich in die Ausbildung der Mitarbeitenden investieren.»

Abschliessend: Wo sehen Sie ‹datenmässig› die grossen Hürden der nahen Zukunft?

Ich denke mir, dass die grössten Hürden eher auf der sozio-ökonomischen Ebene zu überwinden sein werden. Die Technologien sind verfügbar.

«Das Vertrauen in die Daten des anderen ist in der Praxis eher gering. Die Frage ist, wie eine neue Vertrauenskultur entstehen kann.»

Über unabhängige Messketten stellt man sicher, dass die Angaben stimmen. Für die Zukunft heisst das für mich, dass wir die Frage lösen sollten, wie man eine Datensammlung koordiniert. Und zwar so, dass jeder, der die Daten nutzt, darauf vertrauen kann, dass sie ihm das zeigen, was er sehen möchte oder muss.

Einen Weg dahin könnte vielleicht eine inzwischen immer häufiger anzutreffende Dienstleistung öffnen: ‹Data as a Service›. Ein unabhängiger Dienstleister, bspw. der Messtechnikanbieter, organisiert die Daten. Der Anlagenbetreiber kauft nicht mehr Hardware, sondern die Daten. Heisst: Der Hersteller installiert, betreibt und wartet das messtechnische System und verkauft die Daten inkl. der Sicherung. Als Nutzer entscheide ich, was ich benötige, und dafür bezahle ich Miete. Das ist ein Business-Modell – und könnte auch in der Entwicklung der angesprochenen neuen Vertrauenskultur einen Mehrwert haben: Daten werden gemeinsam ‹beschafft›, und ‹der Anbieter› ist dabei unabhängig.

In jedem Fall verspricht dies eine grössere Effizienz, denn dieselbe Sache wird nur einmal gemessen. Und alle nutzen dieselben Daten. Damit wäre auch das Vertrauensproblem gelöst.

Herzlichen Dank für das Gespräch.