transfer édition 02 | 2018

Des données, toujours et encore

Sortir de la jungle ? Mais comment ?

Notre monde devient de plus en plus numérique. Rien de nouveau. De plus en plus de données sont collectées. Là non plus, rien de nouveau. Néanmoins : quelles données sont utiles et quelles autres ne valent pas la peine de les collecter. Comment sortir de la jungle des données ? Nous nous sommes entretenus avec Dr Kris Villez, responsable de groupes chez l’Eawag, sur sa position d’un point de vue scientifique.

Monsieur Dr Villez, nous ne cessons de collecter des données. De quel bon sens faisons-nous encore preuve ?

La collecte des données est de moins en moins chère. Et il devient de plus en plus facile de le faire. Mais cela ne signifie en aucun cas que nous accumulons là des informations. Nous devrions nous demander si ce que nous mesurons, nous sert vraiment. Cela nous apporte-t-il vraiment l’avantage escompté ? On s'aperçoit très vite qu’en augmentant le nombre des données, on augmente le travail et les coûts liés à ces dernières. Il ne suffit pas d’enregistrer, encore faut-il les traiter de manière pertinente.

« Beaucoup de données n’impliquent pas forcément plus d’informations. »

Je dirais même, certes un peu provocateur, que les données que nous ne regardons pas, ne sont pas de très bonne qualité. Même si nous les prenons en considération deux ans plus tard, elles ne servent à rien. La recommandation est ici simple : ne collecter que les données dont on a concrètement besoin. Et vérifier régulièrement si elles sont plausibles. Les données d’un capteur qui n’est pas régulièrement entretenu, ne sont que peu intéressantes.

Comment savoir aujourd'hui, quelles données ont un sens ?

Je dirais simplement : cela ne sert pas à grand chose « d’attacher un chariot devant le cheval », en bref, récolter des données et se demander ensuite pour quoi faire, voire même n’en avoir besoin que des années plus tard.

« Si on ne connaît pas la raison de l’accumulation de données, il vaut mieux tout simplement l’éviter. »

Bien sûr, il peut arriver qu’un nouveau travail se base sur des données déjà sauvegardées. Mais d’expérience, les gens lancent de nouvelles campagnes de mesure pour être sûr des données. C’est à dire lorsque les données existantes n’ont pas été validées.

« D’après moi, il serait plus judicieux que toutes les personnes intéressées par les données s’accordent entre elles : exploitant d’installation, planificateur, administrations. Actuellement chacun enregistre les données de son côté. »

 

En coordonnant la récolte des données, on gagnerait déjà beaucoup. Le résultat serait alors une base de données plausible et consolidée qui serait disponible pour différentes tâches.

Vous parlez de la validité des données. Encore plus de données augmente l’incertitude. Comment y faire face ?

Normalement on déterminerait la validité à l’aide d’une mesure de référence. Mais cela prend beaucoup de temps. Il faut organiser des échantillons puis analyser ces derniers. Des heures voire des jours s’écoulent jusqu’à l’obtention du résultat. Et finalement, nous ne savons pas à ce moment-là à quel point une mesure était précise deux heures ou quelques jours auparavant.

Je pense qu’avec la nette augmentation de la quantité des données, ce type de contrôle n’est plus praticable. Rien qu’une petite station d’épuration (STEP) génère systématiquement 1000 à 1500 entrées de données. Les grandes installations en génèrent au moins dix fois plus. Nous travaillons ici à des algorithmes que permettent une vérification automatisée de la plausibilité des données. Mais cela ne remplace pas les personnes dans la chaîne de décisions. Nous pouvons cependant les décharger de cette routine fastidieuse.

Nous devons là bien comprendre qu’une personne est complètement dépassée si elle doit visualiser toutes ces données et décider de leur justesse. Nous partons du principe que la majorité des données est correcte. Ainsi, grâce à des algorithmes adaptés, nous parvenons à en trier 80 à 90% qui n’ont plus besoin d’être vérifiées et sont prêtes pour une prise de décision en ligne. Le reste du travail se concentre alors sur les 10 à 20% pour lesquels nous ne sommes pas certains de leur intégrité et qui doivent donc être analysés par l’opérateur. Une quantité qui redevient maîtrisable. On parvient donc à vérifier une très grande quantité de données sans effort supplémentaire.

Trouve-t-on ainsi les données manipulées ?

Pour combattre la cyber-criminalité, nous utilisons d’autres mécanismes de détection, par exemple en changeant régulièrement au hasard le principe de mesure. Pourriez-vous préciser ? Par exemple, on n’interroge pas tous les capteurs en même temps, et pas non plus systématiquement dans le même ordre. On s’appuie là sur un canal pour plusieurs capteurs, puis on modifie en permanence la configuration. Les cyber-attaquants ne parviennent ainsi pas à savoir quel capteur est actuellement interrogé.

« Si les assaillants ne savent pas quel signal manipuler, ils ne parviendront sans doute pas à le faire sans que l’on s’en aperçoive. »

Leur intention n’est pas la destruction d’une installation, mais de modifier les données de telle sorte que les spécialistes des processus pensent devoir arrêter l’installation. En d’autres termes, qu’ils prennent une mauvaise décision sur la base de données erronées.

À partir de nombreuses données en apparence non vérifiées, on parvient à tirer des conclusions très pertinentes. Comment mettre en évidence ce type de relation ?

Cela dépendant de qui fait l’analyse : un homme ou un ordinateur. Si une personne s’en charge, nous sommes limités à une représentation en 3D. Une machine au contraire, ne connaît pas cette limite. Les processus de décision qui dépendent de plus de trois dimensions deviennent cependant très abstraits. Au bout du compte, il faut préparer quand même les résultats de telle sorte que l’homme puisse les comprendre. Il existe bien entendu des méthodes à cette fin, par l’analyse des composants principaux (PCA), qu’on retrouve aussi dans RITUNE® : on recherche alors des relations linéaires entre les données ainsi que les meilleurs moyens de le représenter. Je pense cependant que de telles méthodes sont trop abstraites pour les technologies de mesure « classiques ». Et je ne crois pas non plus que de telles méthodes se simplifieront dans le future proche.

Beaucoup de gens croient encore que l’augmentation de la quantité des données et les processus automatisés rendront l’homme et son savoir-faire superflus.

Mais c’est tout le contraire : je ne peux analyser correctement une recommandation de la machine que si je comprends vraiment le processus. Avec toutes ces données et la recherche perpétuelle d’automatismes encore plus performants, nous oublions parfois que nous nous appuyons sur beaucoup de connaissances passées et d’expériences. La question est simplement de savoir comment les intégrer dans notre « système ».

« Le gain décisif réside dans l’association des données à nos connaissances. »

Je peux l’expliquer sur l’exemple des voitures sans conducteurs. Elles fonctionnent mais font des erreurs. Que fait-on alors ? On intègre les connaissances préalables au système. À quoi ressemble l’environnement, à quoi ressemble un être humain ? Qui a priorité ? Ce type de décision doit être appris (programmé) dans le système. Donc : les connaissances préalables intégrées au système aident à éviter les erreurs.

Là encore, voici la raison pour laquelle nous devons pouvoir nous fier aux données. Et pour leur faire confiance, nous devons les comprendre.

Des systèmes autodidactes et une connaissance programmée : serons-nous et tout autour de nous en réseau ?

« L’intelligence artificielle » (IA) est dans toutes les bouches. Entre temps, certains parlent déjà d’une nouvelle phase de repli de l’intérêt, soit un nouvel « hiver de l’IA ». Beaucoup de choses ont été réalisées et beaucoup ont été promises. Et ce qui a été promis diffère parfois de ce qui est possible dans la réalité. Je crois que nous devons repenser nos attentes et viser une culture stable de l’innovation. Sans trop promettre. Les gens doivent continuer à évoluer. Cela permettra de contrer les craintes et les peurs quant à l’utilité future de l’homme pour certains processus. Certains travaux sont bien sûr automatisés. Mais sans expertises, cela ne peut pas fonctionner.

De ce fait, ce qui va sans doute se produire, n’est autre qu’un décalage des tâches. Que cela signifie-t-il par exemple pour un technicien en mesure ou un exploitant d’une STEP ? Sans aucun doute, moins de travaux manuels et surtout moins de tâches répétitives et ennuyeuses. Pourquoi ne pas imaginer des drones qui s’occupent des échantillons issus des bassins et évitent ainsi les longs déplacements. Pendant ce temps, il peut se charger de tâches plus intéressantes que la prise d’un échantillon. Il peut utiliser ses expériences afin de vérifier la chaîne de collecte des données.

« C’est qui est automatisé doit être vérifié et validé. Voilà la nouvelle responsabilité dans les technologies de mesure, selon moi. J’investirais à cette fin dans la formation du personnel. »

Pour conclure : d’après vous, quels sont les plus grands obstacles du point de vue des données à l’avenir ?

Je pense que les plus gros obstacles seront au niveau socio-économique. Les technologies existent déjà.

« Se fier aux données des autres est une chose dans la pratique encore difficile. La question reste comment accéder à une nouvelle culture de la confiance ? »

On s’assure de la plausibilité des données à l’aide de chaînes de mesure indépendantes. Cela implique à l’avenir que nous devons savoir comment coordonner la collecte des données. Et ce, de manière à ce que chacun qui utilise les données soit sûr qu’elles lui fourniront ce dont il a besoin.

Une possibilité ici pourrait être les services que l’on trouve de plus en plus souvent : ‹ Data as a Service ›. Un prestataire indépendant, par ex. un fournisseur de technologies de mesure, organise les données. L’exploitant n’achète plus du matériel mais des données. Donc : le fabricant installe, exploite et entretien le système technologique de mesure, puis vend les données y compris leur sauvegarde. En tant qu’utilisateur je décide de ce dont j’ai besoin et je paie un loyer à cette fin. C’est un modèle commercial et pourrait aussi offrir un vrai gain pour développer la nouvelle culture de confiance dont je parlais avant. Les données sont récoltées ensemble et le prestataire reste indépendant.

Dans tous les cas, cela ouvre les portes vers une plus grande efficacité, car on ne mesure une même chose qu’une seule fois. Et tout le monde utilise les mêmes données. La question de la confiance serait alors réglée.

Merci beaucoup pour cet entretien.