Puits et gestion de la qualité des données (DQM)

Les Puits de données, outre les avantages de flexibilité du SI apportés, sont des éléments clés pour la gestion de la qualité des données (DQM : Data Quality Management).

Le principe d’un puits est en effet de tracer tous les cycles de vie de la donnée. Le mécanisme de tri-datation vise à rendre plus rigoureuse la connaissance de ces différents cycles, et à sortir des confusions habituelles, en distinguant :

  • cycle des événements que la donnée documente,
  • cycle des visions temporelles sur ces événements,
  • cycles instrumentaux d’observation de ces 2 cycles.

La confusion des cycles est une source consubstantielle de non-qualité, puisqu’elle crée une ambiguïté sur le sujet observé : par exemple une nouvelle valeur de la donnée corrige-t-elle une erreur d’observation, ou trace-t-elle une évolution réelle, ou un changement de vision ?

Un préalable est donc de préciser cette datation, et de tracer dans les SI, et les puits, ces différents dates, qui identifient des cycles de vie à ne pas confondre. Ce principe de datation est fondamental pour gérer un SI, bien qu’il soit largement méconnu, et ignoré dans les grandes méthodologies et les académies. C’est la base de la DQM.

La gestion de la qualité des données se réduit alors à la problématique d’observation, au travers des différents moyens mis en oeuvre : formulaires, processus, automates, objets connectés, algorithmes, …

A ce stade, il convient de distinguer, du point de vue de l’Architecture du SI, deux risques de non-qualité.

  • La non-qualité intrinsèque à un outil canal
  • la non-qualité apparaissant à l’intégration de canaux
Non qualité intrinsèque à un canal

On entend ici par outil canal un dispositif socio-technique qui, lors de son activité, produit, entre autres résultats, des informations.

Un certain nombre d’erreurs ou d’approximations peuvent entacher ces informations. des erreurs de cohérence avec des référentiels par exemple, des valeurs non conformes, des incohérences, … On s’efforce à corriger ces erreurs, idéalement au plus près de la naissance de l’information. Cette problématique d’apurement des données (c’est le terme qui s’est imposé dans mon activité « historique » à l’Insee du temps des premières enquêtes statistiques informatisées) suppose un peu de méthode, par exemple pour réduire le nombre d’itérations.

Avec les technologies modernes on peut être moins exigeant quand cet apurement, car on est en capacité de traitement des données brutes dans leur état d’origine. Cependant on ne voit pas l’intérêt qu’il y aurait à conserver une erreur flagrante, par exemple sur la valeur du lien avec un référentiel (adresse, identité, …) : tant qu’il s’agit clairement d’une erreur dont on a la preuve. On pourra cependant conserver la trace de la correction, et établir des processus dédiés à de telles corrections. Par exemple, pour un référentiel, dans le cas du MDM, on rationalisera la gestion de ses données, par une organisation transversale et des processus adaptés (le « provisionning »).

Non qualité en intégration de canaux

Dans une organisation on peut retrouver une multitudes de canaux qui apportent des informations, concurrentes ou complémentaires, sur des objets du monde réel. Ce sont autant de visions partielles, en partie redondantes, qui sont confrontées au cœur du SI, lors des cycles opérationnels.

Un puits a pour vocation de rapprocher de telles visions, et de faire le lien entre les SI « producteurs » des informations. Ces confrontations font apparaître des divergences. La question est alors :

  • Le puits doit-il arbitrer ces divergences et prendre parti pour imposer les valeurs ? En tel cas il est intrusif car la valeur modifiée doit être « remontée » dans le ou les canaux producteurs. Ceci peut créer des situations complexes et des incohérences non gérées.
  • A contrario, le puits ne doit-il pas se contenter de constater l’incohérence, la tracer, et en aviser les canaux producteurs. Plus exactement, un protocole de la mise en qualité doit être mis en place, entre le puits et ses sources, permettant un alignement progressif des composants et processus producteurs. Cette cinématique de gestion de la qualité est basée sur une codification des « états » de qualité constatés par chacun des systèmes, y compris les puits, et sur une codification des messages d’échange entre systèmes.

Dans les cas complexes, la seconde méthode est la seule praticable. Elle divise le problème global en problèmes locaux de mise en qualité, au sein de chacun des systèmes. Chaque question locale est traité indépendamment du sujet global. En outre ceci permet de migrer progressivement le puits et ses canaux source, ainsi d’ailleurs que ses systèmes clients. L’horodatage et la tri-datation rendent cette méthode déterministe, contrairement aux approximations habituelles de corrections désordonnées.

Les puits de données sont ainsi des éléments d’architectures clés pour la mise en qualité des données opérationnelles. Agissant au cœur des confrontations, ils permettent un alignement progressif, sans imposer de migration planifiée, ni de big bang dévastateurs. Chaque canal source de données peut évoluer pour prendre en compte les incohérences détectées par le puits, et aménager le dialogue ou les processus, pour remonter le niveau de qualité des données produites.

La non qualité résulte de la complexité et de l’imbrication des systèmes

Dans un système complexe et imbriqué, les informations sont éparses, redondantes, assemblées au hasard des créations opportunistes… Conceptuellement incohérentes, elle ne peuvent être de qualité. Les corrections ne se propagent que partiellement, et provoquent de nouvelles incohérences et d’autres corrections contestables.

La seule solution pour durablement disposer de données de qualité est que les systèmes qui les génèrent soient logiquement architecturés : chaque système vit sa vie, sans perturber ses voisins, et n’est en lien avec eux qu’a minima, sur le strict nécessaire. Le puits de données respecte cette exigence fondamentale. Et la réduction de la complexité est sa raison d’être.

Cette argumentation sur le rôle clé de puits non intrusifs, chemins de mise en qualité pragmatique, s’ajoute aux nombreux avantages de cette figure de style pas assez reconnue.