Puits et ODS

Une architecture décisionnelle classique comprend un ODS, en amont du flux de données qui alimente les différentes bases mises en forme inversée (modèles en étoile, …). Cet ODS est un entrepôt de données où les données sont chargées et travaillées par un ETL.

En première analyse il y a duplication entre les puits et ce type d’entrepôt.

Cependant, en analysant plus en détail, il apparaît que :

  • Certaines transformations, par exemple de conversion de format, si elles sont réalisées en amont dans le puits, seront disponibles pour l’ensemble des applications et portail et n’auront plus à être refaites, et maintenues, au niveau de l’entrepôt, il y a ainsi clairement une économie d’échelle,
  • Les problématiques d’intégration, en particulier le lien avec les référentiels, sont mieux placées si elles sont plus en amont, car plus proches de la source et là encore ce positionnement est gagnant les anomalies étant détectées au plus tôt,
  • Les besoins de données à date sont spécifiques au décisionnel (en particulier pour disposer de lots de données homogènes en date), mais le puits peut alimenter l’entrepôt correctement grâce à sa gestion complète des dates (modèle tri-daté).

Il existe ainsi une complémentarité très importante :

  • Il n’est pas nécessaire que tous les flux passent par des Puits, surtout si certains flux n’ont d’intérêt que pour le décisionnel, la problématique de profondeur historique est différente (par exemple, retropolation de séries selon la nomenclature actuelle).
  • La coexistence Puits-ODS introduit une flexibilité pour les choix de périmètre et la gouvernance.
  • Le décisionnel doit disposer de données détaillées mises dans l’ODS et de données inversées plus ou moins agrégées (en mode OLAP, ROLAP,…) pour faciliter les analyses.
  • Un ODS répond au même type de besoin qu’un puits de données : constituer un point unique où se trouvent les données de références pour différents usages. La préoccupation est d’éviter les divergences et incohérences qui ne manquent de se produire si les analyses puisent les mêmes données à des sources différentes.

Cependant les analyses statistiques induisent des besoins spécifiques qui doivent être traités dans l’ODS et non pas dans un puits de données :

  • Homogénéité des « populations » (au sens statistique) étudiées :
    • mêmes définitions, quelles que soient les provenances, afin que de fausses divergences ne puissent apparaître (les « biais »),
    • disponibilité des différentes informations qui ont des provenances différentes. On peut d’ailleurs se satisfaire de données manquantes, mais de toutes manières, les exigences sont différentes de celles qui sont de règle pour des systèmes opérationnels, tels que ceux que doit satisfaire un puits de données,
  • Stabilité du « peuplement » des lots :
    • Le décisionnel fonctionne traditionnellement à rythme lent et cadencé, pour créer des agrégats comparables et suivre des évolutions.
    • Il faut donc garantir la représentativité de la série, pour ne pas générer de fausses évolutions qui seraient dues à des variations de date, de production des données, de couverture, …
  • Enrichissement sémantique par création de nouveaux concepts de classement propres à l’analyse :
    • Le décisionnel permet de créer une classification dynamique, mais celle-ci est naturellement fluctuante, et un besoin de suivi « longitudinal » implique de créer des codifications stables,
    • Ces codifications sont issues de croisements de données existantes et sont à créer au préalable à toute analyse, par exemple : la catégorie socioprofessionnelle,
  • Des retraitements automatiques peuvent être exécutés : apurement des erreurs mineures, conversions de codes, de données,… la mise en qualité des données répond au cahier des charges de statisticiens, qui n’est pas celui du gestionnaire
  • Les besoins de documentation sont en partie spécifiques, signalant par exemple les évolutions qui peuvent provoquer des biais.

Enfin, et ceci est majeur, les Puits, traçant des données opérationnelles de référence, ont vocation à être situés en amont dans les échanges et flux opérationnels. C’est en effet ce positionnement qui permet de contrôler la migration et de jouer le Lego dans l’intégration des composants, et des moteurs qui encapsulent la complexité.

A contrario, les ODS sont en aval, après l’enrichissement par les moteurs de complexité.