Lorsque nous parlons de qualité de données avec les outils SQL Server, en général, les clients choisissent entre des règles techniques implémentées via SSIS pour un traitement automatique ou des règles fonctionnelles implémentées via DQS (DataQuality Services) pour une gestion accessible aux utilisateurs.

La solution DQS satisfait les clients par son accessibilité et le fait d’avoir la main sur les corrections, mais ne permet pas encore l’implémentation de tous les types de corrections.

La solution SSIS permet de mettre en place tous types de corrections mais ne donne pas la main aux utilisateurs, notamment pour la validation ou le rejet des corrections.

Cet article est le second d’une série consacrée à l’EIM, et fait suite à l’article « Solution EIM pour Dynamics CRM ».Il explique comment sur un projet en production chez un de nos clients grand compte, nous avons pu combiner les deux solutions.

Problématique

  • Mettre en place toutes sortes de règles de gestion de la qualité des données
  • Avoir la possibilité de valider, rejeter ou modifier des corrections proposées

Bénéfices

  • Une gestion de la qualité des données flexible et accessible aux utilisateurs

 

 

Schéma des étapes de correction des données

 

Gestion de la qualité des données avec SSIS

Il est impératif d’ajouter des commentaires au package, décrivant ses différentes étapes ainsi que la logique de leur enchaînement afin de permettre plus facilement à d’autres intervenants la compréhension de ce qui a été mis en place et la reprise de l’existant.

DQS permet d’évaluer la qualité des données et de faire certaines corrections mais ne permet pas les corrections telles que la suppression des espaces avant et après la donnée ou la comparaison de deux données contenues dans deux colonnes.

SSIS permet ce type de corrections mais ne permet pas à l’utilisateur d’avoir la main dessus afin de les valider, les corriger ou les rejeter.

La solution mise en place a donc été de combiner DQS et SSIS afin répondre aux deux exigences.

Dans la base de staging, une colonne a été ajoutée pour chaque attribut à corriger. Cette colonne contiendra la correction proposée par SSIS s’il y en a une.

Les règles mises en place sont les suivantes :

  • Suppression de caractères,tels que caractères spéciaux et chiffres, se trouvant dans MDS et pouvant donc aisément être enrichie par les utilisateurs.

FirstName

ProposedFirstName

Mathias_3

Mathias

 

  • Suppressions d’espaces avant et après la donnée.

FirstName

ProposedFirstName

 Mathias

Mathias

 

  • Suppression de l’email2 s’il est égal à l’email 1.

Email1

Email2

ProposedEmail2

manon@microsoft.com

manon@microsoft.com

Null

 

  • Correction du format du numéro de téléphone en fonction du pays

Si Pays =FR et

0y xx xxxxxxavec y!=0  ou   00 33 y xx xxxxxxavec y!=0  ou  +33 y xx xxxxxxavec y!=0

Alors (+33)yxxxxxxxxx

 

Gestion de la qualité de données avec DQS

Les règles de correction mises en place dans DQS sont les suivantes :

  • Mettre en majuscule les noms

LastName

ProposedLastName

Berne

BERNE

 

  • Mettre en Capitalize les prénoms

FirstName

ProposedFirstName

Jean-marie

Jean-Marie

 

  • Correction des adresses postales se basant sur une table de référence dans Azur.

  • Informer si l’email contient des mots définis tels que « test ».

 

 

Processus de validation des correction

DQS permet d’effectuer des corrections mais aussi d’avoir la possibilité de valider, modifier ou rejeter les corrections proposées, notamment par SSIS.

SSIS ne remplissant les colonnes Proposed que si une proposition de correction est faite, il a suffi de mettre en place une règle dans DQS stipulant que les champs Proposedne sont corrects que s’ils sont NULL.

De cette manière, dans le processus de classification des données par DQS, décrit par le schéma ci-dessous : 

  

 

 

Les données pour lesquelles une correction a été proposée par SSIS apparaissent dans la catégorie « Invalid », ceux corrigés par DQS apparaissent dans la catégorie « Corrected »  et ceux pour lesquels une suggestion de correction a été faite par DQS dans la catégorie « Suggested ».

Les utilisateurs peuvent donc vérifier les corrections proposées, les valider, corriger la proposition ou simplement rejeter la correction.

Les utilisateurs enregistrent le résultat et SSIS interprète les champs « Reason » et « Status »  de DQS afin de savoir quelles corrections prendre en compte.

De cette façon, les clients peuvent avoir toutes les possibilités de correction des données offertes par SSIS ainsi que la main sur leur validation via DQS.

 

 

L’expertise Microsoft Consulting Services au service de ses clients

Nos expériences nous permettent d’adapter les principes de l’EIM pour répondre aux contraintes des secteurs d’activité comme la banque d’investissement et l’assurance.

 

Pour plus d’informations sur les offres packagées Microsoft Consulting Services, rendez-vous sur http://www.microsoft.com/france/services

Plus d’informations sur les blogs « SQL Server chez les clients ».

 

Manon B., Consultante BI/SQL, Microsoft Consulting Services

Je suis consultante BI depuis 2007, principalement sur les technologies Microsoft BI. J’interviens chez des clients, en tant que leader technique. Je participe également à des missions de cadrage et d’avant-vente.

Je suis spécialisée en intégration des données, gestion de la qualité des données et reporting.