Published on

July 20, 2021

Comment créer une base de connaissances et effectuer un nettoyage des données dans SQL Server

SQL Server 2012 a introduit une fonctionnalité puissante appelée Data Quality Service (DQS) qui aide à garantir l’intégrité et la qualité des données. Dans cet article, nous explorerons comment configurer une base de connaissances et effectuer un nettoyage des données à l’aide de l’outil Data Quality.

Création d’une base de connaissances sur la qualité des données (DQKB)

La première étape du nettoyage des données consiste à créer une base de connaissances. La base de connaissances est un référentiel d’informations ou de connaissances sur les données. Pour créer une base de connaissances, vous devez vous connecter à l’outil Data Quality Client et cliquer sur l’icône “Nouvelle base de connaissances”. Spécifiez le nom de la base de connaissances et sélectionnez l’activité que vous souhaitez effectuer, telle que “Découverte des connaissances”.

Ensuite, vous devez fournir la source de données pour la découverte des connaissances. Il peut s’agir d’une table d’une base de données SQL Server ou d’un fichier Excel. Dans la grille de mappage, sélectionnez la colonne de la source de données et créez un domaine dans la base de connaissances. Un domaine représente un ensemble de valeurs valides pour un attribut spécifique. Une fois que vous avez associé toutes les colonnes source aux domaines, vous pouvez passer à l’étape suivante.

Dans l’écran suivant de l’assistant, cliquez sur le bouton Démarrer pour analyser la source de données en vue de la découverte des connaissances. L’assistant s’exécutera pendant un certain temps, en fonction de la quantité de données, et affichera les résultats. Vous pouvez ensuite gérer les valeurs de domaine, en spécifiant quelles valeurs sont valides ou nécessitent une correction. Enfin, vous pouvez choisir de sauvegarder ou de publier la base de connaissances pour une utilisation dans des projets de qualité des données.

Création d’un projet de qualité des données

Une fois que vous avez créé et publié une base de connaissances, vous pouvez l’utiliser dans un projet de qualité des données pour le nettoyage des données. Pour créer un projet de qualité des données, lancez l’outil Data Quality Client et connectez-vous au serveur de services de qualité des données. Cliquez sur “Nouveau projet de qualité des données” et spécifiez le nom du projet, la description et la base de connaissances à utiliser pour le nettoyage des données.

Dans l’écran suivant de l’assistant de création de projet, spécifiez la source de données (SQL Server ou fichier Excel) et associez la colonne source au domaine de la base de connaissances. Cliquez sur Démarrer pour analyser et nettoyer les données. L’assistant affichera un résumé des résultats, montrant les valeurs correctes, les valeurs corrigées, les valeurs suggérées et les nouvelles valeurs.

Vous pouvez approuver ou rejeter les valeurs suggérées/nouvelles/corrigées et mettre à jour la base de connaissances si nécessaire. Enfin, vous pouvez exporter les données nettoyées vers une table de base de données ou un fichier CSV.

Conclusion

Dans cet article, nous avons appris comment créer une base de connaissances et effectuer un nettoyage des données dans SQL Server à l’aide du service Data Quality. En suivant ces étapes, vous pouvez garantir l’intégrité des données et améliorer la qualité de vos données. Dans le prochain article, nous explorerons comment utiliser un composant de transformation SSIS pour le nettoyage des données par lots/automatisé.

Click to rate this post!
[Total: 0 Average: 0]

Let's work together

Send us a message or book free introductory meeting with us using button below.