<aside> <img src="notion://custom_emoji/13a98d0b-7a5b-4ace-9420-537987e40d6e/14c094de-7da7-8095-8e94-007a0773ad96" alt="notion://custom_emoji/13a98d0b-7a5b-4ace-9420-537987e40d6e/14c094de-7da7-8095-8e94-007a0773ad96" width="40px" />

Quelques informations

Les ressources brutes, rédigées par nos consultants et pour nos consultants, ne sont pas initialement conçues pour être partagées. Elles peuvent parfois manquer de contexte pour un lecteur non expert. N'hésitez pas à nous contacter sur LinkedIn ou par e-mail si vous avez la moindre question.

Ces ressources sont uniques et contiennent très souvent des informations exclusives que vous ne trouverez pas sur Internet 🤓

</aside>

Cette documentation fait office de checklist rapide à utiliser pour détecter les erreurs structurelles et relationnelles dans un dataset BigQuery. Le travail effectué ici consiste à vérifier des fondamentaux de haut niveau propres à la qualité de la donnée, à savoir notamment :

Dans notre exemple, les données à vérifier sont stockées dans des tables brutes <your_table> d’un dataset <your_dataset>, et sont sujettes à transformation. Les différentes vérifications sont des requêtes SQL à exécuter telles quelles, en modifiant bien entendu les noms des datasets, des tables et des colonnes concernés.

Vérification du schéma des tables

Vérification de l’unicité d’une clé primaire

Vérification des relations entre les tables

Vérification des valeurs manquantes et anormales

Vérification des duplications et incohérences

Vérification de la fraîcheur des données

Pour aller plus loin