Définition courte
Les datasets contiennent généralement de grandes quantités de données qui peuvent être stockées dans des formats qui ne sont pas faciles à utiliser. Les data engineers doivent donc vérifier au préalable que les données soient correctement formatées et conformes à l’ensemble des règles préétablies.
En data engineering, le data cleaning (nettoyage des données) est le processus de préparation des données en vue de leur analyse en supprimant ou en modifiant les données qui sont incorrectes, incomplètes, non pertinentes, dupliquées ou mal formatées.
Le nettoyage des données n’est pas seulement fait pour rendre l’ensemble des données beau et attrayant pour les analystes, mais pour corriger et éviter les problèmes qui peuvent survenir à partir de données non fiables.
Les data engineer passent 60 % de leur temps à organiser et à nettoyer les données !
Définitions similaires
OLTP, OLAP, Données non structurées, Données structurées, Docker, Google Big Query, Gouvernance des données, DFS, MySQL, PostgreSQL, Data cleaning, Analyse ad hoc, Data lake, Power BI, Analyse descriptive, Analyse multidimensionnelle, SIAD, ARR, Taux de rétention, Taux d’attrition, Data mining, Pie chart, Histogramme, Dashboard, Graphique, Tableau software, Google Data Studio, Box plot, Bar chart, Area chart, Data visualisation, KPI, Analyse de cohorte, MRR, API, Data warehouse, Data engineering, CLV, ETL, Data marketing