Data Lake

Nicolas Belhamri

17/12/2020

5 min

Définition courte

Qu’est-ce qu’un Data Lake ?

En business intelligence, un Data Lake est un espace de stockage qui conserve une grande quantité de données brutes dans leur format d’origine jusqu’à ce qu’on en ait besoin.

Les Data Lake peuvent contenir des centaines de téraoctets ou même de pétaoctets, et stocker des données répliquées provenant de sources multiples.

Les Data Lakes sont souvent utilisés pour rassembler toutes les données d’une organisation en un seul endroit central, où elles peuvent être sauvegardées « telles quelles », sans qu’il soit nécessaire de leur imposer un schéma ou une structure au préalable.

Le terme décrit une stratégie de stockage de données, et non une technologie spécifique, bien qu’il soit fréquemment utilisé en conjonction avec une technologie spécifique (Hadoop). On peut en dire autant du terme « Data Warehouse » qui décrit en fait une stratégie générale de gestion et stockage des données.

Si vous voulez aller plus loin sur le sujet, c’est un peu plus bas que ça se passe 👇 🤓

10 ressources data marketing à forte valeur ajoutée

1. Formation sur Google Analytics 4

2. Formation sur Google Tag Manager

3. Formation sur les paramètres UTM

4. Formation sur le plan de taggage

5. Formation sur Looker Studio

6. Formation sur Matomo

7. Formation sur Google Tag Manager Server-Side

8. Formation sur l’attribution marketing

9. Formation sur l’API de conversion Facebook

10. Formation sur Google BigQuery

Pour aller plus loin

Quelles sont les données qui composent un Data Lake ?

Un Data Lake peut contenir toutes sortes de données. Contrairement au Data Warehouse, qui est une base de donnée relationnelle structurée, un data lake peut contenir tout ce qu’un ordinateur peut accueillir. Il peut comporter à la fois des données structurées, comme des tables de données ou des fichiers CSV, mais aussi des données non structurées, comme des emails, des PDFs, voire même des fichiers audios et vidéos. Toutes les données sont stockées de façon massive, au format le plus brut possible. Le but final d’un Data Lake étant le stockage du plus grand nombre de données possibles, qu’elles soient pertinentes ou non. Ce sont les requêtes ultérieures qui montreront l’intérêt ou non de tel ou tel fichier. En utilisant un Data Lake, vous rentrez dans le cœur de la Big Data.

Dans un Data Lake, il n’y a pas de notion de hiérarchie. Une autre différence avec un Data Warehouse, qui est segmenté par métier, est que tout est mis à plat sans notion de dossiers pour trier ses données. A la place, pour reconnaître qu’un fichier est plutôt orienté sur un sujet ou un autre, on utilise des tags stockés sous forme de métadonnées.

Que devrais-je utiliser entre un Data Lake et un Data Warehouse ?

Dans un monde idéal, une société aimerait pouvoir récupérer toutes ses données brutes sans aucune perte, les stocker, et les retraiter selon son propre besoin. C’est le principe du Data Lake. La différence principale avec un Data Warehouse, c’est que le Data Warehouse a une structure pré-existante. Il peut être agrandi, mais la structure de base est créée pour être la plus stable et la plus statique possible. Faire une migration d’une structure à une autre est un projet long et donc coûteux, c’est pour cela qu’il est nécessaire de penser l’architecture pour n’oublier aucun détail, comme pour un entrepôt logistique ! La charpente, les rayonnages, les emplacements alloués… Rien ne doit être laissé au hasard, et tout doit être bien organisé.

Un data lake, comme un lac, est une architecture bien plus fluide et plus agile qu’un data warehouse, de part sa structure horizontale.

Attention cependant ! Ce n’est pas parce qu’il n’y a pas de structure relationnelle qu’un lac doit être chaotique pour autant ! Un lac chaotique, où les objets ne sont pas tagués correctement, peut se retrouver complètement inutilisable. Ce genre de lac chaotique a même un nom : on les appelle les Data Swamp, ou marécages de données. Un Data Swamp est bien la dernière chose que vous aimeriez que votre compagnie ait à utiliser.

De plus, un Data Lake peut disposer de données externes à l’entreprise, comme par exemple des données d’API. Si ces données entrent dans un Data Warehouse et qu’il y a un problème, comme un champ ajouté inopinément par l’API, il y a de fortes chances pour que la table censée le recevoir vous donne un message d’erreur, ce qui permettra d’identifier plus facilement le problème. Pour un Data Lake, il ne faut pas supposer que la donnée arrive forcément dans le bon format, ou soit pertinente pour l’usage qu’on fait des données. Un Data Lake contient bien souvent beaucoup de données inutiles voire erronées et peu de données utiles, ce qui peut rendre le traitement des données plus difficile. De plus, les requêtes n’étant pas organisées, la création et le traitement de celles-ci peuvent être un véritable calvaire, contrairement à un Data Warehouse où il suffit de requêter les bons champs pour avoir les bons résultats.

C’est pour toutes ces raisons qu’en général, une société commerciale préfèrera utiliser un Data Warehouse plutôt qu’un Data Lake. Les données sont pertinentes et prêtes à l’emploi, elles sont bien structurées et les relations sont claires. Un Data Lake sera en revanche bien plus utilisé pour des besoins de recherche et développement, si on a des données mais qu’on ne sait pas a priori quelles informations pertinentes tirer de ces données. Un Data Scientist dans une société industrielle sera bien plus à même de tirer profit d’un Data Lake que d’un Data Warehouse.

Quelles sont les technologies à ma disposition pour la création d’un Data Lake ?

Tout comme un Data Warehouse n’a besoin que d’une base de données SQL pour fonctionner avec des serveurs propriétaires, vous n’aurez généralement besoin que de serveurs bien configurés pour commencer à créer votre propre Data Lake. Si vous souhaitez n’utiliser que des serveurs propriétaires, il suffit d’installer et de configurer Hadoop sur vos serveurs pour commencer à créer un Data Lake.

Évidemment, si vous ne souhaitez pas utiliser des serveurs propriétaires, que ce soient pour des questions de budget ou de sécurité (moins de risque de pertes de données), de nombreux outils sont à votre disposition dans le cloud. Les Data Lakes décentralisés peuvent de plus permettre une puissance de calcul beaucoup plus élevée que les Data Lakes sur des emplacements propriétaires.

La plupart des grandes entreprises du numérique ont un segment qui leur permet de proposer des services de stockage et de requêtage des Data Lakes, comme Amazon avec son AWS Lake Formation, ou encore Microsoft avec Azure Data Lake Storage. Si vous êtes plus Google que Microsoft pour vos solutions bureautiques voire votre Data Warehouse existant, vous serez peut-être moins dépaysés en utilisant Google Cloud Storage, qui peut également être utilisé comme Data Lake. C’est d’ailleurs ce dernier outil que l’agence data Boryl a choisi d’utiliser pour ses clients.