Bigdata et “Data lake” : organiser les données différemment pour les entreprises modernes
2 min read
Avec le Big Data est apparu le concept du Data Lake, « le lac de données ».
Au-delà de la métaphore le concept du « lac de données » met en évidence le besoin de créer une architecture d’entreprise moderne pour organiser, gérer, exploiter de larges volumes de données de manière opérationnelle.
Besoin de supprimmer les silos
Le lac de données illustre de manière claire le besoin de mutualiser l’ensemble des données de l’entreprise dans un même endroit représenté par le lac. Ce lac étant lui-même alimenté par différentes sources de données.
Si on en est venu à proposer le concept de lac de données c’est que jusqu’à aujourd’hui les données d’une entreprises étaient placées dans des silos indépendants les uns des autres. Pendant plusieurs dizaines d’années des éditeurs de logiciels ont conçu des solutions spécifiques pour exploiter au mieux les différentes informations renforçant encore cette notion de silo et freinant l’interopérabilité.
Avec la croissance exponentielle des données et la prise de conscience de la valeur inexploitée des données existantes et des nouvelles sources de données, les contraintes des architectures de données actuelles ne seront plus supportables.
Le lac de données , réponse aux nouveaux enjeux.
Le lac de données est un repository qui permet de stocker tous types de fichiers, quelques soient leurs tailles et leurs complexités, et d’en extraire rapidement la valeur en la partageant avec des applications ou des utilisateurs.
Avec la valeur intrinsèque des données de ce lac et leur potentiel après exploitation, le lac de données va devenir un bien inestimable de l’entreprise.
Les carctéristiques du lac de données:
Ce lac de données devra donc disposer de certaines caractéristiques. Il faudra assurer la sécurité d’accès dans un contexte de multi-tenants, permettre la scalabilté inhérente à la croissance des données et bien sûr garantir la disponibilité d’accès aux données. A ces caractéristiques de bases on devra ajouter des fonctions de recherche et de transformation de données.
Pour réaliser tous ces objectifs un lac de données se devra de fournir contrôle d’accès, sécurité, gestion des multi-tenants, transformation de données, scalabilité et outils de recherches
Réaliser un lac de données avec Hadoop
Hadoop est une des solutions pour supprimer les silos des entreprises et mettre en commun le données provenant d’applications ou d’équipements La mobilité et l’internet de l’objet sont autant de nouvelles sources dont il faudra tenir compte à l’avenir). Les volumétries concernées nécessitent de nouvelles formes de traitements pour que les opérations puissent s’effectuer rapidement. Hadoop MapReduce permet de réduire drastiquement les temps de traitement en parallélisant les traitements sur de multiples nœuds. En combinant MapReduce au système de fichiers distribués HDFS de Hadoop on pourra ainsi réaliser une plateforme adaptée à des analyses poussées sur les données.
On veillera à ce que la distribution Hadoop choisie offre les caractéristiques citées précédemment pour bâtir une vraie solution d’entreprise une fois passée l’étape de validation des cas d’usage.
Une infrastrcuture adaptée au lac de données:
Beaucoup d’entreprise en sont encore à l’évaluation des cas d’usage et au premier test de validation. Dans ces premières étapes ou l’on s’intéresse au fonctionnel , le choix de la plateforme matériel ne revêt pas une importance capitale. Il en va différemment lorsque le “lac de données” va être en production. La plateforme matérielle devra elle aussi offrir des capacités de scalibilité ,une administration aisée et de plus en plus souvent ,avec l’usage intensive des données, des performances et de la disponibilité.