Web - High Tech

Les data lake et la gestion MDM

La gestion des données de référence (MDM) est un indispensable du monde informatique. MDM fait référence à une combinaison de processus et de technologies qui permettent de garantir que vos données sont exactes et font autorité. Bien qu’il s’agisse d’un sujet vaste et compliqué, le MDM peut être résumé par un exemple simple : Si votre base de données clients contient une entrée pour Nicolas Dupont et Nicolas Dupond, qui ont chacun l’adresse électronique Ndupont12@gmail – une solution MDM repérera la duplication et permettra à la base de données de créer un seul enregistrement (ou « entité ») faisant autorité pour M. Dupont.

Avez-vous vraiment besoin de MDM pour les data lake et le « Big Data » ?

Le MDM ne concerne que les données transactionnelles sur les systèmes d’enregistrement. Les lacs de données (ou data lake) peuvent contenir toutes sortes de données de journal et d’autres informations non structurées qui sont essentiellement en dehors du domaine de MDM. Qui se soucie de savoir si les données du journal du serveur sont dupliquées ? Cela n’affectera pas le résultat net ou les exigences de reporting.
Mais qu’en est-il des données utilisées pour soutenir la prise de décision ? Que se passe-t-il si vous voulez prendre une décision sur la sécurité informatique en vous basant sur des données de journal de pare-feu dupliquées dans votre data lake et data warehouse ? Vous baseriez votre décision sur des informations erronées.
La meilleure pratique consiste à appliquer le MDM de manière sélective dans les lacs de données. Il est fort probable que cela ne soit pas nécessaire pour chaque ensemble de données.

A lire également:  Cloud Computing - Qu'est-ce que c'est?

Les systèmes MDM peuvent-ils même fonctionner avec des data lake basés sur le cloud ?

Les systèmes MDM n’ont jamais été conçus pour fonctionner avec le type de données en libre accès que nous avons dans nos lacs de données. MDM est principalement utilisé pour les entrepôts de données. Ce sera un véritable cauchemar d’intégrer un système MDM à vos big data, si tant est que cela soit possible.
La vérité est que vous pouvez utiliser un framework Hadoop pour MDM. Cela demande une bonne dose de configuration spécialisée, mais c’est tout à fait possible. Par exemple, vous pouvez créer un « moteur de correspondance » MDM en utilisant MapReduce et établir un référentiel MDM sous forme de fichier HDFS. Certaines solutions logicielles MDM tierces commencent également à être disponibles auprès de sociétés telles que Informatica, SAP, SAS et autres.
Si cela implique des données, il y aura une solution Hadoop pour cela. Cela s’applique au MDM. Vous ne devez pas nécessairement étendre une solution MDM d’entreprise existante à un lac de données basé sur le cloud. Cependant, vous devriez examiner la possibilité d’appliquer les mêmes normes MDM aux big data dans le cloud ainsi que dans votre propre centre de données.

Comment gérez-vous les processus MdM lorsque le lac de données ne se trouve pas dans l’entreprise ?

L’endroit où vous hébergez ou la place du data lake dans l’architecture logique de l’entreprise ne devrait pas avoir d’importance. Si vous voulez adapter votre big data au MDM, vous pouvez le faire. Et, dans certains cas, le lac de données peut faire partie du flux de données de l’entreprise. Par exemple, votre lac de données peut alimenter votre entrepôt de données. Dans ce cas, vous voulez absolument le soumettre au MDM. Vous trouverez en fait plus facile de tirer parti de l’architecture en nuage pour rendre le MDM plus simple à déployer et à gérer.

A lire également:  L' électrique au service de votre pratique

Pour finir, est ce que le  MDM est nécessaire dans les lacs de données ? » C’est une question intéressante, et la réponse n’est pas toujours très claire. Vous ne pouvez pas ignorer le MDM et les exigences connexes en matière de métadonnées dans les lacs de données, mais ce n’est pas toujours obligatoire. La difficulté est que le MDM peut être lourd à mettre en œuvre et à maintenir.