1. Qu'est-ce qu'un Data Lake ?
2. Atouts
3. Limites et risques
4. Application à la performance énergétique industrielle
1. Qu'est-ce qu'un Data Lake ?
Considéré parfois comme la version nouvelle génération du Data Warehouse, le Data Lake désigne un espace qui permet de stocker des quantités importantes de données, quelles que soient leur nature et leur origine, sans limite de durée et sans schéma strict d’organisation des flux entrants. Toutes les données brutes et toutes les données transformées d’une entreprise peuvent ainsi coexister au sein d’un même Data Lake. Les bénéfices ? Plus de fluidité, d’agilité, d’interaction et de facilité dans le traitement, l’exploitation et l’analyse des données. C’est pourquoi le Data Lake est utilisé par de plus en plus d’entreprises, notamment pour la relève de données d’énergie (consommation électrique, puissance, état…).2. Cinq atouts
1. Le Data Lake permet de collecter et stocker toutes les données brutes de l’entreprise en un lieu unique et en temps réel. Cette flexibilité constitue le premier avantage. 2. Ensuite, l’absence de structuration contrainte des données permet de conserver intact tout le potentiel des informations sources. L’utilisateur peut extraire des données natives pour les croiser entre elles afin de les exploiter et de satisfaire les besoins d’analyse présents et futurs. 3. Dans l’industrie, le Data Lake constitue une réelle avancée, car il permet de restituer en temps réel les données de tous les capteurs d’une usine dans une base unique. Les applications métier peuvent ainsi interagir rapidement avec le Data Lake. 4. La capacité de collecte massive de données du Data Lake combinée à de la puissance de calcul permettent d’associer les flux de données à leurs déclinaisons métier et aident à optimiser les process industriels. 5. On peut associer aussi les Data Lake à des démarches de machine learning qui visent à exploiter toutes les données d’entreprises pour constituer des modèles prédictifs.3. Limites et risques
Le manque d’organisation et de hiérarchisation des données risque parfois de conduire au désordre, ce qu’on appelle aussi un "marécage de données", un Data Swamp. Le Data Lake nécessite donc des outils très techniques et des compétences spécifiques, pour bien définir les besoins et mieux maîtriser les données à exploiter. Il est essentiel de fixer une stratégie, pour trier les données et ne pas collecter des grands volumes inutilement, et de sélectionner prioritairement les données à valeur ajoutée.4. Application à la performance énergétique
Le Data Lake est particulièrement adapté aux besoins des décideurs impliqués dans la performance énergétique industrielle. En effet, les données nécessaires à la constitution des tableaux de bords émanent d’équipements à la fois divers (capteurs, automates, machines, relevés manuels…) et hétérogènes (unités différentes, suites temporelles à pas différents, ou même à pas variables…). De plus, l’énergie étant un sujet transverse, les informations utiles à la création des ratios et KPIs sont issues d’outils métier (production, maintenance, énergie, qualité) et de systèmes (MES, ERP…) dont le formalisme doit être respecté. Enfin, la démarche de progrès inhérente à la performance énergétique (PDCA) considère par nature que les besoins d’informations futurs dépendent des observations actuelles : il est donc impératif de conserver au maximum les données brutes. C’est le choix fait par Vertuoz Industri.e dans ses outils.
(1) Constituant du Data Warehouse, ou Entrepôt de données.