Data Lake ou comment le stockage en masse booste l'analyse des données énergétiques ?

À l’ère de l’Internet des Objets, du Big Data et du Cloud, l’agrégation et le stockage en masse à moindre coût des données de l’entreprise est possible et pertinent. La création d’un espace de stockage de données brutes de type Data Lake correspond au besoin nouveau des entreprises d’organiser, centraliser, gérer, exploiter, analyser de grands volumes de données, tout en cassant les silos des systèmes d’information dans lesquels les données des entreprises sont traditionnellement rangées. Pour mieux comprendre, James Dixon, spécialiste américain en Business Intelligence, comparait en 2011 le Data Lake à une « large étendue d’eau à l’état naturel, dans lequel on peut plonger pour en prélever des échantillons », par opposition au Data Mart (1), espace de stockage de données sélectionnées et structurées, « comptoir de bouteilles d’eau nettoyées, emballées et structurées pour en faciliter la consommation. » L’image est parlante mais le concept nécessite quelques explications supplémentaires.

1. Qu'est-ce qu'un Data Lake ? 2. Atouts 3. Limites et risques 4. Application à la performance énergétique industrielle

1. Qu'est-ce qu'un Data Lake ?

Considéré parfois comme la version nouvelle génération du Data Warehouse, le Data Lake désigne un espace qui permet de stocker des quantités importantes de données, quelles que soient leur nature et leur origine, sans limite de durée et sans schéma strict d’organisation des flux entrants. Toutes les données brutes et toutes les données transformées d’une entreprise peuvent ainsi coexister au sein d’un même Data Lake. Les bénéfices ? Plus de fluidité, d’agilité, d’interaction et de facilité dans le traitement, l’exploitation et l’analyse des données. C’est pourquoi le Data Lake est utilisé par de plus en plus d’entreprises, notamment pour la relève de données d’énergie (consommation électrique, puissance, état…).

2. Cinq atouts

1. Le Data Lake permet de collecter et stocker toutes les données brutes de l’entreprise en un lieu unique et en temps réel. Cette flexibilité constitue le premier avantage. 2. Ensuite, l’absence de structuration contrainte des données permet de conserver intact tout le potentiel des informations sources. L’utilisateur peut extraire des données natives pour les croiser entre elles afin de les exploiter et de satisfaire les besoins d’analyse présents et futurs. 3. Dans l’industrie, le Data Lake constitue une réelle avancée, car il permet de restituer en temps réel les données de tous les capteurs d’une usine dans une base unique. Les applications métier peuvent ainsi interagir rapidement avec le Data Lake. 4. La capacité de collecte massive de données du Data Lake combinée à de la puissance de calcul permettent d’associer les flux de données à leurs déclinaisons métier et aident à optimiser les process industriels. 5. On peut associer aussi les Data Lake à des démarches de machine learning qui visent à exploiter toutes les données d’entreprises pour constituer des modèles prédictifs.

3. Limites et risques

Le manque d’organisation et de hiérarchisation des données risque parfois de conduire au désordre, ce qu’on appelle aussi un "marécage de données", un Data Swamp. Le Data Lake nécessite donc des outils très techniques et des compétences spécifiques, pour bien définir les besoins et mieux maîtriser les données à exploiter. Il est essentiel de fixer une stratégie, pour trier les données et ne pas collecter des grands volumes inutilement, et de sélectionner prioritairement les données à valeur ajoutée.

4. Application à la performance énergétique

Le Data Lake est particulièrement adapté aux besoins des décideurs impliqués dans la performance énergétique industrielle. En effet, les données nécessaires à la constitution des tableaux de bords émanent d’équipements à la fois divers (capteurs, automates, machines, relevés manuels…) et hétérogènes (unités différentes, suites temporelles à pas différents, ou même à pas variables…). De plus, l’énergie étant un sujet transverse, les informations utiles à la création des ratios et KPIs sont issues d’outils métier (production, maintenance, énergie, qualité) et de systèmes (MES, ERP…) dont le formalisme doit être respecté. Enfin, la démarche de progrès inhérente à la performance énergétique (PDCA) considère par nature que les besoins d’informations futurs dépendent des observations actuelles : il est donc impératif de conserver au maximum les données brutes. C’est le choix fait par Vertuoz Industri.e dans ses outils.

(1) Constituant du Data Warehouse, ou Entrepôt de données.

1. Qu'est-ce qu'un Data Lake ?

2. Cinq atouts

3. Limites et risques

4. Application à la performance énergétique

Articles similaires

Protocole IPMVP : une mesure fiable des économies d’énergie

Le Contrat de Performance Énergétique dans l’industrie

Le Machine Learning appliqué à l’énergie

Protocole IPMVP : une mesure fiable des économies d’énergie