En direct de Prague - Un évènement comme Teradata Universe à Prague est généralement l'occasion d'assister à la présentation de projets réalisés chez les clients de l'éditeur. Marie-Luce Picard, chef de projet chez EDF R&D, a ainsi expliqué comment son équipe avait évalué les bénéfices de la plate-forme Unified Data Architecture de Teratada (Database, Hadoop et Aster Data) pour son projet big data Sigma. Ce dernier étudie les possibilités d'exploration et d'analyse des données issues des compteurs smartgrid Linky qui commencent à être déployés en France. Si en France, EDF compte 35 millions de clients, 300 000 compteurs Linky ont déjà été installés pour répondre à de nouveaux enjeux, à savoir récupération de données de consommation détaillées, agrégation de mailles fines, gestion de la demande, amélioration des simulations...
EDF R&D, qui travaille déjà avec Teradata, désire exploiter les données collectées chez ses clients pour affiner sa production et mieux répondre aux attentes citoyennes concernant la transparence et les services. Le volume de données annuel est évalué à 1800 milliards de lignes soit 120 To de données brutes par an (1 mesure toutes les 10 mn pour 35 millions de clients). Ce n'est pas énorme en soit. Il est toutefois nécessaire d'utiliser une plate-forme data warehouse capable de supporter un gros volume de donnée, d'intégrer de nouvelles données, d'autoriser des requêtes simultanées, et enfin de fournir des traitements analytiques.
Remonter les alertes à partir des tweets
Après avoir envisagé une solution purement Hadoop, EDF R&D a étudié la combinaison UDA : Teradata Database, Hadoop et Aster Data pour traiter les données issues des compteurs Linky (courbes de charge individuelles, données météo, informations contractuelles, données topologie réseau) afin d'optimiser et réduire le coût global du TCO data. Les données récoltés sont traitées par la plate-forme Hadoop - celle de Hortonworks - qui fait office de data factory avant d'alimenter Teradata EDW et Aster Data. Tableau software a enfin été retenu pour la présentation des résultats. Parmi les usages envisagés, EDF R&D a retenu plusieurs scénarios : la comparaison des données sur différentes périodes afin d'évaluer très précisément l'impact de l'évolution des températures sur la consommation d'énergie et même déceler des comportements anormaux chez les clients.
L'exploitation des réseaux sociaux n'a pas été oubliée avec la récupération des tweets et d'autres commentaires pour analyser les sentiments des clients et améliorer les services. Le comptage de certains tweets permet par exemple de regarder s'ils correspondent à des évènements particuliers. Le suivi en temps réel des réseaux sociaux permet également de détecter les coupures de courant. En conclusion, l'équipe d'EDF R&D souligne que beaucoup d'usages peuvent être envisagés avec la solution UDA et les premiers feedbacks remontent que l'usage d'algorithmes standards réduit certes la souplesse mais facilite l'implémentation des outils d'analyse.