La conférence plénière de clôture des tech-days a vu comme à son habitude Bernard Ourghanlian, directeur technique et sécurité chez Microsoft, intervenir sur un thème au coeur de l'actualité et du très prometteur dans le futur : le big data. Cet « océan numérique de données », ce « 6èmecontinent » est devenu le sujet tendance. Et les chiffres parlent d'eux-mêmes. Pour faire une analogie, le responsable indique qu' « il y a deux fois plus de données dans le monde que de litres dans les océans. En 2020, il y aura 50 milliards de terminaux connectés ». Les sources du big data ont aussi évolué, « réseaux sociaux, RFID, télémétrie, les GPS et les accéléromètres, etc. ». Derrière cette qualification, Microsoft doit résoudre l'équation des 3 V, volume, vitesse et variété.
Des exemples ont été fournis au cours de la conférence avec des acteurs en pleine croissance et surfant sur la vague du big data. Ainsi Capitain Dash agrège des informations pour proposer des tableaux de bord aux divisions marketing. De son côté, Criteo adapte les techniques des moteurs de recherche à la publicité en ligne. L'outil suit votre parcours sur les sites de e-commerce pour lors d'un surf sur d'autres sites, vous proposer une publicité plus ciblée. Pour réaliser cet objectif, il brasse par jour un volume de données équivalent à 15 fois celui d'Ebay.
Habitué à la volumétrie des informations, la science se penche sur le machine learning, c'est-à -dire selon Bernard Ourghanlian, « une méthode automatisable pour qu'une machine puisse apprendre à partir des données ». Un projet nommé A-Brain en coopération avec l'INRIA travaille sur l'imagerie du comportement du cerveau. L'objectif est de connaître par exemple l'impact des traitements sur certaines maladies et ainsi d'aboutir à une médecine plus personnalisée. Pour autant, l'apprentissage de la machine passe d'abord par des itérations obligatoires avant qu'elle trouve la bonne méthode ou connaissance, souligne un responsable de la société Lokad, qui s'occupe du big data pour la grande distribution.
L'éditeur consolide son offre big data
Face à ce déferlement de données, Microsoft entend bien prendre une place importante. Cela commence par répondre à l'équation des 3 V. Pour Damien Cudel, chef de marché plateforme applicative chez Microsoft, la réponse pour les données structurées se nomme toujours SQL Server et plus précisément l'offre lancée en version bêta de Parallel Datawarehouse. Le responsable précise que cette solution sera disponible officiellement au mois de mars prochain. « L'objectif est d'apporter le travail de plusieurs machines sur un environnement massivement parallèle pouvant aller jusqu'à 40 noeuds », précise le responsable. La version bêta est limitée à 600 To de données, elle sera étendue à 5 Po pour le lancement. « Avec cette offre, une requête sur 1 Po de données, soit 293 milliards de lignes, prend 2 secondes », affiche Damien Caduel.
Pour la partie des données non structurées, l'éditeur a fait le choix de Hadoop en signant un partenariat avec Hortonworks. « Nous avons essayé de rendre accessible Hadoop en l'intégrant à System Center et à Active Directory. Les personnes peuvent travailler sur du code MapReduce en JavaScript ou .net. Ce code est ensuite reversé à la communauté Hadoop », souligne le responsable. Il ajoute « nous avons placé un connecteur dans Excel dans une couche Hive (pour le datawarehouse) ».
Sur la partie vitesse, Microsoft attaque ce problème autour de 4 axes : le cache à travers Windows Azure cache, la corrélation d'analyse de flux ou CEP (Complex Event Process), l'analytique et le transactionnel. Sur ces deux derniers points, Damien Cudel loue les mérites de la technologie in memory et surtout de l'offre xVelocity In Memory qui est intégrée à SQL Server 2012. « Pas besoin d'appliance particulière et d'effort d'intégration », ironise le responsable en pointant du doigt SAP HANA. Sur l'activité transactionnelle, Microsoft se repose sur le projet Hekaton, dévoilé en fin d'année dernière et qui va donner la possibilité d'intégrer les données en mémoire dans les bases de données, compilées en C. La firme prévoit des performances améliorées par 50. Pour anticiper les prochaines évolutions, Microsoft réfléchit à un enrichissement des données par des métadonnées à travers des technologies de search issues de Bing ou des couches linguistiques.
Tech-days 2013 : le big data, prochain Eldorado pour Microsoft
En conclusion de son évènement annuel en France, Microsoft a focalisé son attention sur le big data. Ce « 6ème continent » est promis à un grand avenir et la firme de Redmond entend bien y prendre une part importante avec ses solutions.