Notre fascination pour la croissance des données est justifiée. En janvier 2019, IDC a publié un livre blanc, « Datasphère américaine : les consommateurs affluent vers le Cloud »1, affirmant que les 33 Zo (zettaoctets) créés en 2018 atteindraient la quantité incroyable de 175 Zo en 2025. Au cours de cette période, la croissance des données associées aux images et aux contenus audiovisuels ralentira nettement, mais les auteurs s'attendent à une croissance massive des données générées par l'IoT et les applications de productivité, qui exploseront de 1 % à 19 % et de 14 % à 40 %, respectivement. Il s'agit du déluge de données en augmentation constante qui se déversera dans vos applications d'analyse et d'IA, à condition que vous soyez prêt à le contenir et à le canaliser.
Davantage de données signifie davantage d'opportunités de découvrir des informations solides et exploitables sur les clients, les processus internes et le marché dans son ensemble. Malheureusement, les architectures et approches informatiques en place risquent de bloquer l'adoption progressive de l'analytique. En fait, selon McKinsey, seulement 8 % des entreprises ont à ce jour été en mesure de produire des solutions analytiques2.
Cela laisse beaucoup de place à l'amélioration. Quand vous vous lancez dans l'analytique, la courbe d'apprentissage et d'investissement peut être abrupte. Cependant, traiter trois étapes essentielles s'avérera extrêmement utile pour cette aventure :
• Établir une base organisationnelle
• Cartographier le pipeline de données
• Passer de la démonstration PoC (Proof of Concept) à la production
Base organisationnelle
L'adoption de l'analytique commence comme tout autre grand projet informatique. Les bonnes personnes doivent être impliquées de la bonne manière. Cela concerne tous les niveaux de l'entreprise et peut nécessiter des compétences externes. Des équipes inter-fonctionnelles devront collaborer et les principaux intervenants devront adhérer et donner leur approbation, en particulier pour ces premières étapes.
Figure 1 : base organisationnelle du travail d'analyse
Naturellement, rien n'encourage mieux l'approbation qu'un solide retour sur investissement (ROI) et de petits succès aisés. Lorsque vous avez hiérarchisé les projets analytiques potentiels, n'essayez pas de tout développer simultanément. Commencez avec seulement quelques projets parmi ceux présentant le meilleur potentiel de valeur, réorganisez-les en privilégiant la facilité d'exécution, puis traitez-les dans cet ordre. Passez ces premières étapes, plus faciles, commencez à créer une réelle dynamique parmi les groupes informatiques et d'intervenants, quantifiez l'impact et le retour sur investissement obtenu, puis faites évoluer progressivement vos activités analytiques.
Pipeline de données
Il est important de considérer votre stratégie analytique dans le contexte plus large de votre stratégie globale en matière de données. À moins que votre budget soit illimité, il semble prudent d'élaborer votre stratégie d'investissement en commençant par déterminer comment exploiter l'infrastructure et les outils existants pour les démarches initiales. N'essayez pas de réinventer la roue. Portez une attention particulière à la capacité et à la bande passante pour les ressources de calcul, de stockage et de réseau, car elles détermineront la vitesse de vos résultats et les goulets d'étranglement vous empêchant d'obtenir des résultats encore meilleurs.
Votre infrastructure fournit le pipeline physique des données. Le défi suivant consiste à déterminer comment intégrer les données nécessaires aux analyses dans ce pipeline et à savoir comment les utiliser lorsqu'elles s'y trouvent. La recherche, la collecte et le nettoyage/la préparation de ces données peuvent se révéler chronophages et potentiellement coûteux, surtout lorsqu'elles se trouvent dans des silos disséminés dans toute l'entreprise et/ou sont limitées par des exigences de conformité. En définitive, avant d'être archivées, les données analytiques devront franchir quatre étapes : ingestion, stockage, traitement et obtention d'informations. Ce livre blanc détaille les variables dont dépend le traitement exact à appliquer aux données à chaque étape.
Production
Le passage d'un projet analytique de la phase de démonstration PoC (Proof of Concept) à petite échelle à une utilisation généralisée à l'échelle de l'entreprise peut s'avérer semé d'embûches pour les imprudents. Même si sa rentabilité a été prouvée, un cas d'utilisation requiert deux éléments pour réussir à grande échelle : l'adhésion des utilisateurs et l'évolutivité informatique.
La distribution des informations générées par les analyses aux personnes qui en ont besoin doit être aussi simple et pratique que possible. Dans la mesure du possible, intégrez-les aux workflows existants et proposez des visualisations concises afin que les utilisateurs obtiennent rapidement ce dont ils ont besoin. Plus ils ont de mal à trouver les informations et à leur donner un sens, plus ils sont susceptibles de les ignorer. Et même les informations les plus révélatrices perdent toute valeur si personne ne les utilise.
En parallèle, gardez un œil sur la croissance de vos données et sur ce que cela implique pour votre environnement informatique. En général, plus l'ensemble de données est imposant, plus les coûts d'exécution des bases de données et des applications traitant ces données sont élevés. L'infrastructure existante grâce à laquelle vous avez facilement mené à bien ces premiers projets d'analyse peut se révéler inadéquate à mesure que les projets se développent et se multiplient.
Soyez prêt à ajouter de la capacité à votre infrastructure. Aujourd'hui, la plupart des entreprises utilisent un mélange d'environnements sur site, de Cloud public et de Cloud privé, ce qui peut accélérer et simplifier l'évolutivité. Les plateformes Cloud adaptées aux charges de travail analytiques et d'IA représentent une option, tout comme l'utilisation de la virtualisation et des conteneurs. Par exemple, le déploiement de machines virtuelles et de conteneurs peut participer à la diminution des coûts de licence des cœurs par processeur.
Vous pouvez également utiliser la cartographie et la planification organisationnelle de votre pipeline de données pour effectuer de meilleurs investissements dans de nouvelles ressources technologiques si nécessaire. En basant votre environnement analytique sur votre infrastructure actuelle basée sur la technologie Intel®, vous pouvez ajouter sans difficulté de nouvelles ressources. Par exemple, vous pouvez opter pour les nouveaux processeurs Intel® Xeon® Scalable de 2e génération et la mémoire persistante Intel® Optane™ DC, optimisés pour accélérer l'obtention d'informations destinées à vos principales applications analytiques, avec des performances jusqu'à huit fois plus élevées pour les requêtes par rapport aux systèmes uniquement équipés de mémoire DRAM3.
Ce ne sont que quelques-uns des moyens grâce auxquels de nouvelles approches d'optimisation des ressources permettront d'améliorer le ROI de l'analytique. Pour faciliter ces approches, les entreprises devront disposer d'une infrastructure adaptée aux tâches d'analyse.
Vous trouverez des exemples d'infrastructure dans ce guide.
TROIS ÉTAPES CLÉS POUR BIEN PRÉPARER VOTRE STRATÉGIE :
• Établissez une base organisationnelle composée de personnes et de processus qui soutiennent l'analytique et les décisions basées sur des informations
• Cartographiez les quatre étapes de votre pipeline de données (ingestion, stockage, traitement, extraction d'informations) adaptées aux charges de travail analytiques choisies
• Planifiez à long terme et prenez les dispositions nécessaires pour fournir une solution analytique à l'échelle de l'entreprise, au-delà de la démonstration PoC (Proof of Concept) initiale
1IDC/Seagate, “The U.S. Datasphere: Consumers Flocking to Cloud”.
2https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/breaking-away-the-secrets-to-scaling-analytics.
38x improvement in queries result based on testing by Intel on 1 November 2018. Baseline configuration: Platform: S2600WF (Wolf Pass); number of nodes: 1; number of sockets: 2; CPU: Intel® Xeon® Platinum 8280L processor @ 2.70 GHz; Cores/socket, threads/socket: 28 cores/socket, 2 threads/socket; ucode: (microcode: 0x400000a); HT: Enabled; Turbo: Off; BIOS version: SE5C620.86B.0D.01.0134.100420181737; BKC version: WW06’19; FW version: N/A; System DDR Mem Config slots/cap/run-speed: DDR Mem: 24 / 32GB / 2666 MT/s; System Intel® Optane™ DC persistent memory Config: slots / cap / run-speed: N/A; Total Memory/Node (DDR, Intel® Optane™ DC persistent memory): 768GB DDR; Storage – boot: SATA SSD 500GB; Storage - application drives: HDD (ST1000NX0313) * 8; NIC: 10-Gigabit SFI/SFP+ Network Connection; Software: Spark Hadoop; OS: Fedora release 29 (Twenty Nine); Kernel: Linux-4.18.8-100.fc27.x86_64-x86_64-with-fedora-27-Twenty_Seven BIOS: SE5C620.86B.0D.01.0299.122420180146; Mitigation log attached: 1,2,3,3a,4, L1TF; Intel® Optane™ DC persistent memory mode: N/A; Run Method: Run 9 I/O intensive queries together in a few iterations; Iterations and result choice: 3 iterations and choose the execution time for second or third iteration; Dataset size: 2TB/3TB; Workload & version: Decision Support I/O intensive queries; Compiler: gcc (GCC) 8.3.1 20190223 (Red Hat 8.3.1-2), JDK 1.8.0_201; Libraries: Memkind; Other software: Spark + Hadoop. New configuration: Platform: S2600WF (Wolf Pass); number of nodes: 1; number of sockets: 2; CPU: Intel® Xeon® Platinum 8280L processor @ 2.70 GHz; Cores/socket, threads/socket: 28 cores/socket, 2 threads/socket; ucode: (microcode: 0x400000a); HT: Enabled; Turbo: Off; BIOS version: SE5C620.86B.0D.01.0134.100420181737; BKC version: WW06’19; FW version: N/A; System DDR Mem Config slots/cap/run-speed: DDR Mem: 12 / 16GB / 2666 MT/s; System Intel® Optane™ DC persistent memory Config: slots / cap / run-speed: 8 / 128GB / 2666 MT/s; Total Memory/Node (DDR, Intel® Optane™ DC persistent memory): 192GB DDR + 1TB DCPMM; Storage – boot: SATA SSD 500GB; Storage - application drives: HDD (ST1000NX0313) * 8; NIC: 10-Gigabit SFI/SFP+ Network Connection; Software: Spark Hadoop; OS: Fedora release 29 (Twenty Nine); Kernel: Linux-4.18.8-100.fc27.x86_64-x86_64-with-fedora-27-Twenty_Seven BIOS: SE5C620.86B.0D.01.0299.122420180146; Mitigation log attached: 1,2,3,3a,4, L1TF; Intel® Optane™ DC persistent memory mode: App Direct; Run Method: Run 9 I/O intensive queries together in a few iterations; Iterations and result choice: 3 iterations and choose the execution time for second or third iteration; Dataset size: 2TB/3TB; Workload & version: Decision Support I/O intensive queries; Compiler: gcc (GCC) 8.3.1 20190223 (Red Hat 8.3.1-2), JDK 1.8.0_201; Libraries: Memkind; Other software: Spark + Hadoop.