En matière d’archivage des données, trois approches différentes sont généralement disponibles. Le choix du bon système dépend des capacités techniques, mais aussi de facteurs externes, y compris celui des contraintes budgétaires. Les professionnels du stockage d’entreprise doivent trouver un équilibre entre les exigences de préservation des données, d'accessibilité et d'optimisation des ressources au moment où ils évaluent les différents systèmes d'archivage par lots, en temps réel et hiérarchique, disponibles sur le marché.
L’archivage traditionnel par lots
Dans un système d'archivage traditionnel par lots, les données sont utilisées pendant un certain temps avant d'être conservées en lieu sûr, dans l'attente d'une éventuelle utilité future. L'idée principale de ce type d'archivage est de conserver les données sur une longue période, tout en maintenant les coûts au minimum et en veillant à ce que la recherche reste aisée, même après plusieurs années. Dans ce type de système d'archivage, chaque collection de données sélectionnée pour l'archivage se voit attribuer une ou plusieurs identités, stockées sous forme de métadonnées avec les données archivées. Ces métadonnées jouent un rôle essentiel dans la localisation et la récupération des informations archivées. Des détails comme les noms des projets, les outils utilisés pour créer les données, le nom du créateur et le délai de création font tous partie de cette empreinte numérique. Il convient toutefois de noter que les serveurs sur lesquels les données ont été stockées ne figurent généralement pas dans les métadonnées, ce qui distingue radicalement cette méthode d’archivage de la sauvegarde.
L'archivage traditionnel par lots peut s’avérer un choix idéal dans de nombreux scénarios. C’est le cas par exemple d'une entreprise de construction qui réunit des équipes ad hoc pour répondre à des appels d'offres sur divers projets. Si l'appel d'offres est fructueux, les données du projet restent sur le stockage de production pendant toute la durée du projet. En revanche, si l'appel d'offres n'est pas retenu, les données sont transférées vers un système d'archivage qui sert de point de référence pour des projets futurs. La nécessité de maintenir les systèmes de stockage de production à un niveau raisonnable fait du système d'archivage traditionnel le choix le plus pragmatique pour héberger les données historiques de l'appel d'offres. Dans le cadre de mes anciennes fonctions dans une entreprise de satellites, celle-ci avait utilisé une approche d'archivage similaire. Elle archivait tous les modèles de satellites après leur construction. Cette pratique a porté ses fruits quand le gouvernement, qui avait commandé un satellite plusieurs années auparavant, est revenu à la charge avec une demande similaire. En quelques clics, ils ont pu accéder aux multiples conceptions conservées dans les archives, depuis les premiers designs jusqu’aux plans de production finaux.
L’archivage en temps réel
À l'autre extrémité du spectre, se trouvent les archives en temps réel. Dans ce type d'archives, les données créées ou stockées dans l'environnement de production sont instantanément dupliquées et envoyées vers un emplacement secondaire à des fins d'archivage. La conformité et l'audit sont les principaux cas d’usage de l’archivage en temps réel. C’est le cas classique des comptes de messagerie à l'époque où les systèmes de messagerie sur site régnaient en maîtres. Quand un courriel entrait dans le système de messagerie, une copie identique se retrouvait dans le journal de messagerie, tandis que l'original atterrissait dans la boîte de réception du destinataire. Cette boîte de réception servait de réservoir accessible aux auditeurs et aux gestionnaires à la recherche d'informations pour des questions juridiques ou pour répondre à des demandes relatives à la loi américaine d’accès à l'information (Freedom of Information Act, FOIA).
L'accès aux archives en temps réel se fait généralement par l'intermédiaire de portails spécialisés dotés de capacités de recherche granulaires. Il est important de noter que, contrairement aux archives traditionnelles, les archives en temps réel n'allègent pas la pression sur les systèmes de stockage de production, à moins, bien sûr, qu'ils n'intègrent à leur système des fonctionnalités de gestion hiérarchique du stockage (Hierarchical Storage Management, HSM) (voir plus loin). Aujourd'hui, avec l'essor des systèmes de messagerie électronique en mode SaaS et d'autres services basés sur le cloud, l’archivage en temps réel n’a rien d’obsolète et il est plutôt devenu majoritaire. Microsoft 365 et Google Workspace proposent tous deux des solutions d'archivage en temps réel dénommées « Retention Policies » chez Microsoft et « Google Archive » chez Google. En disposant du niveau d'accès approprié, il suffit de quelques clics pour demander à ces systèmes de conserver une copie d'archive de tous les courriels et documents générés, envoyés ou reçus via leurs plateformes. Microsoft 365 offre même une fonction empêchant tout utilisateur, y compris les administrateurs, de supprimer ces archives, ce qui les rend véritablement immuables.
L’archivage de type HSM
Parmi les différents systèmes d'archivage, l'archive de type HSM ou Hierarchical Storage Management se distingue vraiment des autres. L’archivage HSM s'appuie sur la gestion hiérarchique du stockage (HSM) pour régir le stockage des données, un terme qui a quelque peu disparu, même si le concept est toujours d'actualité. À mesure que les données vieillissent ou que leur accès est réduit, il devient financièrement judicieux de les transférer vers des options de stockage plus rentables. Quand les utilisateurs n'ont plus besoin d'accéder quotidiennement aux données, ou quand les données deviennent obsolètes, mais qu’il faut les conserver pour des raisons de conformité, les entreprises se mettent à explorer des alternatives pour le stockage de ces données, par exemple des systèmes de stockage objet évolutifs ou de stockage à froid dédié basé sur le cloud. De plus, certaines solutions permettent la migration des données d'archives vers des bandes magnétiques pour un stockage hors site et hors ligne, l'idée étant que les bandes magnétiques étant virtuellement inaccessibles à moins d'en avoir explicitement besoin, elles peuvent offrir une sécurité accrue. Par ailleurs, la bande offre souvent un coût par gigaoctet inférieur à celui de la plupart des autres systèmes de stockage. Enfin, les bandes sont également excellentes pour la conservation des données à long terme. Au début des années 2000, les entreprises ont fait un large usage de l’archivage HSM pour archiver le courrier électronique en temps réel. Avec l'augmentation du nombre de courriers électroniques au format HTML et de pièces jointes volumineuses, les entreprises ont dû faire face à des besoins de stockage croissants. Les administrateurs pouvaient même se montrer proactifs, en spécifiant que les courriels de plus de x jours, ou ayant une certaine taille, devaient être déplacés vers les archives et supprimés du système principal.
Récemment, ce sont les données non structurées stockées sur des serveurs de fichiers en réseau qui ont attiré l'attention. Alors que les analystes soulignent la baisse du coût par gigaoctet, le besoin croissant d'espace de stockage est indéniable. Si bien que toute possibilité de réduire les dépenses liées au stockage de production à haute performance devient inestimable. Les archives de type HSM relocalisent généralement les données en fonction de leur âge ou de l'horodatage du dernier accès. Quand les données migrent du système de fichiers vers le système d’archivage, elles laissent souvent des pointeurs ou des relevés dans le système source, ce qui facilite la récupération automatisée en cas de besoin. Certains systèmes optent toutefois pour un moteur de recherche robuste au lieu des relevés. Cette approche améliore la compatibilité entre les systèmes, mais laisse parfois à désirer quand les utilisateurs se souviennent de l'endroit où ils ont stocké les données, mais pas de leur contenu, ce qui rend les recherches moins efficaces.
Ainsi, au moment de choisir le système d'archivage approprié, il ne faut pas oublier que chacun d'entre eux a ses propres avantages et inconvénients. Qu'il s'agisse de l'archivage traditionnel par lots, de l'archivage en temps réel ou de l'archivage de type HSM, le choix dépend de besoins spécifiques et de la manière dont les facteurs techniques et non techniques interagissent au sein de l’entreprise. C'est un art et une science, un équilibre délicat entre préservation, accessibilité et optimisation des ressources.