Indiquer à son produit de sauvegarde quels fichiers et bases de données sauvegarder peut sembler banal, mais cette opération peut avoir un impact massif sur la capacité de récupération de ses données. Bien choisir ses modalités de sauvegarde revient à s'assurer que tout ce qui doit être sauvegardé l'est effectivement, tout en essayant de ne pas sauvegarder des données sans valeur.
Inclure un serveur physique
Pratiquement tous les produits de sauvegarde nécessitent une installation et une configuration initiales au niveau d'un serveur physique. Cela signifie que pour que l'une des procédures mentionnées dans cet article fonctionne, il faut d'abord installer le logiciel et l'autorisation appropriés sur chaque serveur physique du datacenter. Cela signifie aussi que chaque serveur VMware ou Hyper-V (à ne pas confondre avec chaque VM sur ces serveurs), chaque serveur physique UNIX ou Windows, et tous les services cloud sont sauvegardés. Il est indispensable d’effectuer cette connexion initiale et cette authentification avant que le système de sauvegarde ne puisse faire ce qu’on attend de lui.
Inclusion sélective
La méthode la plus courante pour inclure des fichiers, des objets ou des bases de données dans un système de sauvegarde consiste à les sélectionner manuellement au moment de la configuration des sauvegardes du système en question. Voici trois exemples d’incorporation sélective :
- Cliquer sur le panneau de contrôle vCenter ou Hyper-V et sélectionner manuellement les VM à sauvegarder ;
- Sélectionner manuellement une ou plusieurs bases de données à partir d'une liste de toutes les bases ;
- Sélectionner manuellement un ou plusieurs systèmes de fichiers ou sous-répertoires.
Cette méthode est la plus couramment utilisée parce qu’elle colle à la manière de penser de la plupart des gens : faire une sauvegarde de ses données revient à sélectionner ce que l’on veut sauvegarder. Elle permet également de minimiser la quantité de données sauvegardées sans valeur, car très peu de gens choisiraient une VM de test ou une base de données, ou un système de fichiers du genre /tmp sous UNIX. Mais l'inclusion sélective ne prend pas en compte ce qui se passe au fil du temps. Si l’on ne sauvegarde que les systèmes que l’on sélectionne manuellement, que se passe-t-il quand la configuration change ? Par exemple, que se passe-t-il si l’on ajoute de nouvelles VM à un serveur VMware donné ? Que se passe-t-il si l’on déplace une VM donnée de VMware vers Hyper-V ou vers le cloud ? Si la VM a été sélectionnée manuellement dans VMware, elle ne sera pas automatiquement sauvegardée lorsque sa configuration changera. Généralement, les experts en matière de sauvegarde mettent en garde contre cette méthode de sélection inclusive, car le risque de perte de données est tout simplement trop élevé.
Inclusion automatique
Si une VM ou un serveur de base de données spécifique sont ajoutés à la configuration de sauvegarde, une autre méthode très courante consiste à demander simplement la sauvegarde de toutes les VM, bases de données ou systèmes de fichiers qui s'y trouvent. C'est la méthode d'inclusion la plus sûre, car elle garantit que chaque nouvelle source de données sera sauvegardée. Elle répond au problème de l'inclusion sélective, car les machines virtuelles - ou une machine virtuelle qui a été déplacée d'un type de configuration à un autre - seront automatiquement sauvegardées sans avoir à demander l’intervention d’une personne. Certains disent que cette méthode garantit virtuellement la sauvegarde de données sans valeur. Si dans un sens, c'est vrai, cette méthode garantit également la sauvegarde automatique des données importantes. La pire chose qui puisse arriver avec l'inclusion sélective, c’est qu'un système de fichiers, une base de données ou une VM vraiment importante ne soient pas sauvegardés. Avec l'inclusion automatique, la pire chose qui puisse arriver, c’est de sauvegarder aussi les données sans valeur.
Exclusion sélective
Cette technique est généralement utilisée en conjonction avec un système d'inclusion automatique. Un client configure ses systèmes de sauvegarde pour sauvegarder chaque VM, base de données ou système de fichiers, sauf ceux qui sont spécifiquement signalés sur une liste d'exclusions. L'exclusion sélective revient un peu à profiter du beurre et de l'argent du beurre, car elle permet d'utiliser l'inclusion automatique pour garantir que toutes les données importantes sont sauvegardées, tout en excluant automatiquement les données sans valeur connues. La procédure peut se faire dans une interface utilisateur, où un client clique et sélectionne manuellement des lecteurs ou des bases de données dont il sait qu'ils n'ont aucune valeur. Un administrateur qui essaye d'économiser de l'espace peut ajouter des bases de données ou des disques durs de test, ou des systèmes de fichiers comme /tmp à la liste d'exclusion pour s'assurer que l'espace n'est pas gaspillé.
Une autre façon de mettre en place l'exclusion sélective consiste à utiliser des jokers ou des expressions régulières pour identifier ce qui ne doit pas être sauvegardé. Par exemple, il est possible de spécifier *.tmp, *.bak, *.cache comme modèles d'exclusion par joker : tous les fichiers avec ces extensions ne seraient pas sauvegardés. Ceux qui ont l’habitude des expressions régulières peuvent faire preuve d'une grande créativité pour exclure certains types de fichiers, quel que soit l'endroit où ils se trouvent.
L'inclusion basée sur des balises
Une solution très moderne d'inclure des données dans une sauvegarde consiste à utiliser des balises, assez répandues dans le monde des VM. Cela permet non seulement de ne sauvegarder que les VM avec une certaine balise, mais aussi de spécifier la manière dont elles doivent être sauvegardées. On peut par exemple décider que les machines virtuelles avec une balise #database doivent être sauvegardées avec la politique de sauvegarde de base de données qui traitera ces machines virtuelles d'une manière particulière. Il en va de même pour les VM avec des hashtags comme #fileserver, #test, etc. Il est possible de créer plusieurs types de politiques de sauvegarde et de les associer à des comportements particuliers, et ensuite d’appliquer ces politiques à différentes VM via des hashtags. C’est une variante d'inclusion automatique, car toute nouvelle VM sera automatiquement ajoutée à la politique de sauvegarde appropriée basée sur le hashtag. On peut également continuer à utiliser le système d'exclusion automatique pour s’assurer que les données sans valeur ne sont pas sauvegardées.
Inclusion par défaut
Chaque fois que l’on utilise l'inclusion automatique ou l'inclusion par balise, on a aussi besoin d'une sorte de mécanisme « fourre-tout ». Par exemple, si une VM ou une base de données n'est pas automatiquement sélectionnée par un type de hashtag ou par un autre mécanisme, on voudra s’assurer qu'elle est toujours sauvegardée. Plus on a recours à des systèmes intelligents comme l'inclusion basée sur des balises, plus un système d'inclusion par défaut devient important. Si votre système de sauvegarde le prend en charge, il fonctionne de la manière suivante : toute VM ou base de données qui n'est pas déjà sélectionnée par une politique automatique ou une politique basée sur des balises sera sauvegardée par cette politique. De toute évidence, la politique ne sera pas adaptée aux besoins de ce système particulier, mais au moins certaines sauvegardes sont effectuées. Cela permet de surveiller cette politique particulière pour voir si certains systèmes sont sauvegardés en utilisant un système d'inclusion par défaut. Si c'est le cas, il faudra peut-être en chercher les raisons et résoudre ce problème en les plaçant dans le mode de configuration de sauvegarde approprié.
Il faut toujours garder à l’esprit cette règle fondamentale propre au design des systèmes de sauvegarde : on ne pourra pas restaurer ce qui n'a pas été sauvegardé. Personne n'a jamais été licencié parce qu'il avait sauvegardé trop de données, mais de nombreuses personnes ont été licenciées parce qu'elles n'avaient pas sauvegardé suffisamment de données. Il faut faire de son mieux pour éviter les sauvegardes inutiles, mais il vaut mieux pécher par excès de prudence que l’inverse. Mieux vaut se préoccuper des données qui ne seraient pas sauvegardées que des données sans valeur que l’on aurait sauvegardées. Cela permettra d’éviter ce que beaucoup de gens appellent un « événement générateur de CV ».