Sur le site de Google Apps Status, plusieurs incidents sont survenus sur Drive la semaine dernière. La première panne s'est déroulée lundi dernier et a duré environ 3 heures. Elle a touché 33% des demandes des utilisateurs de Drive, qui recevaient des messages d'erreur ou avaient des latences fortes et des chargements longs. La firme de Mountain View a expliqué que cet incident provenait d'un bug dans le logiciel de contrôle du réseau Google. Il a transféré du trafic vers des connexions réseaux et des serveurs non affectés. Ce trafic d'équilibrage de charge a provoqué une augmentation de la latence des serveurs et un problème d'accès. Selon Google, cette erreur du logiciel de contrôle a été corrigée et la société va changer sa politique de load balancing pour fournir une meilleure isolation des services réseaux. Par ailleurs, la firme va renforcer Drive pour être « beaucoup plus résilient » face aux pannes et à la latence. Elle va améliorer aussi son système de surveillance et d'alerte.
Drive a subi une autre panne mardi qui a duré deux heures et qui a touché un nombre indéterminé d'utilisateurs. Jeudi, le même service a été bloqué pendant 12 heures avant d'être rétabli. Google n'a pas donné le nombre de personne touchées par ce dernier incident, mais il a commencé à 9h30 pour se terminer à 20h40. Sur cette dernière panne, Google n'a pas fait de commentaires.
Pas plus de pannes sur le cloud que sur site
Face à cette succession de problèmes, les utilisateurs ont exprimé leur colère et leur frustration sur les médias sociaux (Twitter, Facebook, etc.). La semaine d'avant, les services Hotmail et Outlook.com, ainsi que SkyDrive avaient été hors service pendant quelques heures. Michael Oesterman, analyste chez Oesterman Research a déclaré, « même les pannes brèves de 10 minutes peuvent avoir des conséquences graves pour les utilisateurs qui essayent d'accéder à des contenus critiques. Les entreprises qui utilisent des services cloud comme le stockage, la messagerie et les solutions de collaboration ont besoin d'évaluer la confiance dans les fournisseurs de service ».
Par contre, il réfute l'idée que les services clouds sont plus sujets aux pannes que les systèmes gérés en propre par les entreprises. « Il est important de noter que sur site, les systèmes d'information peuvent être soumis aux mêmes types de problème. La différence est que ces pannes sont rarement signalées en dehors de l'entreprise et donc les services clouds plus médiatisés semblent moins fiables, ce qui n'est pas le cas », conclut l'analyste.
Succession de pannes pour Google Drive
4
Réactions
Drive, la suite d'applications et de stockage cloud, a subi trois pannes la semaine dernière. Plusieurs personnes n'ont pas pu accéder à leurs fichiers et aux applications.
Newsletter LMI
Recevez notre newsletter comme plus de 50000 abonnés
Comme le dit si bien l'adage: "Ne pas mettre tous ses oeufs dans le même panier !", cet incident montre les dangers de la centralisation des données, du cloud, de l'openID...
Signaler un abusLes outils de Google sont puissants et pratiques. Mais, il est intéressant d'utiliser des produits similaires non-google, tout aussi performants.
Bonjour,
Signaler un abusGoogle a refusé d'installer le logiciel APSI (Anti Piratage de Sites Internet), j'ai proposé cette solution à Google le jour où une bonne partie de leurs fichiers utilisateurs fût endommagée. Les responsables de Google ont pensé que APSI sert seulement à bloquer les tentatives de piratage mais ils ont tord car ce logiciel protège l'ensemble du système installé d'ailleurs il a réussi à neutralisé le plus dangereux des programmes criminels comme FLAME par exemple.
APSI est un produit algérien, c'est pour cette raison peut être que Google refuse d'admettre cette possibilité..
Les études de robustesse sont sans appel : chaque fois que l'architecture se complexifie, (plus d'éléments faillibles intégrés dans la chaine de service) le risque de défaillance augmente. On ne peut le contenir qu'en la sophistiquant encore plus (redondance, vote majoritaire ...) ce qui réduit généralement les "petites" pannes mais peut conduire à des configurations inattendues, incompréhensibles et beaucoup plus graves. La résilience est un combat, la simplicité souvent la solution.
Signaler un abusL'autre difficulté soulevée par ce type de défaillance est la difficulté d'ordre psychologique qui résulte de la situation d'incertitude dans laquelle on est plongé sans pouvoir se renseigner sur l'ampleur de la panne. Il suffit d'observer l'état dans lequel se mettent les personnes bloquées dans les transports en commun ou sur les routes en cas d'intempéries pour avoir une idée des dégâts qui résultent d'un manque d'information.
Je me trompe peut-être, mais de nos jours ou les "5 nines" sont communs en uptime, je trouve qu'annoncer que les clouds ne sont pas plus sujet à problème que les centres en "local" est un peu hardi.
Signaler un abus12 heures d'indisponibilité en 99.999% ultime représentent quand même quelques 136 ans...