La plateforme de discussion Discord est devenue « un outil quotidien de communication » d’après son dirigeant et fondateur Jason Citron. Initialement utilisée par les gamers, cette dernière est devenue très populaire ces dernières années, notamment avec la crise Covid-19. Enseignants, élèves, start-ups, collègues, associations sont nombreux à s’être tournés vers Discord pour communiquer quand il était impossible de se voir au quotidien. Hier dans la journée, une panne généralisée a mis en suspens toutes les activités sur la plateforme. Discord a subi ce qu'ils ont appelé une « panne massive » qui a empêché les utilisateurs de se connecter au service ou d'utiliser les chats vocaux. Celle-ci a débuté à 20h45 (heure de Paris) ce mercredi 26 janvier et a duré deux heures environ.

Discord propose un historique détaillé des incidents et du temps de disponibilité sur discordstatus.com. (Crédit : Discord)

D’après Discord, la panne a été causée par un problème d'interface de programmation d'applications (API), empêchant différents services de communiquer entre eux. Cependant, après avoir résolu le problème d'API, Discord a découvert un problème secondaire avec un cluster de base de données, causant d'autres perturbations. « Nous avons identifié le bug sous-jacent à la panne de l'API, mais nous sommes confrontés à un problème secondaire sur l'un de nos clusters de base de données. Toute notre équipe d'intervention d'urgence est en ligne et répond au problème », explique Discord sur sa page d'état. Le nombre de connexions a par la suite été limité pour éviter de surcharger ses serveurs opérationnels.

Un retour à la normale après minuit

Discord, soucieux de tenir ses utilisateurs au courant, a tenu à les informer en temps réel de l’état d’avancement dans la résolution de la panne :

Enquête 26 janvier, 20h49 - Nous enquêtons actuellement sur une panne généralisée de l'API.

Identifié 21h03 - Nous avons identifié le problème sous-jacent à la panne de l'API mais nous sommes confrontés à un problème secondaire sur l'un de nos clusters de base de données. Toute notre équipe d'intervention d'urgence est en ligne et répond au problème.

Mise à jour 21h07 - Nous avons instauré une limite de débit sur les connexions pour gérer la charge de trafic. Les utilisateurs qui sont connectés utilisent Discord avec succès pour le moment, et nous allons augmenter lentement les limites pour permettre à plus d'utilisateurs d'entrer. Nous espérons que ce problème sera résolu dans les 15 prochaines minutes.

Mise à jour 21h21 - Nous continuons à travailler sur certains problèmes avec l'un de nos clusters de base de données. Nous limitons toujours le trafic de connexion. Prochaine mise à jour dans 15 minutes.

Mise à jour 21h29 - La base de données est à nouveau saine et notre taux d'erreur interne est tombé à des niveaux nominaux. Nous commençons à relever la limite du taux de connexion pour permettre aux utilisateurs de se reconnecter.

Mise à jour 22h06 - Nous continuons à travailler sur une solution à ce problème.

Mise à jour 22h07 - Plus de la moitié des utilisateurs de Discord sont de nouveau en ligne et travaillent normalement. Nous continuons à travailler pour remettre le reste des utilisateurs en ligne.

Mise à jour 22h50 - Il ne reste plus que le dernier groupe d'utilisateurs hors ligne et nous prévoyons que tout le monde sera entièrement en ligne dans les 10 prochaines minutes.

Surveillance 23h12 - Nous avons entièrement supprimé toutes les limites de débit et Discord est presque revenu à la normale. Au cours de la prochaine heure, certains serveurs Discord pourraient continuer à rencontrer des problèmes d'interaction avec les bots utilisant des commandes slash. Dans le cadre de la résolution de l'incident, nous avons dû réduire la charge sur nos bases de données et nous avons désactivé certaines parties de notre système de commandes slash. Nous allons terminer notre processus interne de post-mortem pour vraiment creuser et comprendre exactement ce qui s'est passé ici, mais nous nous excusons vraiment pour la gêne occasionnée si vous n'avez pas pu vous connecter aujourd'hui ou si vous avez eu d'autres problèmes.

A 23h20, Discord a précisé sur Twitter que les choses étaient revenues à la normale. « Hey @ tout le monde la connexion devrait être complètement rétablie maintenant ! J'espère que vous avez touché un peu de bois pendant que nous étions dehors. Merci pour votre patience ».

A 00h37, la plateforme annonçait également sur son site que la panne est résolue. « Les choses sont revenues à la normale - les guildes devraient re-synchroniser leurs commandes slash progressivement au cours de la prochaine heure. Nous nous excusons pour les inconvénients que cette panne a pu causer. Notre équipe s'efforcera de trouver les causes profondes des pannes que nous avons observées aujourd'hui et de les corriger en priorité ».