BillFR nous parle de la coupure du 2 juillet

BillFR, développeur serveur DOFUS, nous apporte quelques précisions sur la coupure des serveurs Ankama de jeudi dernier (dont on parle ici). Des nouvelles rassurantes, malgré la perte de données qu'a malheureusement entraîné la coupure.

Mais pour l'instant, il nous propose de revivre cette journée, du côté Ankama cette fois.

11h16 : Coupure généralisée chez l'hébergeur, Télia/Equinix. Les rumeurs parlent d'une erreur de nature humaine, mais aucune communication n'est faite à ce sujet. Nous citions Dailymotion dans l'actualité qu'a rédigé Etheon, mais d'autre sites ont aussi connu des problèmes, comme ceux de Blizzard et d'EVE. Ces coupures n'ont eu, par chance, aucun impact sur les serveurs de jeu de WoW ou d'EVE.
L'équipe technique récupère une partie des accès aux serveurs dans la demie heure qui suit la coupure, cependant certains serveurs nécessitent une intervention console (donc une intervention humaine) pour redémarrer. Le prestataire s'y attelle.

12h environ : Ankama commence à déployer les sauvegardes pour les rollbacks des serveurs (certains serveurs ne sont pas encore prêts, mais la base de données l'est : l'équipe ne perd pas de temps). La sauvegarde de 11 heures était en cours au moment de la coupure, elle a donc été stoppée de façon inopinée et est donc inexploitable. Il faut donc utiliser la sauvegarde de 6 heures. Sur le serveur héroïque, les sauvegardes sont plus fréquentes, et celle de 9h est exploitable.

13h : L'ensemble des bases de données sont remises à niveau, les serveurs de jeu tous opérationnels et prêts à reprendre du service. Cependant, des désynchronisations entre les bases d'identification (accès jeu, sites, forums, ...) empèchent Ankama de relancer dans l'immédiat.

L'équipe technique commence également à préparer les distributions de cadeaux de compensation (Pousse de Tanfouguite) : séléctionner les comptes ayant droit à la compensation (abonnés ayant joué entre 6h et 11h). Elle prépare aussi la redistribution des cadeaux d'abonnement/loterie consommés dans l'intervale.

14h30 : L'intégrité des données des bases des comptes (identifications, abonnements, ...) est restaurée. Ankama relance les serveurs mais laisse bloqué les accès.

14h40 : Tous les serveurs sont relancés, l'accès via le serveur d'identification est ouvert. Les joueurs se ruent sur les serveurs : 20 600 joueurs en jeu après la seconde minute, 36 700 après la quatrième minute, et 77 000 après la douzième minute. La charge "normale" revient après 1 heure 30 environ.

Dans l'après midi, Ankama affecte les compensations et les recrédits des cadeaux consommés. Il a été décidé de faire cette opération après le lancement des serveurs, pour que les joueurs puissent se connecter le plus rapidement au jeu.

BillFR :

C'est le premier "gros" pépin depuis notre arrivée chez Télia fin aout 2008. Nous avons pu relancer l'ensemble de l'architecture en moins de 4h. Nous avons pu éprouver les points encore sensibles de notre architecture et de nos procédures, nous pourrons donc si un problème de ce genre se reproduisait, intervenir plus rapidement et diminuer le downtime.

Concernant la panne elle même, nous ne serons jamais à l'abri complet de problèmes électriques, ou réseau. Nous améliorons simplement nos procédures pour limiter l'impact sur les joueurs, que ce soit temps de relance de l'architecture, ou portée des rollbacks.

Soyez donc rassurés, Bill et le reste de l'équipe veillent au grain ! Profitons-en d'ailleurs pour les remercier, et spécialement BillFR parce qu'il devait être en congés ce jour là, que les ouvriers qui faisaient des travaux pas loin de chez lui avaient pété les conduites d'eau de son antre quand il a pu rentrer chez lui, et surtout parce que cette actualité est à son initiative. Merci Bill !

Réactions (28)

Afficher sur le forum

  • En chargement...