Un élément de l'ancienne génération de notre infra stockage ne répond plus, nos équipes sont sur place pour investiguer. Nous vous recommandons de ne pas redémarrer/arrêter votre serveur si il ne répond plus: il retrouvera ses accès disques après résolution de cet incident.
Edit 15:14 L'incident est terminé: le firmware de la carte RAID a crashé suite à une perte de disque, nous avons redémarré l'ensemble.
Un de nos fournisseurs de transit va effectuer une maintenance d'urgence vendredi 25 novembre entre 00:00 AM et 03:00 AM CET, de ce fait une instabilité pourra être constaté durant une heure pendant ce laps de temps.
Lundi 7 novembre, 11h00 : Nous sommes actuellement obligé d'effectuer une maintenance exceptionnelle sur le webmail RoundCube, laissant celui-ci indisponible pour une durée estimée à moins d'une heure. Si vous utilisez votre webmail personnel ou si vous récupérez vos emails via POP, vous n'êtes pas impactés.
Suite à un large DDoS, puis à des pertes de routes chez nos transitaires, notre réseau a été très instable (plusieurs coupures de quelques minutes) à 17h30 puis entre 18h et 19h. La situation est désormais stable, nous analysons les causes précises de cet incident.
Un de nos équipements stockage ne répond plus. Il s'agit probablement d'une panne matérielle. Nous vous conseillons de ne pas redémarrer votre serveur si il ne répond plus et d'attendre la résolution de l'incident. Nos équipes sont sur place, nous vous tiendrons informés des suites de cet incident.
Update 11h38: il s'agit d'une tete de notre ancienne architecture de stockage. Un défaut de controleur disque a provoqué l'interruption du service. Nous procédons à la récupération du volume.
Update 12:12: Nous avons corrigé un bug kernel qui, en cas de défaut hard du controleur, nous permettra de débloquer plus rapidement la situation. Nous allons relancer le service dans quelques minutes.
Update 12h50: Nous avons relancé le service. Nous surveillons le controleur et nous procéderons à une coupure de moins d'une minute dans l'après midi pour une mise à jour.
Du fait d'attaques DDoS contre des services hébergés sur notre réseau, sa qualité n'est pas stable. Nous observons des pics de plus de 30Gb/s liés à cette attaque. Nous tentons actuellement d'améliorer la situation mais la connectivité vers certains réseaux restera moins bonne pendant cette incident.
Nous vous remercions de votre compréhension et vous présentons nos excuses pour les problèmes induits par cet incident.
Le problème survenu hier sur l'une de nos unités de stockage est en train de se reproduire sur une autre unité depuis 15h45 (heure de Paris). Nous avions planifié d'appliquer le patch de correction sur toutes nos unités mais, l'urgence fait que nous allons procéder à une maintenance immédiate sur l'unité puis sur toutes les autres le plus rapidement possible.
Veuillez encore une fois bien vouloir accepter nos excuses pour la gene occasionnée
16:30 Le patch est installé, le filer est en cours de reboot
16:38 Le filer est redemarré, nous controlons les serveurs concernés
Nous rencontrons actuellement un incident sur une unité de stockage sur la plateforme d'hébergement qui impacte un certain nombre de serveurs. Nos équipes travaillent pour rétablir le service aussi vite que possible. Nous ajouterons plus d'informations dès qu'elles seront disponibles.
A noter que pour les clients qui ne sont pas impactés, nous avons stoppé préventivement l'ensemble des opérations sur vos serveurs (creation, arrêt...)
Veuillez excuser la gêne occasionnée.
16h20 Nous cherchons toujours la cause du problème avant de relancer vos serveurs.
17h45 Nous n'avons malheureusement pas de nouvelles informations à vous communiquer. Toute notre équipe est mobilisée afin de déterminer au plus vite la source du problème.
18h00 La tentative de passer sur la tête de secours du filer n'a pas donné de résultat satisfaisant.
19h30 Nous avons 2/3 bonnes pistes et essayons d'appliquer les patchs Kernel adequat. Le problème se situe au niveau des écritures sur les disques. Le bug semble connu chez Sun mais pas vraiment la solution.
21h30 Toujours sur la même piste. Certains disques refonctionnent mais pas tous. Nous n'avons pas d'ETA à vous donner mais ça prendra encore plusieures heures au moins :(
21h50 On a bientôt un nouveau Kernel, on va tenter le reboot juste après.
00h00 On n'est pas loin du moment de vérité. Nous testons actuellement notre nouveau Kernel et l'appliquons sur un filer ZFS de test. On le passe ensuite sur le filer qui pose problème pour vérifier que ça corrige bien le problème.
01h00 Victoire ! (enfin j'espère) Le filer semble bien se comporter pour le moment. Nous redémarrons les serveurs que nous avions préventivement eteints et surveillons tout ça pendant encore un petit moment. Merci à tous pour votre patience et vos messages d'encouragement. Nous enverrons demain un rapport complet sur l'incident.
Les serveurs mails de gandi subissent actuellement une forte charge dû a plusieurs botnets en provenance d'Asie (principalement Inde et Vietnam) et d'Europe de l'Est.
De ce fait le nombre de connections est actuellement multiplié par 10. Le trafic est donc perturbé, nous n'avons pour le moment pas les moyens de faire face à ce type de trafic. Nos équipes travaillent actuellement à résoudre le problème.
Veuillez nous excuser pour la gêne occasionnée.
Mise à jour du 3 octobre 2011 à 16:30 CEST : Meme si la forte charge sur le service a beaucoup diminué à l'heure actuelle, nous laissons l'indicateur du service gandimail en orange pour le moment pendant que nous continuons de surveiller la plate-forme et que nous préparons une solution pereine et fiable dans les prochains jours.