Our new platform is already available at www.gandi.net

Go to the new Gandi

Un équipement de stockage présente un défaut probablement matériel. Nos équipes font le nécessaire actuellement pour rétablir la situation au plus vite. Nous vous recommandons de ne pas redémarrer votre serveur si vous êtes impactés. Nous vous tiendrons informés des suites de cet incident dans cet article.

Edit: L'unité de stockage est de nouveau en service.

Veuillez nous excuser pour la gêne occasionnée.


Suite au déclenchement involontaire d'une maintenance sur nos équipements de stockage, l'ensemble de la production est actuellement indisponible pour une durée de 30 minutes.

Nous vous recommandons de ne pas redémarrer votre serveur et d'attendre le retour à la normale des opérations.

Les serveurs impactés (hosting, simple hosting) seront de retour d'ici quelques minutes. Nous vous tiendrons informés des suites de cette opération dès que possible.

 

[edit 00:00] Les services sont rétablis totalement depuis 21h20 -- la majorité des utilisateurs a retrouvé une situation normale avant 19h30, mais un filer a été plus long à démarrer. Les blocages identifiables ont été gérés manuellement. Nous vous invitons a redémarrer vos services si ceux-ci sont toujours indisponibles suite à cet incident, et à vous rapprocher du support si votre serveur n'est pas disponible.


Un équipement de stockage subit actuellement un ralentissement. Nos équipes travaillent actuellement à résoudre le problème.

 

Edit (10h45): la situation s'est rétablie progressivement à partir de 8h jusqu'à environ 9h. De très importants ralentissements ont été constatés de 6h30 à ~7h50.

 

Edit (25 janvier 10h00): un équipement de stockage subit des ralentissements. La situation est similaire à l'incident du 24 janvier. Notre équipe technique travaille à sa résolution

 

Edit (25 janvier 11h00): les ralentissements se sont resorbés. L'accès aux disques virtuels est revenu à la normal. Notre équipe technique travaille toujours sur une résolution pérenne pour le problème.

 

Edit (25 janvier 23h22): un équipement de stockage subit des ralentissements. La situation est similaire à l'incident de ce matin. Notre équipe technique travaille à sa résolution

 

Edit (26 janvier 00h26): les ralentissements se sont resorbés. L'accès aux disques virtuels est revenu à la normale. Notre équipe technique travaille toujours sur une résolution pérenne pour le problème.

 

Edit (27 janvier 20h11): un equipement de stockage subit des ralentissements. La situation est similaire aux incidents de la semaine. Notre équipe technique travaill à sa résolution.

 

Edit (27 janvier 23h00): les ralentissements sur les I/Os se sont stabilisés. Notre équipe technique travaille toujours sur une résolution pérenne pour le problème.

 

Edit (2 février 04h30): Un nouvel équipement présente actuellement un problème simliaire. Nous redémarrons le filer concerné. Nos équipes ont bien avancé sur la question et nous saurons bientôt corriger une partie de ces problèmes définitivement.

 

Edit (2 février 21h14): Nouvel incident sur un de nos équipements, des ralentissement on pu être noté, la situation revient progressivement à la normal.

Edit (6 février 03:06): Ralentissement actuellement en cours sur un de nos équipements.

 

 

Voici un peu plus d'informations sur la situation, pendant que nos spécialistes analysent le problème. Deux équipements de stockage sont concernés par ces incidents, qui sont des ralentissements ponctuels dans les lectures et écritures. Nous suspectons un problème logiciel d'une part (contention d'opérations) et un problème matériel décorélé pour le deuxième équipement (certains modèles de disques sont anormalement lents). 

 

Lorsque ces ralentissements surviennent, l'implémentation de iSCSI qui nous permet de connecter vos serveurs à leurs disques peut dysfonctionner. Il en résulte un "I/O wait" artificiellement haut (100%) même lorsque le stockage est de nouveau rapide. 

 

Nous travaillons à corriger ces trois problèmes en mettant la priorité sur la capacité de notre système à rétablir le service après un ralentissement.



Un équipement de stockage est actuellement ralenti.

Nos équipes techniques analysent le problème qui réside dans la partie logicielle du filer. Les écritures sont très ralenties sur cet équipement, nous vous tiendrons informés de la suite de cet évènement dès que possible. Nous vous présentons nos excuses pour la gêne occasionnée.

Edit 11h13: Le problème est localisé et nous avons une solution pour le résoudre si il se reproduisait. Les performances sont à nouveau normales sur cet équipement. Nous n'avons toujours pas une analyse précise de ce qui déclenche ces ralentissements, et allons travailler à reproduire cet incident en "lab" dans le but de corriger le problème définitivement.


Un de nos équipements de stockage connait un ralentissement au niveau entrée / sortie (I/O).

Cela impacte les serveurs virtuels ayant  un disque sur ce filer. Notre équipe technique est en cours d'identification du problème et va le corriger dans les plus brefs délais.

Comme pour tout ralentissement sur un filer, il est inutile de redémarrer votre serveur virtuel.

 

12h30 CET : début de l'incident

14h10 CET : fin de l'incident

 

Nous nous excusons pour la gêne occasionnée.


Un élément de l'ancienne génération de notre infra stockage ne répond plus, nos équipes sont sur place pour investiguer. Nous vous recommandons de ne pas redémarrer/arrêter votre serveur si il ne répond plus: il retrouvera ses accès disques après résolution de cet incident.

 

Edit 15:14 L'incident est terminé: le firmware de la carte RAID a crashé suite à une perte de disque, nous avons redémarré l'ensemble.


Un de nos équipements stockage ne répond plus. Il s'agit probablement d'une panne matérielle. Nous vous conseillons de ne pas redémarrer votre serveur si il ne répond plus et d'attendre la résolution de l'incident. Nos équipes sont sur place, nous vous tiendrons informés des suites de cet incident.

Update 11h38: il s'agit d'une tete de notre ancienne architecture de stockage. Un défaut de controleur disque a provoqué l'interruption du service. Nous procédons à la récupération du volume.

Update 12:12: Nous avons corrigé un bug kernel qui, en cas de défaut hard du controleur, nous permettra de débloquer plus rapidement la situation. Nous allons relancer le service dans quelques minutes.

Update 12h50: Nous avons relancé le service. Nous surveillons le controleur et nous procéderons à une coupure de moins d'une minute dans l'après midi pour une mise à jour.


Suite aux 2 derniers épisodes, nous allons procéder à une maintenance préventive d'urgence sur les autres équipements de stockage de la plateforme. Ne redemarrez pas vos serveurs pendant la maintenance, après 15/20 minutes de perte d'I/O, votre service reviendra automatiquement.

 

Veuillez, une nouvelle fois, bien vouloir accepter nos excuses pour la gêne occasionnée

 

19h30 maintenance terminée, merci de votre compréhension


Le problème survenu hier sur l'une de nos unités de stockage est en train de se reproduire sur une autre unité depuis 15h45 (heure de Paris). Nous avions planifié d'appliquer le patch de correction sur toutes nos unités mais, l'urgence fait que nous allons procéder à une maintenance immédiate sur l'unité puis sur toutes les autres le plus rapidement possible.

 

Veuillez encore une fois bien vouloir accepter nos excuses pour la gene occasionnée

 

16:30 Le patch est installé, le filer est en cours de reboot

16:38 Le filer est redemarré, nous controlons les serveurs concernés

17:17 tout semble ok. Maintenance terminée.


Page   1 2 38 9 10
Change the news ticker size