Suite aux 2 derniers épisodes, nous allons procéder à une maintenance préventive d'urgence sur les autres équipements de stockage de la plateforme. Ne redemarrez pas vos serveurs pendant la maintenance, après 15/20 minutes de perte d'I/O, votre service reviendra automatiquement.

 

Veuillez, une nouvelle fois, bien vouloir accepter nos excuses pour la gêne occasionnée

 

19h30 maintenance terminée, merci de votre compréhension


Le problème survenu hier sur l'une de nos unités de stockage est en train de se reproduire sur une autre unité depuis 15h45 (heure de Paris). Nous avions planifié d'appliquer le patch de correction sur toutes nos unités mais, l'urgence fait que nous allons procéder à une maintenance immédiate sur l'unité puis sur toutes les autres le plus rapidement possible.

 

Veuillez encore une fois bien vouloir accepter nos excuses pour la gene occasionnée

 

16:30 Le patch est installé, le filer est en cours de reboot

16:38 Le filer est redemarré, nous controlons les serveurs concernés

17:17 tout semble ok. Maintenance terminée.


Nous rencontrons actuellement un incident sur une unité de stockage sur la plateforme d'hébergement qui impacte un certain nombre de serveurs.  Nos équipes travaillent pour rétablir le service aussi vite que possible.  Nous ajouterons plus d'informations dès qu'elles seront disponibles.

 

A noter que pour les clients qui ne sont pas impactés, nous avons stoppé préventivement l'ensemble des opérations sur vos serveurs (creation, arrêt...)

 

Veuillez excuser la gêne occasionnée.

 

16h20 Nous cherchons toujours la cause du problème avant de relancer vos serveurs.

17h45 Nous n'avons malheureusement pas de nouvelles informations à vous communiquer. Toute notre équipe est mobilisée afin de déterminer au plus vite la source du problème.

18h00 La tentative de passer sur la tête de secours du filer n'a pas donné de résultat satisfaisant.

19h30 Nous avons 2/3 bonnes pistes et essayons d'appliquer les patchs Kernel adequat. Le problème se situe au niveau des écritures sur les disques. Le bug semble connu chez Sun mais pas vraiment la solution.

21h30 Toujours sur la même piste. Certains disques refonctionnent mais pas tous. Nous n'avons pas d'ETA à vous donner mais ça prendra encore plusieures heures au moins :(

21h50 On a bientôt un nouveau Kernel, on va tenter le reboot juste après.

00h00 On n'est pas loin du moment de vérité. Nous testons actuellement notre nouveau Kernel et l'appliquons sur un filer ZFS de test. On le passe ensuite sur le filer qui pose problème pour vérifier que ça corrige bien le problème.

01h00 Victoire ! (enfin j'espère) Le filer semble bien se comporter pour le moment. Nous redémarrons les serveurs que nous avions préventivement eteints et surveillons tout ça pendant encore un petit moment. Merci à tous pour votre patience et vos messages d'encouragement. Nous enverrons demain un rapport complet sur l'incident.


Un incident est actuellement en cours sur l'un de nos serveurs de stockage.

Nos équipes sont actuellement en train de travailler à la résolution du problème.

Nous somme en train d'effectuer une maintenance d'urgence.

De ce fait, les disques qui sont sur ce Filer ne seront pas disponibles pendant quelques minutes.

Une explication plus détaillée de l'incident sera fournie une fois que la situation sera revenue a la normale.

Veuillez nous excuser pour la gêne occasionnée.

 

UPDATE 14:03 : Suite à la maintenance sur le Filer, les opérations (start/stop/update ressource etc... ) sur l'hébergement sont actuellement suspendues.

UPDATE 15:10 : La situation du Filer est de retour à la normale. Les accès aux disques par les serveurs virtuels sont rétablis. Les opérations hosting en attente (stop/start/conf/update/...) sont en train de passer.

UPDATE 16:05 : Les opérations en attente sont passées et toutes les serveurs virtuels devraient être maintenant joignables.


Notre système de surveillance indique un problème sur un filer d'hebergement à Baltimore.

 

Notre équipe technique est en train d'identifier et de réparer le problème.

 

Mise à jour : L'incident est maintenant terminé.


Page   1 2 36 7 8
Change the news ticker size