Our new platform is already available at www.gandi.net

Go to the new Gandi

Un incident est actuellement en cours sur l'un de nos serveurs de stockage.

Nos équipes sont actuellement en train de travailler à la résolution du problème.

Nous somme en train d'effectuer une maintenance d'urgence.

De ce fait, les disques qui sont sur ce Filer ne seront pas disponibles pendant quelques minutes.

Une explication plus détaillée de l'incident sera fournie une fois que la situation sera revenue a la normale.

Veuillez nous excuser pour la gêne occasionnée.

 

UPDATE 14:03 : Suite à la maintenance sur le Filer, les opérations (start/stop/update ressource etc... ) sur l'hébergement sont actuellement suspendues.

UPDATE 15:10 : La situation du Filer est de retour à la normale. Les accès aux disques par les serveurs virtuels sont rétablis. Les opérations hosting en attente (stop/start/conf/update/...) sont en train de passer.

UPDATE 16:05 : Les opérations en attente sont passées et toutes les serveurs virtuels devraient être maintenant joignables.


 Un incident est en cours sur un noeud de stockage à Paris, et nos équipes sont sur place pour rétablir le service. Nous vous tenons informés des suites dès que possible.

EDIT @2:00 : nous sommes en ligne avec le support constructeur sur un gros problème raid60 affectant nos anciens controleurs. 

EDIT @2:50 : aucune solution pour l'instant, nous envisageons un remplacement materiel

EDIT @3:10 : une tentative de reconstruction du raid est en cours, 1h30 estimé pour plus d'informations, nous devrons redémarrer les serveurs affectés par sécurité

EDIT @5:00 : le rebuild est passé, les disques vérifiés en lecture semblent intacts, nous démarrons les serveurs impactés. Nous vous recommandons de verifier (fsck -n) l'aspect de vos disques et d'effectuer un backup frais de votre serveur si impacté. Nous suivons toujours l'incident.

EDIT @9:20 : la situation est stable, nous fermons l'incident, allons gérer les retours clients, et analyser d'éventuels problèmes associés.

Toutes nos excuses pour la durée inhabituelle de cet incident.


Une maintenance non programmée sur une de nos bases de donnée va avoir lieu le lundi 20 juin entre 23:00 CEST et 02:00 CEST.

 

Le temps d'impact durant la fenêtre de maintenance ne devrait pas excéder 20 minutes.

Pendant ce laps de temps les services gandi suivants ne seront plus accessible :

Gestion des services gandi via le site www.gandi.net (domaines,hosting,blog,mail,redir)

 

 Nous vous prions de bien vouloir nous excuser pour la gêne occasionnée.

 

[EDIT] 23:48 TERMINE


Des problèmes réseaux entrainent des perturbations dans la communication avec le registre .FR. Les modifications de DNS ou l'ajout de DNS sur les nouveaux domaines créés sont retardés.

 

L'afnic et nous, faisons le nécessaire pour remédier rapidement à la situation.

 

Maj du 20/06/2011 l'incident est résolu, nous avons relancé toutes les opérations échouées.


Nous allons planifier plusieurs maintenances pour effectuer une mise à niveau des logiciels des équipements de coeur de réseau et de distribution.

 

Avec en détail :

 

 * Lundi 16 mai 2011 de 07:00 à 08:00 CEST. Opération de maintenance à Baltimore. L'impact sur le réseau sera minimal (pas de coupure) sauf dans le cas d'un retour en arrière de cette opération. Dans ce cas, une dizaine de minute d'instabilité seront probable.

 

 * Jeudi 26 mai 2011 de 02:00 à 04:00 CEST. Opération de mise à jour logicielle des équipements du réseau de distribution à Paris. Comme à Baltimore, l'opération aura normalement un impact minimum sur le réseau mais une instabilité d'une dizaine de minute est à prévoir en cas de retour en arrière.

 

 * Vendredi 27 mai 2011 de 05:30 à  07:30 CEST. Opération de mise à jour logicielle sur les équipements de coeur de réseau. L'impact sur la connectivité sera centralisé sur les liens vers nos transits et/ou nos peerings de chaque équipement mis à jour. Le traffic réseau sera réacheminé vers des routes alternatives mais malgré cela, de courtes instabilités sont à prévoir le temps du recalcul du routage. Il y aura - au pire - 6 courtes perturbations de ce type pendant le temps de la maintenance lorsque chaque routeur sera redémarré après la mise à jour logiciel.

 

En nous excusant pour la gène occasionée.


Nos connections transatlantiques sont actuellement perturbées par de multiple
coupures de fibre chez chacun de nos fournisseurs.

 

Une connection (Paris Equinix vers Baltimore par Yellow) est hors service dû à
une coupure sur le système de cable sous-marin Yellow. Le temps de résolution
par notre fournisseur est estimé à 14 jours.

 

Une seconde connection (Paris Telehouse2 vers Baltimore par AC2 et TAT14) est
actuellement hors service dû à une coupure de fibre le long du couloir I-295
entre Washington et Baltimore. Le sous-traitant de ce circuit a des ingénieurs
actuellement sur le terrain occupé à resouder les cassures de fibres optiques.
Nous n'avons pas pour le moment de temps de résolution. Cette coupure de fibre
impacte aussi un de nos connections de transit IP sur Baltimore.

 

Une troisième connection (Paris Equinix vers Baltimore par Apollo South)
fonctionne avec des perturbations BER (Bir-Error-Rate) sur le diagnostique de
la ligne. Nous avons reporté ce problème à notre fournisseur qui a déclenché une
enquête.

 

Pendant ce temps, la connection entre Baltimore et Paris est dégradé et peux
avoir des signes de pertes de paquet et de retransmission. Nous vous tiendrons
informé dès que nous recevrons de nouveau status sur la situation par nos
fournisseurs.

 

Veuillez nous excusez de la gène occasionnée.

 

Mise à jour 07:54 CEST (05:54 GMT) : Le fournisseur de la connection Paris
Telehouse2 vers Baltimore via AC2/TAT14 nous a remonté l'information que les
ingénieurs ont accès à la fibre et commencent la préparation de l'opération de
soudage. Elle devrait commencer d'ici une heure.

 

Mise à jour 08:10 CEST (06:10 GMT) : Notre fournisseur de la connection Paris
Equinix vers Baltimore par Apollo South a indiqué que la coupure de fibre à
Washington touche tous les services (protégés ou non) ce qui explique la
dégradation de performance sur ce circuit. Il ne nous a pas fournit de date de
rétablissement.

 

Mise à jour 08:55 CEST (06:55 GMT) : Le fournisseur du circuit par Apollo South nous a informé que le travail de soudure a commencé et nous indique un temps de rétablissement d'environ six heures.

 

Mise à jour 09:36 CEST (07:35 GMT) : Le fournisseur du circuit basé sur
AC2/TAT14 a indiqué que la soudure avait commencé. Ils ne nous ont pas indiqué
de temps de résolution.

 

Mise à jour 10:34 CEST (08:34 GMT) : Notre connectivité entre Paris Telehouse2 et Baltimore par AC2/TAT14 et la connection de transit IP impactée à Baltimore ont été rétablit. Notre fournisseur indique que la soudure est encore en cours ; nous allons surveiller la situation avec attention. La connectivité entre Paris Equinix vers Baltimore par Apollo South passe maintenant sur le système de fibre de backup entre Washington et Baltimore ; la réparation par soudure de la coupure à  Washington est en cours.

 

Mise à jour 17:13 CEST (03:13 PM GMT) : Le circuit passant par Apollo South est maintenant réparé, fin de l'incident a 11:21 AM CEST.


Nous travaillons actuellement à la résolution d'un incident sur un équipement réseau. Quelques services sont touchés, dont les blogs et les services IPv6.

Nous nous efforçons de rétablir la situation au plus vite et vous présentons nos excuses pour la gêne occasionnée.

 

Update: 13:08 CET (12:08 GMT):  L'incident est maintenant résolu.




Aujourd'hui (04 janvier 2011), nous avons eu un problème réseau. Ceci a entrainé une perte partielle et provisoire de notre réseau, impactant certains de nos services, tels que notre site web, SiteMaker, les blogs, certaines boites emails et toutes les opérations vers les serveurs. Les noms de domaine n'ont pas souffert d'indisponibilité alors qu'il apparait que les routes réseau pour certains serveurs aient été injoignables.

L'incident est en cours de résolution et les services refonctionnent progressivement. Je vous prie au nom de toute l'équipe de bien vouloir accepter nos excuses.

 

EDIT : Voici l'explication technique de l'incident d'hier:

Une partie du réseau Gandi à Paris est basé sur des topologies de réseau
héritées, sur lesquelles on a ajouté des services depuis les dix dernières années
, tels que la portée multi-site pour divers VLANs, et dans
certains cas nous avons gardé une architecture relativement plate.

Cette partie de l'architecture s'appuie (peut-être imprudemment), sur Spanning Tree Protocol* (STP) pour s'assurer une topologie de niveau 2 sans boucle parmi les bridges
ou switchs. Bien que nous ayons effectué divers travaux de maintenance pendant les 18 derniers mois afin de simplifier l'architecture, cela prend énormément de temps de "dé-construire" ce qui a été bati morceau par morceau sur une période de dix ans sans engendrer des coupures significatives de services Gandi.

L'incident d'hier a trouvé son origine dans les éléments hérités de l'infrastructure réseaux Gandi France ainsi qu'un défaut dans un cluster de switch d'accès qui a créé une boucle dans le réseau de niveau 2.

Ceci a créé une situation regretable où la topologie de niveau 2 du réseau hérité a été constamment recalculé, ce qui a causé un échec de convergence du Spanning Tree Protocol (STP), en consommant 100% des ressources sur les équipements réseaux concernés, et donc, a empêché la bonne circulation des flux réseaux.

Le cluster de switch d'accès a été isolé du réseau, mais nous avons été également obligé de redémarrer un autre switch, dans une autre salle-machine, afin d'arrêter l'effet "boule de neige" créé par le problème initial.

Nous avons déjà planifié des maintenances réseau significatives pour ce semestre afin de refaire ce qui reste de cette architecture héritée et de migrer vers un modèle totalement hiérarchique qui limite le réseau niveau 2 au sous-réseau local et donc de minimiser les dépendances de protocoles tel que spanning-tree, ce qui n'a pas été conçu pour être utilisé dans des architectures importantes de toute façon.


Nous vous présentons de nouveau nos excuses pour les désagréments qu'a pu vous causer le problème technique d'hier concernant notre architecture réseau.


Page   1 2 315 16 17
Change the news ticker size