La communauté Gandi

(résolu) Problème réseau

Aujourd’hui (04 janvier 2011), nous avons eu un problème réseau. Ceci a entrainé une perte partielle et provisoire de notre réseau, impactant certains de nos services, tels que notre site web, SiteMaker, les blogs, certaines boites emails et toutes les opérations vers les serveurs. Les noms de domaine n’ont pas souffert d’indisponibilité alors qu’il apparait que les routes réseau pour certains serveurs aient été injoignables.

L’incident est en cours de résolution et les services refonctionnent progressivement. Je vous prie au nom de toute l’équipe de bien vouloir accepter nos excuses.

 

EDIT : Voici l’explication technique de l’incident d’hier:

Une partie du réseau Gandi à Paris est basé sur des topologies de réseau
héritées, sur lesquelles on a ajouté des services depuis les dix dernières années
, tels que la portée multi-site pour divers VLANs, et dans
certains cas nous avons gardé une architecture relativement plate.

Cette partie de l’architecture s’appuie (peut-être imprudemment), sur Spanning Tree Protocol* (STP) pour s’assurer une topologie de niveau 2 sans boucle parmi les bridges
ou switchs. Bien que nous ayons effectué divers travaux de maintenance pendant les 18 derniers mois afin de simplifier l’architecture, cela prend énormément de temps de « dé-construire » ce qui a été bati morceau par morceau sur une période de dix ans sans engendrer des coupures significatives de services Gandi.

L’incident d’hier a trouvé son origine dans les éléments hérités de l’infrastructure réseaux Gandi France ainsi qu’un défaut dans un cluster de switch d’accès qui a créé une boucle dans le réseau de niveau 2.

Ceci a créé une situation regretable où la topologie de niveau 2 du réseau hérité a été constamment recalculé, ce qui a causé un échec de convergence du Spanning Tree Protocol (STP), en consommant 100% des ressources sur les équipements réseaux concernés, et donc, a empêché la bonne circulation des flux réseaux.

Le cluster de switch d’accès a été isolé du réseau, mais nous avons été également obligé de redémarrer un autre switch, dans une autre salle-machine, afin d’arrêter l’effet « boule de neige » créé par le problème initial.

Nous avons déjà planifié des maintenances réseau significatives pour ce semestre afin de refaire ce qui reste de cette architecture héritée et de migrer vers un modèle totalement hiérarchique qui limite le réseau niveau 2 au sous-réseau local et donc de minimiser les dépendances de protocoles tel que spanning-tree, ce qui n’a pas été conçu pour être utilisé dans des architectures importantes de toute façon.

Nous vous présentons de nouveau nos excuses pour les désagréments qu’a pu vous causer le problème technique d’hier concernant notre architecture réseau.