Panne OVH – Que s’est-il passé?

Vous l’avez certainement vu dans les médias et si vous êtes clients chez Ozérim vous l’avez vécu, OVH a rencontré une panne majeure! Que s’est il passé?

Explication

Alors déjà pour commencer, il n’y pas eu une seule panne mais deux pannes dans deux lieux différents. La première du côté de Strasbourg à 07h14 environ: problème électrique ERDF impliquant la coupure totale des 3 Datacenters sur ce lieu. Plus en détails, 2 liens ERDF 20 KV arrivent indépendamment et les deux ont coupé. Les groupes électrogènes qui doivent normalement prendre le relai n’ont malheureusement pas fonctionné… Et c’est là que tout se complique. Pas d’alimentation donc pas de serveurs, pas de réseaux… Ce qu’on appelle le noir complet. A 10h50, ERDF a rétabli un lien sur deux permettant de redémarrer une partie des Datacenters et principalement la partie Réseau. A 12h45, la partie réseau et une bonne partie des serveurs était redémarrée.  A l’heure où j’écris l’article, il reste encore des serveurs non démarrés. Tâche travaux chez OVH pour suivre le déroulement: http://travaux.ovh.net/?do=details&id=28247

La seconde panne sur le site de Roubaix (Siège d’OVH) où il y a en tout 7 Datacenters. Là ce n’est pas un problème électrique mais un problème de Fibre optique entre Roubaix du coup et:  Paris (TH2 et GSW), Francfort (FRA), Amsterdam (AMS), London (LDN), Bruxelles (BRU). A 08h01, sans explication particulière, toutes les fibres se sont « éteintes ». Pour faire simple, à ce moment précis, Roubaix est coupé du monde…. Vu la redondance prévue au niveau des fibres, cela ne pouvait pas être le célèbre « coup de pelleteuse ». De plus les techniciens d’OVH n’avaient pas la possibilité de prendre la main à distance sur les chassis gérant ces Fibres. Le constat est sans appel, ce sont les équipements qui ont « bugé ». Vous allez me dire, à l’échelle d’OVH, TOUS les équipements ont planté en même temps??? Et bien oui, bug logiciel entrainant le plantage pur et simple des chassis… Le temps de les redémarrer en restaurant la sauvegarde fonctionnelle de chaque équipement, cela a prit un peu de temps et tout a été rétablie à 10h34. Pour plus de détails: http://travaux.ovh.net/?do=details&id=28244

Donc bien deux pannes différentes et complètement indépendantes l’une de l’autre.

Quel impact pour Ozérim?

Bon effectivement, cela ne nous a pas du tout arrangé! Surtout que nous avons une partie sur le site de Roubaix et une autre sur le site de Strasbourg… Donc la double panne, on l’a vécu… « bah fois 2! » 🙂 . OVH a vraiment été transparent sur la cause et sur l’avancement de la résolution des problèmes. Ainsi cela nous a permis de répondre de façon détaillée à nos clients du pourquoi du comment du problème. A 10h30: nos clients « TPE PME » ont pu se connecter à leurs serveurs respectifs. Pour ceux rattachés à Strasbourg (nous avons fait le choix d’héberger une partie des sites Web Business sur ce lieu et une autre à Graveline) cela a prit un peu plus de temps mais dans l’après-midi cela revenait petit à petit. A l’heure où j’écris l’article, tout est rentré dans l’ordre pour 100% de nos clients.

Morale de ces incidents

Forcément quand cela ne fonctionne pas, ça énerve, on est stressé… Cela soulève des questions que nous avons pu voir sur twitter (d’ailleurs regardez les tweets avec le hashtag #OVHGate, c’est très drôle!) comme:

  • ne pas mettre les oeufs dans le même panier
  • ne pas dépendre que d’un seul lieu géographique
  • voire même « OVH c’était mieux avant… »
  • …etc …etc

Ozérim rappelle qu’OVH est le 1er hébergeur européen et ce n’est pas pour rien. Quand on voit l’ampleur des incidents et la réactivité d’intervention ET de résolution, franchement bravo et Ozérim est fier de travailler avec cet hébergeur. De plus, de notre côté, cela permet de réfléchir à des évolutions sur notre infrastructure, d’examiner les scénarios comme aujourd’hui pour améliorer et augmenter encore plus notre disponibilité. Ca cogite déjà! 🙂 🙂

Pour conclure, j’aime beaucoup la phrase d’Octave Klaba (fondateur d’OVH) d’aujourd’hui correspondant complètement à la philosophie d’Ozérim:

« Dans le métier de fournisseur des infrastructures Cloud, seul ceux qui sont paranos durent. La qualité de service est une conséquence de 2 éléments. Tous les incidents anticipés « by design ». Et les incidents où nous avons appris de nos erreurs. Cet incident là nous amène à mettre la barre encore plus haut pour s’approcher du risque zéro. »

 

****************************************************************************************************************************************************************************

Mise à jour de l’article le 15/11/2017:

OVH a réalisé un communiqué de presse le 13 Novembre 2017 apportant certaines précisions dont leur plan d’action:

  • Pour le site de Roubaix: ils ont décidé de doubler le système de multiplexage optique. Donc en d’autres termes, ce qu’ils avaient avant.. ils vont en quelque sorte le doubler pour répartir sur deux systèmes distincts et du coup limiter le domaine de panne. En parallèle de ça, ils sont en train de voir avec l’équipementier pour apporter une mise à jour du software corrigeant le « bug ».
  • Pour le site de Strasbourg: OVH l’avoue, le « design » électrique sur ce site est dépassé. C’est un site historique avec une conception de deux datacenters en conteneurs maritimes. Il y avait beaucoup d’avantages mais aussi certains inconvénients dont apparemment la partie électrique. OVH a déjà commencé la transformation de ce site car le datacenter SBG3 qui est en cours de construction est en « dur » et non en conteneur. Leur objectif est de basculer les serveurs qui sont dans SBG1 et SBG4 (en conteneur) vers SBG3 et ensuite construire des datacenters respectant les normes internes appliquées sur les autres sites.
  • Pour terminer: un audit préventif des installations électriques a été lancé sur les 12 sites

OVH s’excuse bien évidemment de la gêne occasionnée et applique les SLA sur les services éligibles.

Source: https://www.ovh.com/fr/news/cp2555.point_suite_aux_deux_incidents_du_9_novembre_2017#xtor=ES-8-[sla-rbx]-20171113-[link]

2017-11-15T10:20:02+00:00
Donec venenatis, vulputate, felis elit. dolor. dictum Aliquam consequat.