Synthèse PM — Mai 2026

Mai 2026Synthèse Post Mortem validés

Sévérité	SEV-1 · 2h20
Date	11/05/2026
Infra impactée	Oracle
Fonctionnalité	—
Thème	—
Détection	—
Clients / CML	OMSAAS2
Nb sites impactés	58

📎 Post Mortem

Résumé

Le 11 mai 2026, la base de données Oracle P05OM s'est arrêtée suite à la corruption d'un bloc d'entête de fichier, elle-même conséquence d'un incident électrique survenu le 4 mai ayant affecté le stockage SAN. Une bascule sur l'infrastructure de secours a été réalisée mais la machine de secours, mal paramétrée, n'était pas en mesure d'absorber la charge de production, provoquant un second arrêt de service et allongeant significativement la durée d'interruption.

Impact

Interruption totale de l'accès à l'application sur une période de 2h19, avec 1h58 d'interruption effective répartie en trois plages : 12h12-12h52 (40 min), 13h05-13h35 (30 min) et 13h43-14h31 (48 min). Les utilisateurs n'ont pas pu accéder à l'application durant ces fenêtres.

Chronologie

04/05 12h15

Incident électrique sur une partie du stockage STDN (switch FC)

04/05 23h15

Détection de blocs corrompus empêchant le backup de la base P05OM

05/05 09h30

Analyse des blocs concernés : 3 blocs d'index détectés. Ouverture d'un ticket au support Oracle

05/05 09h30

Échanges avec le support Oracle et lancement de scripts de diagnostic (jusqu'à 15h30)

05/05 11h00

Vérification des autres bases STDN : seule P05OM semble concernée

05/05 17h30

Correction des blocs corrompus à partir des backups, plus de corruption détectée

08/05 00h14

Détection de nouveaux blocs corrompus, le backup échoue à nouveau

09/05 —

Même type d'alerte sur les backups (9 et 10 mai)

10/05 —

Même type d'alerte sur les backups (9 et 10 mai)

11/05 09h30

Connexion à la base pour analyse : 2 blocs d'index non corrigés automatiquement

11/05 09h30

Tentative de correction via backups sans succès (archive logs limités à 3 jours de rétention)

11/05 12h12

Arrêt de la base P05OM : bloc corrompu sur entête de fichier (ORA-63999), instance terminée par CKPT

11/05 12h35

Décision de basculer sur la base de secours après vérification du statut de mise à jour

11/05 12h40

Lancement de la commande de failover

11/05 12h41

Communication client

11/05 12h43

Bascule terminée, base ouverte

11/05 12h50

Reparamétrage de la SGA (40 Go → 160 Go), application opérationnelle

11/05 13h05

Saturation mémoire du serveur de secours, instance KO

11/05 13h12

Communication client

11/05 13h25

Analyse : la base s'est arrêtée puis redémarrée mais les services de connexion ne se sont pas relancés automatiquement — application indisponible

11/05 13h35

Détection d'une mauvaise configuration HugePages sur le serveur de secours (non conforme à la prod)

11/05 13h39

Communication client : estimation de 20 minutes supplémentaires

11/05 13h45

Le serveur ne redémarre pas correctement pour appliquer la configuration HugePages

11/05 13h57

Communication client : estimation repoussée à 14h30

11/05 14h09

Fin du reboot du serveur

11/05 14h09

Communication client : disponibilité annoncée à 14h30

11/05 14h15

Correction de la configuration Puppet

11/05 14h26

Redémarrage manuel des services de connexion

11/05 14h31

Application et SCLites opérationnels

Récurrence

Aucun antécédent connu de corruption de bloc en production.

Détection

Alerte de supervision de type "Impossible de se connecter à l'application".

Root Cause Analysis

Causes immédiates : Arrêt non planifié de l'instance Oracle P05OM suite à la détection d'un bloc corrompu sur une entête de fichier (datafile omsaas2_datlob1.910), rendant tout redémarrage impossible sans intervention manuelle (ORA-63999 : media failure).

Causes racines : La corruption de blocs trouve son origine dans la combinaison de deux facteurs : l'incident électrique du 4 mai ayant provoqué l'arrêt brutal d'un switch FC du SAN STDN, et un problème de configuration de zoning au niveau du SAN pour certains serveurs dont P05OM. Les corruptions initiales (blocs d'index) ont été partiellement traitées mais la corruption s'est propagée jusqu'à un bloc d'entête de fichier, provoquant l'arrêt définitif de l'instance. La fonctionnalité de réparation automatique Oracle EE (via la standby) n'a pas fonctionné, et la limite de rétention des archive logs à 3 jours a em

Faits aggravants : 1. La fonctionnalité de réparation automatique Oracle Enterprise Edition à partir de la base standby n'a pas fonctionné, empêchant une auto-correction transparente. 2. La configuration du serveur de secours n'était pas conforme à celle de la production : SGA configurée à 40 Go au lieu de 160 Go, et HugePages non activées ou mal configurées. Ces écarts ont provoqué un second arrêt de service après

Résolution

Bascule en failover sur la base Oracle de secours. Reparamétrage de la SGA (40 Go → 160 Go). Identification et correction de la configuration HugePages non conforme (correction via Puppet + redémarrage serveur). Redémarrage manuel des services de connexion applicatifs. Vérification de la disponibilité de l'application et des SCLites.

Apprentissage

Ce qui s'est bien passé : La décision de basculer sur l'infrastructure de secours a été prise rapidement et efficacement. La procédure de failover elle-même s'est déroulée correctement (bascule terminée en moins de 3 minutes). Les communications vers le client ont été régulières tout au long de l'incident.

Ce qui s'est mal passé : Le serveur secondaire n'était pas prêt à accueillir une charge de production : SGA insuffisante (40 Go au lieu de 160 Go) et HugePages non configurées conformément à la production. Ces écarts de configuration, qui auraient dû être détectés et corrigés en amont, ont provoqué un second arrêt de service et considérablement allongé la durée d'interruption. Par ailleurs, la limite de rétention des arch

Chanceux : La corruption n'a affecté qu'une seule base (P05OM) parmi l'ensemble des bases hébergées sur STDN, malgré l'ampleur de l'incident électrique. La base de secours (standby) était à jour et disponible, ce qui a permis un failover possible. Si la corruption avait également touché la standby, aucun bascu

Communication interne
**[INTERNE SWM — Incident P05OM du 11/05/2026]** Suite à l'incident électrique du 4 mai (arrêt d'un switch FC sur le SAN STDN), des blocs corrompus sont apparus sur la base Oracle P05OM. Une première vague de corruptions (3 blocs d'index) a été identifiée le 5 mai et partiellement corrigée. Cependant, la réparation automatique Oracle EE (block media recovery via standby) n'a pas fonctionné, et de nouvelles corruptions sont apparues les 8, 9 et 10 mai sur les backups. Le 11 mai matin, la tentative de correction manuelle a échoué en raison de la limite de rétention des archive logs à 3 jours. À 12h12, la base s'est arrêtée définitivement : un bloc d'entête de fichier (datafile omsaas2_datlob1.910, file 884, block 1) était corrompu, déclenchant un ORA-63999 et la terminaison de l'instance p

Communication client
**[COMMUNICATION CLIENT — Incident du 11 mai 2026]** Madame, Monsieur, Nous vous informons qu'une interruption de service a affecté votre application le 11 mai 2026. L'accès a été indisponible sur les plages suivantes : 12h12-12h52, 13h05-13h35 et 13h43-14h31, soit une durée totale d'environ 1h58 d'interruption. Cette situation fait suite à un dysfonctionnement technique survenu sur notre infrastructure de stockage le 4 mai dernier, qui a entraîné une dégradation progressive et silencieuse de l'intégrité de la base de données hébergeant votre application. Le 11 mai, cette dégradation a atteint un seuil critique provoquant l'arrêt automatique du service en tant que mesure de protection des données. Nos équipes ont immédiatement activé notre dispositif de bascule vers l'environnement de

Actions — 6 total · ✓ 2 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Analyser la possibilité d’aligner mais avec decalage dans le temps la configurat	Cyril DIOLI	—	mitigate	Projet	Planned	—
Correction du zoning des serveurs	Philippe REBOUL	—	mitigate	High	Done	—
Revue de la procédure de bascule Oracle	Philippe BERNE	—	process	High	Done	—
Création d’un script de check pre-bascule	Philippe BERNE	—	process	Medium	Draft	—
Vérification régulière des corruptions de blocs Oracle	Philippe BERNE	—	prevent	Medium	In progress	—
Alerte sur détection corruption Oracle	Philippe BERNE	—	prevent	Medium	Draft	—

Sévérité	SEV-2 · 1h52
Date	04/05/2026
Infra impactée	Infrastructure
Fonctionnalité	—
Thème	—
Détection	—
Clients / CML	OMSAAS2, OMSAAS4, OMSAAS7
Nb sites impactés	98

📎 Post Mortem

Résumé

Le 04/05/2026, une maintenance électrique réalisée par Digital Realty sur le PDU B2.01 du datacenter FR.PAR5 a provoqué un pic de consommation entraînant la disjonction du PDU10 et du PDU09B. Cette coupure électrique de quelques secondes a mis hors ligne plusieurs composants critiques de l'armoire R54B3, engendrant des ralentissements généralisés et des corruptions MySQL sur les plateformes Tamm.

Impact

Ralentissements sur toutes les applications de 12h15 à 12h35. Indisponibilité de P03TM de 12h23 à 13h58 (VM Share KO), de P01TM et P05TM de 12h23 à 12h50 (corruption MySQL / apaches KO). Indisponibilité de HM sur P07HM, P09HM et P17HM entre 12h15 et 12h20. Indisponibilité de OM sur omsaas2 de 12h28 à 12h30 et sur omsaas4/7/cXXX de 12h15 à 12h24. Le lendemain, nouvelles interruptions de service sur P01TM et P05TM dues aux corruptions MyISAM, nécessitant 2 jours de travail de décorruption par 2 architectes et un administrateur infra.

Chronologie

12h15

Remise sous tension par Digital Realty sur PDU B2.01 — pic de consommation à 19,5 A sur voie B

12h15

Début des ralentissements sur toutes les applications

12h15

Début indisponibilité HM sur P07HM, P09HM, P17HM — OM sur omsaas4/7/cXXX

12h19

Fin indisponibilité HM sur P09HM

12h19

stdn-pdu10 injoignable (selon supervision)

12h20

Disjonction du stdn-pdu09 B

12h20

Fin indisponibilité HM sur P07HM et P17HM

12h23

stdn-pdu10 à nouveau joignable

12h23

Début indisponibilité P03TM (VM Share KO) et P01TM / P05TM (MySQL / apaches KO)

12h24

Fin indisponibilité OM sur omsaas4/7/cXXX

12h28

Début indisponibilité OM sur omsaas2

12h30

Fin indisponibilité OM sur omsaas2

12h35

Fin des ralentissements généraux

12h50

P01TM et P05TM rétablis

13h58

P03TM rétabli

J+1 14h19

Ouverture d'un case auprès de Digital Realty (CS4499545)

J+1 15h15

Disjoncteur réarmé, redondance électrique restaurée

J+1

Nouvelle interruption sur P01TM/P05TM suite à réplication des instructions de réparation MySQL vers le serveur d'écriture (MySQL1)

J+1 à J+2

Décorruption MySQL intensive (mysqlcheck) par 2 archis et 1 admin infra

Récurrence

Incident similaire survenu une fois par an par le passé, généralement lors d'une maintenance datacenter. N'avait plus été observé depuis plusieurs années.

Détection

Détection par la supervision applicative et Oracle (ralentissements applicatifs et base de données).

Root Cause Analysis

Causes immédiates : La remise sous tension par Digital Realty sur le PDU B2.01 (FR.PAR5) a provoqué un pic de consommation à 19,5 A sur la voie B, entraînant la disjonction du disjoncteur interne du PDU10, coupant une partie des blocs prise voie B. Les deux voies électriques ont été indisponibles quelques secondes, provoquant la perte de plusieurs équipements de l'armoire R54B3 : un nœud SVC, un switch FC (euw1fr01-swfc06), 5 hyperviseurs ESXi, un optics, un serial console switch et un leaf (nx-leaf3-stdn). Le master Palo Alto a également redémarré.

Causes racines : Lors de l'intervention planifiée de Digital Realty sur le PDU B2.01, la remise sous tension a généré un appel de courant trop important (19,5 A) sur la voie B, déclenchant le disjoncteur interne du PDU. L'absence de protection ou de limitation du pic de courant lors de la remise sous tension est la cause racine de la coupure.

Faits aggravants : 1. Le moteur de stockage MyISAM utilisé par Tamm n'est pas résilient aux arrêts brutaux (crash), ce qui a entraîné des corruptions MySQL sur P01TM et P05TM, prolongeant l'impact au lendemain et nécessitant 2 jours de travail de remédiation. 2. La VM Share nécessaire aux applications Tamm est hébergée sur une seule VM sans redondance, ce qui a directement causé l'indisponibilité de P03TM. 3. Lors d

Résolution

Relance des VMs indisponibles après rétablissement de l'alimentation électrique. Réparation des corruptions MySQL (mysqlcheck) sur P01TM et P05TM, avec isolation de MySQL2 le temps d'une passe extensive de vérification. Ouverture d'un case auprès de Digital Realty (CS4499545) le lendemain à 14h19 ; disjoncteur réarmé et redondance électrique restaurée à 15h15.

Apprentissage

Ce qui s'est bien passé : Le lendemain, lors d'une autre maintenance programmée sur la même baie, deux serveurs ont été arrêtés préalablement de manière contrôlée. L'impact a été limité à un seul accès autonome client (ticket 2375), démontrant l'efficacité d'une préparation anticipée.

Ce qui s'est mal passé : 1. Les tables MySQL de Tamm sous moteur MyISAM ont été corrompues lors de l'arrêt brutal des ESXi, causant une indisponibilité prolongée pour la quasi-totalité des utilisateurs Tamm. 2. La tentative de réparation des tables MySQL2 de P05TM le lendemain a entraîné la réplication des instructions REPAIR vers MySQL1 (serveur d'écriture), déclenchant une réparation sur des tables saines et provoquant

Chanceux : Les serveurs MySQL d'écriture principaux de Tamm (P01TM, P03TM, P05TM) n'ont pas été arrêtés lors de l'incident initial, évitant ainsi une corruption des données à la source. Si ces serveurs avaient été coupés, la durée de l'interruption de service et l'effort de remédiation auraient été considérabl

Communication interne
**[INTERNE SWM — Post Mortem 04/05/2026 — Incident électrique stdn / Tamm]** Le 04/05/2026 à 12h15, lors d'une intervention de Digital Realty sur le PDU B2.01 (FR.PAR5, rack R104, case CS4177325), la remise sous tension a provoqué un pic de consommation à 19,5 A sur la voie B. Le disjoncteur interne du stdn-pdu10 a disjoncté à 12h19, coupant une partie des blocs prise voie B de l'armoire R54B3. Le stdn-pdu09B a également disjoncté à 12h20. Les deux voies ont été indisponibles quelques secondes. Perte constatée sur R54B3 : un nœud SVC, le switch FC euw1fr01-swfc06, 5 hyperviseurs ESXi, un optics, un serial console switch, le leaf nx-leaf3-stdn. Le master Palo Alto a redémarré. L'accès au stockage a été fortement ralenti (suspicion switch FC), entraînant ralentissements et corruptions MySQ

Communication client
**[COMMUNICATION CLIENT — Incident du 04/05/2026]** Madame, Monsieur, Nous vous informons qu'une intervention réalisée par notre prestataire d'hébergement le 4 mai 2026 en début d'après-midi a provoqué une interruption électrique de quelques secondes dans notre infrastructure, entraînant des perturbations sur nos services hébergés. Entre 12h15 et 13h58 environ, vous avez pu constater des ralentissements ou des indisponibilités sur vos applications. Ces perturbations ont été détectées immédiatement par nos outils de supervision, et nos équipes ont mobilisé l'ensemble des ressources nécessaires pour rétablir les services dans les meilleurs délais. Dans les heures et jours suivants, des vérifications approfondies ont été menées sur l'ensemble des services affectés afin de garantir l'intég

Actions — 4 total · ✓ 0 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Engager la migration Tamm/mediboard à innoDB	Yannick LAGADEC	—	—	Medium	Draft	—
Analyser l’existant sur l’ensemble des armoires à risque et prévoir un plan de m	Wahid MESLEM	—	—	High	In progress	—
Mise en place d’un alerting sur la consommation électrique	Wahid MESLEM	—	—	High	In progress	—
Vérif de la présence d’ATS sur l’accès opérateur 2375	Guillaume GOUPIL	—	—	Medium	Draft	—