Synthèse PM — Mars 2026

Mars 2026Synthèse Post Mortem validés

Sévérité	SEV-2 · 38 min
Date	23/03/2026
Infra impactée	Infrastructure
Fonctionnalité	—
Thème	Indisponibilité
Détection	—
Clients / CML	OMSAAS3, OMPILOTE, OMSAAS, OMSAAS2, OMSAAS4, OMSAAS7, OMSAASDOM
Nb sites impactés	245

📎 Post Mortem

Résumé

Des perturbations des accès internet ont affecté les liens télécoms VPNclient le temps d'une matinée. Une modification de routage appliquée sans concertation par l'opérateur GTT a été identifiée comme facteur déclenchant. La tentative de bascule sur le lien secondaire (Zayo) a aggravé la situation avant un retour à la normale spontané.

Impact

Accès internet coupés entre 11h43 et 11h49, avec des perturbations plus larges entre 11h20 et 11h58. Impact client difficile à mesurer précisément. Les services exposés sur internet depuis le datacenter (Citrix, Cosem notamment) ont été perturbés. 6 à 7 liens VPNclient ont nécessité un redémarrage manuel.

Chronologie

11:20

La supervision remonte l'indisponibilité de nombreux liens télécoms Alphalink

11:27

Les accès internet semblent perturbés, le trafic diminue fortement

11:38

Identification d'un comportement anormal sur le lien GTT : une seule route présentée au lieu de toutes les routes internet. Il s'agit d'une modification demandée par SWM, signée, mais appliquée sans concertation par GTT

11:43

Coupure du lien GTT pour basculer uniquement sur le lien Zayo

11:49

La bascule aggrave la situation — remontées support radio de blocages clients. Le lien GTT est restauré

11:56

De nombreux liens télécoms fonctionnent de nouveau dans la supervision

11:58

Début du redémarrage manuel des 6-7 liens VPNclient toujours en anomalie

12:28

Fin du redémarrage manuel des liens VPNclient — retour à la normale

—

03/04 : Zayo ne fournit toujours pas les réponses attendues. Le pôle réseau suit le sujet

Détection

Détection indirecte via la supervision : remontée d'indisponibilité de plusieurs liens télécoms VPNclient dans l'outil de monitoring réseau.

Root Cause Analysis

Causes immédiates : Problème de routage non complètement identifié, possiblement lié à une modification appliquée sans concertation par l'opérateur GTT (réduction des routes internet annoncées), combinée à un problème plus large chez un ou plusieurs opérateurs (Alphalink).

Causes racines : Historique des configurations du réseau d'accès et changements en cours liés à l'ouverture de nouvelles salles d'hébergement. La complexité de l'architecture réseau en évolution rend difficile l'anticipation des impacts de chaque modification.

Faits aggravants : Difficulté d'estimer l'impact client en temps réel : la décision de couper le lien GTT suspect, prise sans visibilité suffisante, a provoqué une aggravation des perturbations au lieu de les corriger. La bascule actif/actif entre opérateurs n'a pas fonctionné comme prévu et n'avait pas été testée dans ce scénario.

Résolution

L'incident s'est résolu sans action corrective technique de SWM côté infrastructure. Les 6-7 liens VPNclient restants ont été manuellement coupés puis relancés entre 11h58 et 12h28. Les analyses se poursuivent avec les opérateurs (Zayo). Une révision et un test du mécanisme de bascule entre opérateurs internet sont planifiés.

Apprentissage

Ce qui s'est mal passé : Estimation de l'impact client insuffisante en temps réel, ayant conduit à une décision de bascule qui a aggravé les perturbations. La bascule entre opérateurs internet n'a pas fonctionné correctement et n'était pas suffisamment qualifiée.

Chanceux : Le retour à la normale s'est produit spontanément, sans action corrective identifiée côté SWM. La perturbation aurait pu durer bien plus longtemps si le problème ne s'était pas résorbé de lui-même chez les opérateurs.

Communication interne
Le 03/04, entre 11h20 et 11h58, nous avons subi des perturbations sur nos accès internet datacenter, impactant les liens télécoms VPNclient supervisés et les services exposés (Citrix, Cosem). La supervision a remonté des indisponibilités Alphalink à 11h20. À 11h38, on a identifié que GTT ne nous annonçait plus qu'une seule route internet au lieu de la table complète. Cette modification avait été demandée et devisée par nos soins, mais GTT l'a appliquée sans nous en informer au préalable. En réaction, à 11h43, le lien GTT a été coupé pour forcer le trafic sur Zayo. Mauvaise décision : la bascule n'a pas fonctionné comme prévu et les remontées du support radio ont signalé une aggravation des blocages clients à 11h49. GTT a été immédiatement réactivé. À 11h56, la majorité des liens refonct

Communication client
Le [DATE], les accès à nos services hébergés en datacenter (notamment Citrix et Cosem) ont rencontré des perturbations entre 11h20 et 11h58 environ, avec une interruption complète entre 11h43 et 11h49. Ces perturbations sont liées à un incident survenu chez l'un de nos opérateurs de connectivité internet, indépendamment de nos applications. Nos équipes ont détecté rapidement l'anomalie et sont intervenues dans les meilleurs délais pour rétablir un fonctionnement normal. Nous avons procédé à une analyse approfondie de l'incident en lien avec nos prestataires. Afin d'améliorer notre capacité de réaction et de limiter l'impact de tout incident similaire à l'avenir, nous allons revoir et tester notre dispositif de bascule automatique entre connexions internet. Nous nous excusons pour la gên

Actions — 3 total · ✓ 0 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Revue de la configuration de redondance internet	Guillaume GOUPIL	—	—	High	Planned	19/05/2026
Tester la redondance des accès Internet	Guillaume GOUPIL, Guillaume BA	—	—	Medium	In progress	—
Avoir une supervision externe à notre infra afin de monitorer nos services (réso	Guillaume GOUPIL, Guillaume BA	—	mitigate	High	Planned	—

Sévérité	SEV-1 · 1h05
Date	20/03/2026
Infra impactée	Infrastructure
Fonctionnalité	—
Thème	Indisponibilité
Détection	—
Clients / CML	OMPILOTE, OMSAAS3, OMSAAS
Nb sites impactés	144

📎 Post Mortem

Résumé

Une règle de NAT mal configurée sur le Palo Alto de CRBV a provoqué un conflit d'adresse IP (duplicate IP 91.208.222.253) entre l'ASR et le pare-feu. Cela a mis hors service les sessions BGP, rendant les accès internet et les résolutions DNS publiques inopérants. L'incident a duré de 15h05 à 16h27.

Impact

Accès internet indisponible sur le site CRBV. Applications publiques inaccessibles. Serveurs DNS publics SWM (193.23.123.3 et 193.23.123.193) incapables de résoudre les adresses *.xtremcloud.cloud entre 15h05 et 16h00. Les clients dont les DNS locaux n'avaient pas de cache ont subi des indisponibilités d'accès aux applications. Les DNS internes ont conservé leur cache, préservant le fonctionnement interne des applications.

Chronologie

15:05

Alertes Zabbix sur l'indisponibilité d'équipements opérateur (VISP)

15:20

Ouverture de la cellule de crise

15:26

Estimation de l'impact : de nombreux DNS publics ne résolvent plus les noms de domaine SWM

15:35

Constat : session BGP ASR/Palo Alto KO, fibre noire inter-DC injoignable

15:47

Les logs de l'ASR CRBV indiquent que l'IP 91.208.222.253 est dupliquée

15:50

L'adresse MAC dupliquée est identifiée comme appartenant au Palo Alto — une règle de NAT créée à 14:55 est suspectée

15:56

Désactivation de la règle de NAT sur le Palo Alto de CRBV

16:00

Résolution DNS OK, accès internet rétabli

16:20

Accès publics CRBV encore partiellement KO : e-depistage.synapsecloud.fr, imdev.synapsecloud.fr, préprod fr02 epi KO

16:27

Flush ARP et flush session BGP sur l'ASR de CRBV — duplicate IP disparaît, accès restants rétablis

Détection

Nombreuses alertes de supervision Zabbix sur l'indisponibilité de services web et d'équipements opérateur (VISP).

Root Cause Analysis

Causes immédiates : Une règle de NAT créée à 14h55 sur le Palo Alto de CRBV a provoqué un duplicate IP : l'IP 91.208.222.253 était portée simultanément par l'ASR CRBV et le Palo Alto CRBV. Ce conflit a mis hors service les sessions BGP nécessaires aux services internet.

Causes racines : Lors de la création d'une règle de NAT pour donner accès internet à un serveur Epiconcept, l'interface de sortie n'a pas été spécifiée — seul le pool d'adresses 91.208.222.250/29 a été renseigné. Le Palo Alto a alors utilisé une IP du pool 91.208.222.248/29, récupérant l'IP 91.208.222.253 déjà attribuée à l'ASR. La règle avait été discutée entre un administrateur et un architecte, mais une incompréhension a conduit à un paramétrage incorrect.

Résolution

Désactivation de la règle de NAT incorrecte sur le Palo Alto de CRBV, suivie d'un flush ARP et d'un flush de session BGP sur l'ASR de CRBV pour éliminer le duplicate IP résiduel et rétablir l'ensemble des accès publics.

Apprentissage

Ce qui s'est mal passé : Action non courante réalisée par un administrateur sans filet de sécurité suffisant. Le diagnostic a été compliqué par le manque de visibilité précise sur la chaîne de défaillance (accès KO vs résolution KO). Les remontées clients étaient vagues ("ça ne marche pas") et il a fallu creuser pour identifier le composant défaillant exact.

Chanceux : Les DNS internes SWM ont conservé leur cache, préservant le fonctionnement interne des applications pendant l'incident. De nombreux DNS publics et DNS locaux sur site ont également conservé leur cache, limitant l'impact à une partie seulement des utilisateurs externes (ceux dont les DNS n'avaient pa

Communication interne
INCIDENT RÉSEAU CRBV — 15h05 / 16h27 Une règle de NAT créée à 14h55 sur le Palo Alto de CRBV (pour ouvrir un accès internet à un serveur Epiconcept) a été mal configurée : l'interface de sortie n'a pas été précisée, uniquement le pool 91.208.222.250/29. Le Palo Alto a alors utilisé l'IP 91.208.222.253 issue du pool 91.208.222.248/29, déjà assignée à l'ASR de CRBV. Ce duplicate IP a immédiatement cassé les sessions BGP entre l'ASR CRBV et le Palo Alto CRBV, rendant la fibre noire inter-DC injoignable et coupant l'ensemble des accès internet du site CRBV. Les DNS publics SWM (193.23.123.3 et 193.23.123.193) ont cessé de résoudre les adresses *.xtremcloud.cloud dès 15h05. Résolution : désactivation de la règle de NAT fautive à 15h56 (effet à 16h00), puis flush ARP + flush session BGP sur l

Communication client
Entre 15h56 et 16h27, les utilisateurs des solutions SaaS Softway Medical ont pu rencontrer des difficultés d'accès à leurs applications via Internet. Nos équipes techniques ont rapidement identifié l'origine du problème, lié à un dysfonctionnement sur notre infrastructure réseau. Les actions correctives nécessaires ont été appliquées et l'accès aux applications a été pleinement rétabli à 16h27. Nous nous excusons pour la gêne occasionnée et restons disponibles si vous constatez toute anomalie persistante.

Clients impactés
Tous clients SaaS via Internet · Zabbix/Graylog/Grafana down

Actions — 5 total · ✓ 2 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Rendre possible la résolution DNS par les liens privés	Guillaume GOUPIL, Guillaume BA	—	—	Medium	Draft	—
Etude de relais DNS (ou quelques services) externalisés	Guillaume GOUPIL, Fabien MULLE	—	prevent	High	Assigned	—
Réflexions sur la manière de sécuriser ces changements (ajout ou modif de nat)	Guillaume GOUPIL, Guillaume BA	—	process	High	Done	—
Evolution du Change management des modif pare-feux (ou équipement mutualisé, asr	Florent LANDUCCI	—	process	High	Done	23/03/2026
Avoir une supervision externe à notre infra afin de monitorer nos services (réso	Guillaume GOUPIL, Guillaume BA	—	mitigate	High	Planned	—

Sévérité	SEV-1 · 744h00
Date	17/03/2026
Infra impactée	Application
Fonctionnalité	—
Thème	Identitovigilance
Détection	—
Clients / CML	C2732, C2423, C3214, C2719, C2844, C2599
Nb sites impactés	—

📎 Post Mortem

Résumé

Une régression introduite dans la version 2601.12 a provoqué une mauvaise gestion du contexte entre le bandeau HM et les fenêtres de navigation en mode multi-onglets. Cette anomalie a engendré des incohérences en base de données avec des risques patients avérés, notamment sur des prescriptions médicamenteuses. 6 établissements clients ont été impactés avec 19 prescriptions médicaments concernées.

Impact

6 clients impactés avec 19 prescriptions médicaments erronées (client 2423 : 1, client 3214 : 1, client 2719 : 5, client 2844 : 2, client 2599 : 2, client 2732 : 8). Risque patient avéré lié à des erreurs d'appréciation et des incohérences en base de données dans un contexte d'utilisation multi-onglets. Le problème était en production depuis environ 1 mois avant détection.

Chronologie

17/03/2026

Installation de la version 2601.12 par le GHT18 — introduction silencieuse de la régression

16/04/2026 16h27

Création de la demande Salesforce par le GHT18 — détection de l'anomalie

17/04/2026 18hxx

Suppression de l'option « Multi Onglets » via paramétrage — mesure de mitigation immédiate

21/04/2026 09hxx

Communication et renforcement des règles de bon usage auprès des clients concernés par la version 2601.12+

21/04/2026 21h00

Livraison de la version 2601.22 — rollback des corrections PMSI, arrêt du risque patient

28/04/2026

Planification de la version 2601.23 — correction des problèmes PMSI avec prise en compte des effets de bords constatés sur les versions 2601.12+

Récurrence

Aléatoire en fonction du mode d'utilisation des clients. Cas particulier identifié sur l'usage du multi-onglet pour le Dossier Urgence.

Détection

L'incident a été détecté via une remontée terrain du GHT18, qui a créé une demande Salesforce le 16 avril 2026. Aucune alerte automatique n'a permis de détecter la régression en amont.

Root Cause Analysis

Causes immédiates : Dans un contexte multi-onglets, mauvaise gestion du contexte entre le bandeau HM et les fenêtres de navigation, provoquant des erreurs d'appréciations et des incohérences en base de données avec des risques patients avérés.

Causes racines : Régression introduite à partir de la version 2601.12, issue de la correction de deux anomalies PMSI : '623343 - [PMSI_RUM] - Perte du contexte en accès au RUM depuis la synthèse générale' et '587805 - [PMSI_SMR] - Anomalie navigation RHS depuis LT RHS'. La correction de ces anomalies a introduit un effet de bord sur la gestion du contexte en mode multi-onglets, non détecté avant la mise en production.

Faits aggravants : Risque patient avéré. Absence d'alerte automatique permettant une détection précoce. Notion de session backend vs mode statique multi-onglets insuffisamment maîtrisée. Le problème était en production depuis environ 1 mois avant d'être remonté. Absence de garde-fous sur les versions patches.

Résolution

Court terme : suppression de l'option « Multi Onglets » via paramétrage et renforcement des règles de bon usage auprès des clients concernés par la version 2601.12+. Moyen terme : livraison de la version 2601.22 (rollback des corrections PMSI, arrêt du risque patient) et planification de la version 2601.23 (correction des problèmes PMSI avec prise en compte des effets de bords). Long terme : définition d'une stratégie sur la gestion du mode multi-onglets et la notion de session backend vs mode statique.

Apprentissage

Ce qui s'est mal passé : Absence d'alertes automatiques pour détecter la régression. Absence de garde-fous sur les versions patches (v1.2601.22, v1.2603.05, v1.2602 non patchée, v1.2604.01). Mauvaise maîtrise de la notion de session backend vs mode statique multi-onglets. Délai d'un mois entre l'introduction de la régression et sa détection.

Chanceux : Malgré un mois de présence en production, le nombre de prescriptions impactées est resté limité à 19 sur 6 clients. La situation aurait pu être bien plus grave compte tenu de la durée d'exposition et du risque patient avéré.

Communication interne
🔴 INCIDENT RÉGRESSION – RISQUE PATIENT AVÉRÉ | Versions 2601.12 et supérieures **Ce qui s'est passé :** La correction des anomalies PMSI 623343 (PMSI_RUM) et 587805 (PMSI_SMR) intégrée dans la version 2601.12 a introduit une régression sur la gestion du contexte entre le bandeau HM et les fenêtres de navigation en mode multi-onglets. En pratique, dans un usage multi-onglets, le contexte patient affiché dans le bandeau HM ne correspondait plus nécessairement à la fenêtre active, entraînant des actions (notamment des prescriptions médicamenteuses) effectuées sur le mauvais patient. **Impact concret :** 6 clients touchés, 19 prescriptions médicaments erronées identifiées (2423 : 1, 3214 : 1, 2719 : 5, 2844 : 2, 2599 : 2, 2732 : 8). Risque patient avéré. La régression était en production dep

Communication client
Madame, Monsieur, Nous vous contactons afin de vous informer d'une anomalie identifiée dans la version de notre logiciel déployée depuis le mois de mars 2026, et de vous présenter les actions que nous avons engagées pour y remédier. **Ce que vous avez pu constater :** Dans un contexte d'utilisation avec plusieurs onglets ouverts simultanément, une incohérence pouvait survenir dans l'affichage des informations patient, susceptible d'entraîner des actions réalisées sur un mauvais dossier, notamment lors de la saisie de prescriptions médicamenteuses. **Ce que nous avons fait :** Dès identification de l'anomalie, nous avons pris des mesures immédiates pour limiter tout risque : désactivation de la navigation multi-onglets pour les établissements concernés et communication de recommandations

Actions — 7 total · ✓ 2 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Analyse court terme de securisation du multi-onglet	Gerald RONCAJOLO	—	mitigate	Urgent	Draft	—
Projet de refactorisation sur Bandeau	Edouard Hubin	—	mitigate	Urgent	Draft	—
Communication RI aux clients	Patrice PERRONNET	—	process	Urgent	Draft	29/04/2026
Mise en place d’alerte basee sur une Query saine	Patrice PERRONNET	—	prevent	Urgent	In progress	—
Etudier une extension qui permet de bloquer la duplication d'onglet sur des url	Gerald RONCAJOLO	—	mitigate	Urgent	Draft	—
Communication aux clients	Patrice PERRONNET	—	process	Urgent	Done	17/04/2026
Mise en place d’une surveilllance sur les potentiels problemes	Patrice PERRONNET	—	prevent	Urgent	Done	17/04/2026

Sévérité	SEV-2 · 3h14
Date	11/03/2026
Infra impactée	Infrastructure
Fonctionnalité	—
Thème	Socle Technique
Détection	—
Clients / CML	—
Nb sites impactés	—

📎 Post Mortem

Résumé

Suite à l'activation de GPO de durcissement Citrix (Hardening Citrix User et Hardening Citrix Computer) dans le cadre de la RFC 2026-001022, les serveurs VDA Citrix des clients Galaxie hébergés sur STDN ont rencontré des dysfonctionnements bloquants sur les nouvelles sessions Citrix. Un rollback immédiat s'est avéré inefficace, nécessitant une cellule de crise et des actions manuelles de nettoyage suivies de redémarrages serveurs pour rétablir le service.

Impact

Les nouveaux utilisateurs Citrix ne pouvaient plus ouvrir de session applicative Galaxie correctement (messages d'erreur au lancement, modules non fonctionnels, blocage au niveau de la facturation, blocage Wallix). Seuls les clients Galaxie hébergés sur STDN étaient concernés. Les utilisateurs déjà connectés avant l'application de la GPO n'étaient pas impactés. Deux clients (Livi et Ramsay) disposant de plus de 30 serveurs chacun nécessitaient une intervention différée.

Chronologie

10h14

Application des GPO Hardening Citrix User et Hardening Citrix Computer sur les serveurs VDA STDN par Benoit Samson (RFC 2026-001022)

10h35

Première remontée de dysfonctionnement par les équipes support Galaxie

10h40

Benoit Samson commence l'analyse du problème

11h01

Lancement du rollback GPO par Benoit Samson — inefficace, résultat non conforme à l'attendu

11h38

Information du RUN par le pôle Infra — lancement de la cellule de crise (blocage Wallix, retour client KO)

11h44

Proposition de remettre les stratégies dans leur état initial

11h46

Confirmation que seuls les clients STDN sont impactés — bascule des stratégies en mode audit

11h47

Envoi d'une communication Everbridge aux clients par Thomas P.

11h53

Analyse des stratégies utilisateurs — demande d'ajout d'un testeur Galaxie (Mickael B.)

11h57

Réunion Teams lancée avec la BU Galaxie — situation toujours KO

12h00

Incertitude sur l'application effective de la GPO — blocage facturation confirmé par Michael B.

12h02

Lancement d'un nouveau rollback GPO — configurations toujours appliquées malgré désactivation

12h05

Philippe R. constate directement sur machine que la GPO est toujours active

12h08

Exécution d'un gpupdate /force — nouvelle configuration appliquée

12h09

Suppression de la stratégie AppLocker par Benoit Samson

12h12

Test de Valentin : la stratégie de contrôle d'application semble avoir disparu

12h14

Test de Michael B. : message d'erreur persistant

12h16

Vérification des clés de registre par Philippe R. — pas de configuration utilisateur résiduelle

12h21

Décision de reboot serveur pour prise en compte des modifications

12h25

Nouveau test après reboot — toujours KO

12h29

Renvoi d'une communication clients avec estimation de 40 minutes supplémentaires

12h38

Suppression manuelle des fichiers dans %windir%\System32\AppLocker\

12h40

Nouveau test — toujours KO

12h41

Recherche de Benoit : nécessité de reboot + suppression d'une clé de registre

12h45

gpupdate /force + reboot

12h48

Test : plus de message d'erreur au lancement — tests applicatifs en cours

12h53

RSOP PowerShell lancé pour vérification avant/après reboot

12h55

Retour des tests applicatifs — fonctionnement toujours partiel

12h56

Nouveau reboot et nouvelle campagne de tests

13h05

Test de connexion applicative OK

Détection

Première remontée de dysfonctionnement signalée par les équipes support Galaxie à 10h35, soit 21 minutes après l'application des GPO par l'équipe Infra.

Root Cause Analysis

Causes immédiates : L'activation des GPO de durcissement Citrix (Hardening Citrix User et Hardening Citrix Computer) sur les serveurs VDA STDN a introduit des politiques AppLocker incompatibles avec le fonctionnement de l'application Galaxie, bloquant les nouvelles sessions Citrix.

Causes racines : Les GPO de durcissement ont été activées sans validation préalable de leur compatibilité avec l'application Galaxie en environnement de production. L'absence de tests applicatifs métier en amont du change (recette sur environnement représentatif) a permis à une configuration bloquante d'être déployée directement en production.

Faits aggravants : Le rollback initial s'est avéré inefficace car les configurations GPO (notamment AppLocker) persistent dans les clés de registre et les fichiers système (%windir%\System32\AppLocker\) même après désactivation de la GPO, nécessitant un nettoyage manuel et un redémarrage obligatoire des serveurs. L'absence de procédure documentée de rollback complet pour ce type de GPO a rallongé significativement l

Résolution

Suppression de la stratégie AppLocker, nettoyage des clés de registre associées, suppression des fichiers résiduels dans %windir%\System32\AppLocker\, exécution d'un gpupdate /force suivi d'un redémarrage obligatoire des serveurs VDA. Mise en place d'une supervision Zabbix pour cartographier l'ensemble des serveurs encore impactés. Pour Livi, redémarrage planifié le 11/03 entre 7h00 et 7h30. Suivi en cours pour Ramsay.

Apprentissage

Ce qui s'est bien passé : La cellule de crise a été constituée rapidement et les équipes Infra, RUN et BU Galaxie ont collaboré efficacement. Les communications Everbridge vers les clients ont été envoyées rapidement et régulièrement mises à jour. La cause racine a été identifiée et la procédure de remédiation stabilisée en moins de 3 heures.

Ce qui s'est mal passé : Absence de tests de non-régression applicatifs (Galaxie) avant l'application du change en production. Le rollback GPO n'était pas documenté et s'est avéré plus complexe que prévu (persistance des configs AppLocker en registre et fichiers). Le rollback initial a été insuffisant, ce qui a prolongé l'incident de près de 2 heures. Manque de procédure claire pour la remédiation d'une GPO AppLocker mal

Chanceux : Les utilisateurs déjà connectés au moment de l'application de la GPO n'ont pas été impactés, ce qui a limité l'impact global. L'incident s'est produit en journée, permettant une mobilisation rapide des équipes. Si la GPO avait été appliquée en dehors des heures ouvrées, la détection aurait pu être b

Communication interne
Incident du [date] — Dysfonctionnement Citrix suite activation GPO Hardening STDN (RFC 2026-001022) À 10h14, Benoit Samson a appliqué les GPO 'Hardening Citrix User' et 'Hardening Citrix Computer' sur les serveurs VDA Citrix des clients Galaxie hébergés sur STDN, conformément à la RFC 2026-001022 validée en CAB. À 10h35, les équipes support Galaxie remontent des dysfonctionnements : erreurs au lancement de l'application, modules non fonctionnels, blocage Wallix, blocage facturation. Seules les nouvelles sessions Citrix ouvertes post-application de la GPO sont affectées. Le rollback initié à 11h01 s'est révélé inefficace : les politiques AppLocker persistent dans les clés de registre et dans les fichiers %windir%\System32\AppLocker\ même après désactivation de la GPO. Un gpupdate /force

Communication client
Madame, Monsieur, Nous vous informons qu'en date du [date], une opération de maintenance planifiée et validée sur notre infrastructure d'hébergement a entraîné des perturbations sur l'accès à votre application Galaxie. Entre 10h35 et 13h30 environ, les utilisateurs tentant d'ouvrir une nouvelle session ont pu rencontrer des messages d'erreur au lancement de l'application ou des fonctionnalités indisponibles, notamment sur la partie facturation. Nos équipes techniques ont pris en charge l'incident dès les premières remontées et ont mobilisé une cellule de crise pour identifier et corriger la cause dans les meilleurs délais. Le service a été progressivement rétabli à partir de 13h00. Nous nous excusons pour la gêne occasionnée. Afin d'éviter qu'une telle situation ne se reproduise, nous

Actions — 3 total · ✓ 2 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Déploiement des nouvelles Gpos sur l’ensemble des infras Citrix	Benoit SAMSON	—	—	Medium	Draft	—
Déploiement des nouvelles Gpos sur un site pilote	Benoit SAMSON	—	—	Medium	Done	—
Correction des Gpos et Validation par les équipes Xtremsante	Benoit SAMSON	—	—	Medium	Done	—

Sévérité	SEV-1 · 55 min
Date	10/03/2026
Infra impactée	Infrastructure
Fonctionnalité	—
Thème	Indisponibilité
Détection	—
Clients / CML	OMSAAS, OMSAAS3, OMPILOTE
Nb sites impactés	144

📎 Post Mortem

Résumé

Lors du décommissionnement automatisé du serveur rproxy7, l'entrée DNS A associée à l'IP 193.23.123.89 a été supprimée. Or cette IP était également celle du tenant AVI de production (production-crbv.xtremcloud.cloud). Les CNAMEs de production ont alors redirigé vers une machine par défaut (rppriv) au lieu du tenant AVI, rendant les applications inaccessibles aux clients hébergés.

Impact

Tous les clients hébergés dont les URLs applicatives pointaient vers le tenant AVI de production se sont retrouvés sans accès à l'application pendant environ 55 minutes. Les requêtes étaient redirigées vers l'IP d'une machine non prévue à cet effet (rppriv).

Chronologie

17:49

Le workflow Rundeck de décommissionnement supprime rproxy7 et son entrée DNS A 193.23.123.89 (adresse du tenant AVI de production)

18h03

Communication Everbridge envoyée aux clients

18h03

Constat que les adresses de prod redirigent vers rppriv au lieu du tenant AVI

18h16

Constat que l'IP 193.23.123.89 n'est plus présente dans l'IPAM

18h26

Recréation manuelle de l'entrée DNS A 193.23.123.89

18h35

Modification manuelle des CNAMEs pour pointer vers l'entrée A nouvellement créée

18h44

Accès aux applications rétablis et fonctionnels

18h49

Identification que la suppression à 17h49 a été effectuée par l'utilisateur swm-api

19h02

Communication de fin d'incident envoyée aux clients

19h45

Vérifications approfondies réalisées pour s'assurer qu'aucun process automatisé ne viendra altérer la configuration dans la nuit

Récurrence

Incident de faible récurrence, mais cette entrée DNS s'est déjà révélée critique. Une erreur manuelle lors d'un déploiement avait déjà altéré cette même entrée DNS le 26/06/2025. Cette fois-ci, la suppression a été causée par un job d'automatisation.

Détection

Détection par monitoring Zabbix.

Root Cause Analysis

Causes immédiates : Suppression de l'entrée DNS A 193.23.123.89 (production-crbv.xtremcloud.cloud) par le job Rundeck de décommissionnement de rproxy7.

Causes racines : Dans l'IPAM, rproxy7 était propriétaire de la réservation de l'IP 193.23.123.89. La suppression de l'objet rproxy7 et de sa réservation d'IP a donc entraîné par cascade la suppression de l'entrée DNS A associée. Or cet enregistrement DNS était utilisé comme cible des CNAMEs du tenant AVI de production, créant une dépendance critique non identifiée entre l'objet rproxy7 et l'infrastructure de production AVI.

Faits aggravants : L'utilisateur ayant effectué la suppression est identifié sous le nom générique 'swm-api', ce qui ne permet pas de déterminer rapidement quel processus ou quel actif automatisé est intervenu, allongeant le temps d'investigation.

Résolution

Création manuelle de l'entrée DNS A 193.23.123.89 pointant vers production-crbv.xtremcloud.cloud. Modification manuelle des CNAMEs de production pour pointer vers cette entrée A nouvellement créée. Passage de Puppet sur les apigtw pour vérification de l'absence de changement impactant. Vérifications approfondies en soirée pour s'assurer de la stabilité de la configuration jusqu'au lendemain.

Apprentissage

Ce qui s'est bien passé : Bonne réactivité dans l'analyse, la mobilisation des équipes et la résolution technique. Communication clients engagée rapidement via Everbridge.

Ce qui s'est mal passé : Le passage de Puppet sur apigtw-node3 prend environ 30 minutes, ce qui est trop long pour permettre une réactivité optimale en situation d'incident. L'identification de l'auteur d'une action automatisée est difficile : l'utilisateur 'swm-api' est trop générique et ne permet pas de tracer précisément quel process ou quel actif a déclenché l'action.

Communication interne
**[INCIDENT PRODUCTION — Perte d'accès applicatif clients | 17h49–18h44]** À 17h49, le workflow Rundeck de décommissionnement a supprimé l'objet rproxy7 ainsi que sa réservation IP dans l'IPAM. Problème : l'IP réservée par rproxy7 (193.23.123.89) était également l'enregistrement DNS A de production-crbv.xtremcloud.cloud, soit le tenant AVI de production. Sa suppression a entraîné la disparition de l'entrée A, faisant pointer tous les CNAMEs de production vers rppriv (machine fallback) au lieu du tenant AVI. Résultat : coupure totale d'accès pour les clients hébergés sur ce tenant. Cause racine : dépendance non protégée entre l'objet IPAM de rproxy7 et l'entrée DNS critique du tenant AVI. Aucun guard ni tag de protection n'existait sur cet enregistrement. Résolution : recréation manuelle

Communication client
Nous avons identifié une perturbation ayant empêché l'accès à votre application, se traduisant par une impossibilité de connexion pour les utilisateurs. Nos équipes techniques ont rapidement pris en charge l'incident et ont procédé aux correctifs nécessaires au niveau de la configuration réseau. L'accès à l'application a été pleinement rétabli. Nous vous prions de nous excuser pour la gêne occasionnée et restons à votre disposition pour tout besoin complémentaire.

Clients impactés
44 clients CRBV + OMSAAS · OMSAAS3 · OMPILOTE + Imagerie de Provence · CSE Beaurepaire · MS locaux

Actions — 13 total · ✓ 5 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Améliorer la traçabilité des Changes réalisés par l’automatisation	Patrice PERRONNET	—	—	Projet	Done	—
—	—	—	—	Medium	Draft	—
Remise au propre de l'entrée production-crbv.xtremcloud.cloud dans l'ipam/DNS	Willy Goiffon	—	—	Urgent	Done	01/04/2026
Remettre l’objet production-crbv.xtremcloud.cloud	Guillaume GOUPIL	—	revert	Medium	Done	—
Revoir le script de décommissionnement	Philippe RISCH	—	mitigate	Medium	Draft	—
Créer des comptes de service API pour chaque consommateur (rundeck, apigtw-avi,	Philippe RISCH	—	process	Medium	Draft	—
Revoir/faire du propre dans l’IPAM	Guillaume GOUPIL	—	prevent	Medium	In progress	—
Tester un nouveau profil de droit pour le compte swm-api	Guillaume GOUPIL, fabien GASPA	—	mitigate	Medium	Assigned	—
Aurait-on pu prévenir les clients qu’un vidage des caches navigateurs pourrait ê	Loïc SERGEANT, Thomas PORTAL,	—	—	High	Not Retained	—
Ajouter dans la procédure de décommissionnent la vérification des flux des IP as	Guillaume GOUPIL, Julien BEAU	—	prevent	Projet	Done	—
Rédiger la procédure de décommissionnement	Julien BEAU	—	—	Medium	Draft	—
Identifier plus finement les process automatisés (swm-api)	Guillaume GOUPIL, Nicolas HERM	—	prevent	Urgent	In progress	—
Revue des entrées IPAM 193. et 91.	Guillaume GOUPIL	—	prevent	Projet	In progress	30/06/2026

Sévérité	SEV-2 · 2h13
Date	02/03/2026
Infra impactée	Infrastructure
Fonctionnalité	—
Thème	Indisponibilité
Détection	—
Clients / CML	OMSAAS, OMPILOTE, OMSAAS3
Nb sites impactés	144

📎 Post Mortem

Résumé

Une opération de réplication de volume vers une salle distante, lancée par un prestataire sans être recensée dans le change management, a fortement dégradé les performances du composant de stockage sur le site CRBV. Cela a provoqué de forts ralentissements sur l'ensemble des applications, allant jusqu'à l'indisponibilité complète. L'incident a été résolu par l'arrêt forcé de la réplication via la suppression du volume répliqué.

Impact

Forts ralentissements sur toutes les applications hébergées sur CRBV, avec des périodes d'indisponibilité totale. L'ensemble des utilisateurs du site ont été impactés pendant environ 2h10 (de 14h52 à 17h05).

Chronologie

14h52

Remontées d'alertes de supervision : temps de réponse élevés et dégradation des performances des composants de base de données

14h53

Ouverture d'une cellule de crise

14h59

Envoi d'une communication aux clients annonçant des perturbations en cours

15h00

Identification du composant en défaut : le système d'accès au stockage. Le stockage est disponible mais les performances d'accès sont très dégradées

15h00

Analyse du change management du composant — piste d'un défaut intermittent sur un port d'attachement du stockage

15h30

Communication aux clients : prolongation des perturbations d'au moins 45 minutes supplémentaires

15h30

Ouverture d'un incident priorité maximale auprès du fournisseur du composant et déclenchement de la procédure d'escalade

16h00

Le support fournisseur oriente vers un problème sur un port d'attachement

16h00

Identification en parallèle d'une réplication de volume en cours (lancée par un prestataire), non référencée dans le change management

16h00

Lancement des actions d'annulation de la réplication

16h30

La procédure d'arrêt de la réplication n'aboutit pas — lancement de la suppression du volume répliqué pour interrompre mécaniquement la réplication

16h30

Le composant de stockage retrouve ses performances nominales — retour progressif du service

17h05

Fin de l'incident

Récurrence

Incident récurrent : un incident similaire avec la même cause a déjà eu lieu le 05/11/2025 (voir rapport d'incident SoftwayMedical du 05-11-2025).

Détection

Détection automatique par la supervision, avec passage en cellule de crise 1 minute après le début de l'événement (14h52 → 14h53).

Root Cause Analysis

Causes immédiates : Forte diminution des performances d'accès au composant de stockage, causée par une opération de réplication de volume en cours consommant massivement les ressources d'I/O.

Causes racines : 1. Opération de réplication de volume vers une salle distante lancée par un prestataire sans être déclarée ni recensée dans le change management SWM. 2. Instabilité d'un port d'attachement du composant de stockage. 3. Interrogations sur le débit disponible de la solution de réplication.

Faits aggravants : 1. Un port d'attachement du stockage en défaut intermittent, aggravant la dégradation des performances. 2. Non-respect des décisions prises par la cellule de crise (les opérations de rééquilibrage n'ont pas été annulées immédiatement), ce qui a fait traîner l'incident jusqu'à ~15h45. 3. Incompréhension des éléments écrits lors de la crise : l'équipe a cru que la réplication était stoppée alors qu'

Résolution

Arrêt de la réplication de volume en cours : la procédure d'annulation directe n'ayant pas abouti, la suppression du volume répliqué a été lancée, interrompant mécaniquement la réplication. Le composant de stockage a retrouvé ses performances nominales, permettant le retour progressif du service.

Apprentissage

Ce qui s'est bien passé : La détection a été très rapide : 1 minute entre le début de l'événement et l'ouverture de la cellule de crise, grâce à la supervision en place.

Ce qui s'est mal passé : 1. Le change management avec le prestataire est défaillant : une opération de réplication impactante a été lancée sans être déclarée à SWM. 2. Les décisions prises en cellule de crise n'ont pas été respectées (annulation des opérations de rééquilibrage). 3. La communication interne pendant la crise a manqué de clarté, entraînant des erreurs d'interprétation sur l'état réel des actions en cours.

Chanceux : La réplication en cours a été identifiée quasi par hasard, sans processus formel l'ayant permis. Sans cette découverte fortuite, l'incident aurait pu durer beaucoup plus longtemps.

Communication interne
Incident CRBV – Dégradation performances stockage – 17h05 résolu Contexte : Aujourd'hui entre 14h52 et 17h05, nous avons subi une dégradation sévère des performances du SAN sur CRBV, ayant engendré des ralentissements majeurs voire une indisponibilité de toutes les applications hébergées. Cause réelle : Une opération de réplication de volume vers une salle distante avait été lancée par l'un de nos prestataires sans déclaration de change. Cette réplication n'est pas apparue lors de notre revue du change management au début de la cellule de crise. Elle a saturé les ressources d'accès au stockage. En parallèle, un port d'attachement du SAN présentait un défaut intermittent, aggravant la situation. Facteurs qui ont allongé l'incident : - Les opérations de rééquilibrage n'ont pas été annulée

Communication client
Un incident lié à notre infrastructure de stockage a affecté l'accès à votre application CRBV, pouvant entraîner des difficultés de connexion ou d'utilisation du service. Nos équipes techniques ont rapidement identifié l'origine du problème et mis en œuvre les actions correctives nécessaires. Le service a été intégralement rétabli à 17h05. Nous nous excusons pour la gêne occasionnée et restons disponibles si vous constatez la moindre anomalie persistante.

Clients impactés
44 clients CRBV + OMSAAS · OMSAAS3 · OMPILOTE

Actions — 10 total · ✓ 1 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Intervention physique sur le port défectueux	Philippe REBOUL	—	—	Medium	Planned	—
Désactivation du port defecteux	Wahid MESLEM, Philippe REBOUL,	—	—	Medium	Done	—
Montée en compétence du pôle et des administrateurs sur le stockage via une form	Wahid MESLEM, Philippe REBOUL,	—	—	Medium	Draft	—
Revue des processus de gestion des changements (change management) avec le prest	Christophe ALVARO	—	—	High	Assigned	10/04/2026
Solliciter IBM pour obtenir les bonnes pratiques de supervision des infrastructu	Wahid MESLEM, Philippe REBOUL,	—	—	High	Draft	—
Lancement d’un audit du stockage par un auditeur indépendant	Wahid MESLEM, Philippe REBOUL,	—	—	Medium	Draft	—
Lancement d’un audit du stockage par IBM	Wahid MESLEM, Philippe REBOUL,	—	—	Medium	Draft	—
Étude pour augmenter la résilience du stockage	Wahid MESLEM, Philippe REBOUL,	—	—	Medium	Draft	—
Mise en place d’une supervision du taux d’erreur des ports	Wahid MESLEM, Philippe REBOUL,	—	—	High	Draft	—
Ajout d’attachements dédiés à la réplication	Wahid MESLEM, Philippe REBOUL,	—	—	Medium	Draft	—

Sévérité	SEV-1 · 3h00
Date	02/03/2026
Infra impactée	Infrastructure
Fonctionnalité	—
Thème	—
Détection	—
Clients / CML	—
Nb sites impactés	—

📎 Post Mortem

Résumé

Les licences Citrix NetScaler ont expiré suite à l'atteinte du délai de grâce de 30 jours, causée par des règles de pare-feu manquantes empêchant les NetScalers d'interroger le serveur de licences migré dans le cloud en février. L'incident a impacté successivement deux serveurs Citrix (p01ctx/STDN puis p02ctx/CRBV), rendant toute nouvelle connexion Citrix impossible pendant plusieurs heures. Un client disposant de son propre FQDN (centre-medical-ramsaysante.fr) a également subi une indisponibilité dont la cause reste inexpliquée.

Impact

Impossibilité d'établir de nouvelles connexions Citrix sur p01ctx (STDN) entre 11h00 et 12h30, puis sur p02ctx (CRBV) entre ~13h00 et 15h00. Indisponibilité du service pour le client centre-medical-ramsaysante.fr entre 14h00 et 16h00 (cause non élucidée). Les utilisateurs déjà connectés n'ont pas été affectés ; seules les nouvelles connexions étaient bloquées.

Chronologie

11h00

Impossibilité de nouvelles connexions Citrix sur p01ctx (STDN) — détectée par monitoring

12h30

Rétablissement du service sur p01ctx (STDN) après correction des règles de pare-feu et reboot

13h00

Impossibilité de nouvelles connexions Citrix sur p02ctx (CRBV) — détectée par signalement client

14h00

Début d'indisponibilité pour le client centre-medical-ramsaysante.fr (cause inconnue)

15h00

Rétablissement du service sur p02ctx (CRBV)

16h00

Fin d'indisponibilité pour le client centre-medical-ramsaysante.fr

Détection

Détection par le monitoring sur STDN. Détection par signalement client sur CRBV.

Root Cause Analysis

Causes immédiates : La licence Citrix NetScaler a expiré car le délai de grâce de 30 jours sans connexion au serveur de licences dans le cloud a été atteint.

Causes racines : Les règles de pare-feu permettant aux NetScalers d'interroger le serveur de licences Citrix, migré dans le cloud en février, ont disparu suite à cette migration. Sans accès au serveur de licences, le délai de grâce de 30 jours s'est écoulé jusqu'à expiration.

Résolution

Correction des règles de pare-feu pour rétablir la communication entre les NetScalers et le serveur de licences Citrix cloud. Reboot obligatoire des équipements pour prise en compte des nouvelles licences.

Apprentissage

Ce qui s'est mal passé : Aucun incident majeur n'a été déclenché, l'incident n'a donc été suivi que par les équipes techniques sans coordination élargie. Après la correction sur STDN, aucune vérification n'a été effectuée sur CRBV, entraînant un second incident identique quelques heures plus tard.

Chanceux : L'expiration des licences est survenue à un moment de la journée où la majorité des utilisateurs étaient déjà connectés, limitant ainsi le nombre de personnes effectivement bloquées.

Communication interne
Incident Citrix – Expiration de licences NetScaler (p01ctx/STDN et p02ctx/CRBV) Deux vagues d'indisponibilité ont impacté les nouvelles connexions Citrix aujourd'hui : - p01ctx (STDN) : 11h00 – 12h30 - p02ctx (CRBV) : ~13h00 – 15h00 Cause racine : lors de la migration du serveur de licences Citrix vers le cloud en février, les règles de pare-feu autorisant les NetScalers à joindre ce serveur ont disparu. Au bout de 30 jours sans contact avec le serveur de licences (délai de grâce NetScaler), les licences sont passées en état expiré, bloquant toute nouvelle session. Correction appliquée : remise en place des règles de pare-feu + reboot des NetScalers pour rechargement des licences. À noter : après résolution sur STDN, aucune vérification n'a été faite sur CRBV — ce qui a conduit à un sec

Communication client
Madame, Monsieur, Nous vous informons qu'une perturbation a affecté l'accès à votre environnement de travail à distance ce jour. Les utilisateurs tentant d'ouvrir une nouvelle session ont pu rencontrer une impossibilité de connexion durant les plages horaires suivantes : entre 11h00 et 12h30, puis entre 13h00 et 15h00. Nos équipes ont identifié et résolu la cause de cet incident dans les meilleurs délais. Des mesures correctives ont été appliquées et le service a été pleinement rétabli. Nous avons également identifié les facteurs à l'origine de cette situation afin de mettre en place les dispositions nécessaires pour éviter qu'un incident similaire ne se reproduise. Nous vous présentons toutes nos excuses pour la gêne occasionnée et restons à votre disposition pour toute question. Cor

Actions — 4 total · ✓ 2 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Suite a migration licence LAS - Mettre la supervision adapté	Benoit SAMSON	—	—	Medium	Draft	—
capitaliser sur cet événement pour les prochains renouvellements de serveur de l	Philippe REBOUL, Julien BEAU,	—	—	Medium	Not Retained	—
Vérifier la supervision de l’expiration de la licence	Philippe REBOUL, Benoit SAMSON	—	—	Medium	Not Retained	—
Vérifier que toutes les machines citrix qui utilisent le serveur de licence on b	Benoit SAMSON, Julien BEAU, Ph	—	—	Medium	Draft	—