Synthèse PM — Avril 2026

Avril 2026Synthèse Post Mortem validés

Sévérité	SEV-1 · 3h54
Date	30/04/2026
Infra impactée	—
Fonctionnalité	—
Thème	—
Détection	—
Clients / CML	—
Nb sites impactés	—

📎 Post Mortem

Résumé

La désactivation d'une règle de pare-feu suite à une demande d'Epiconcept (ticket 3578637) a provoqué un effet de bord non anticipé. Les infrastructures Epiconcept ont perdu l'accès au serveur DNS 10.49.180.65, rendant les applications indisponibles. La règle désactivée couvrait des flux nécessaires au fonctionnement des services, sans que cela ait été vérifié au préalable.

Impact

Les infrastructures Epiconcept ne pouvaient plus joindre le DNS 10.49.180.65, entraînant une indisponibilité applicative pour les utilisateurs concernés. L'incident a duré plusieurs heures entre la suppression de la règle (08h20) et sa détection via remontée client (12h14).

Chronologie

23/04

Ouverture du ticket 3578637 par Epiconcept

24/04 08h20

Suppression des règles de pare-feu par Hugo, indication dans le ticket

24/04 12h14

Remontée de Fabrice dans le ticket indiquant que le flux DNS ne fonctionne plus

—

Réactivation de la règle de flux — service rétabli

Récurrence

Aucune

Détection

Détection par remontée utilisateur final vers Fabrice, qui a signalé le dysfonctionnement dans le ticket 3578637 et via Teams.

Root Cause Analysis

Causes immédiates : La règle de pare-feu désactivée à la demande d'Epiconcept incluait des flux DNS nécessaires au fonctionnement des services. Aucune vérification de l'usage effectif de cette règle n'a été réalisée avant sa désactivation.

Causes racines : Les règles de flux appliquées sur les pare-feux ne correspondent pas exactement à la matrice de flux. Des règles ont été modifiées sans mise à jour correspondante de la matrice de flux, rendant impossible une analyse fiable de l'impact d'une modification.

Résolution

Réactivation de la règle de flux désactivée, rétablissant l'accès au DNS 10.49.180.65 et le fonctionnement des applications Epiconcept.

Apprentissage

Ce qui s'est mal passé : La détection de l'incident s'est faite uniquement par remontée utilisateur, sans aucune alerte de monitoring automatique. Aucune vérification de l'impact de la désactivation de la règle n'a été effectuée avant l'opération.

Communication interne
Incident réseau/firewall du 24/04 — Epiconcept / DNS 10.49.180.65 Suite au ticket 3578637 ouvert par Epiconcept, Hugo a procédé le 24/04 à 08h20 à la désactivation de règles de pare-feu conformément à la demande. La règle supprimée couvrait également des flux DNS vers 10.49.180.65 qui n'étaient pas documentés comme tels dans la matrice de flux. Résultat : les infras Epiconcept ont perdu la résolution DNS, rendant les applications KO. L'incident n'a pas été détecté par le monitoring mais par remontée utilisateur via Fabrice à 12h14, soit environ 4 heures après l'opération. Correction appliquée : réactivation de la règle de flux. Problème de fond identifié : la matrice de flux n'est pas à jour et ne reflète pas fidèlement les règles réellement en place sur les firewalls. Toute modificati

Communication client
Objet : Incident du 24 avril — Indisponibilité de vos services applicatifs Nous vous contactons concernant l'indisponibilité de vos applications survenue le 24 avril dans la matinée. Suite à une intervention technique réalisée dans le cadre de votre demande, une dépendance non documentée a entraîné une interruption de service non prévue. Vos applications ont été inaccessibles pendant plusieurs heures, jusqu'à la détection du problème et sa correction. Nous avons immédiatement procédé au rétablissement du service dès identification de la cause. Nous reconnaissons que la vérification préalable à l'intervention aurait dû être plus rigoureuse, et nous nous en excusons. Afin d'éviter toute récurrence, nous renforçons nos procédures de contrôle avant toute modification de configuration résea

Actions — 4 total · ✓ 0 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Superviser les “applications” EpiConcept	Marc MOREL	—	prevent	Projet	Draft	—
Ecrire une procedure de creation/modification et suppression de regles.	Guillaume GOUPIL	—	process	Medium	Draft	—
Renforcer le processus de changement des règles de flux	Guillaume GOUPIL	—	process	Medium	In progress	—
Faire une revue des règles de flux par rapport à la matrice de flux	fabien GASPARI	—	prevent	Medium	In progress	07/05/2026

Sévérité	SEV-3 · 1h44
Date	28/04/2026
Infra impactée	Infrastructure
Fonctionnalité	—
Thème	—
Détection	—
Clients / CML	OMSAAS2
Nb sites impactés	58

📎 Post Mortem

Résumé

Dysfonctionnement aléatoire du port 5 du switch SAN stdn-b48f-01 (fabric prod_fabric1) dû à une défaillance du laser TX du SFP. Ce port assurait un lien ISL vers le switch stdn-b48f-05, provoquant des perturbations intermittentes sur plusieurs machines de base de données Oracle et quelques ESX. L'incident a été résolu par la désactivation du port fautif et un remplacement du SFP est en cours via Dell.

Impact

Perturbations intermittentes sur 9 serveurs de base de données Oracle (P07HM, P11HM, P13HM, P01AM, P05OM, P15HM, P01GX, P21HM, P01TM) ainsi que sur plusieurs ESX et leurs VM associées. Conséquences côté applicatif : lenteurs sur les applications hébergées (Galaxie, One, HM notamment), possibles déconnexions Galaxie, et afflux d'appels vers le support.

Chronologie

10h10

Alertes de supervision : montée de sessions Oracle et ralentissements webtests HM → ouverture de la cellule de crise infra

10h12

Identification de 2 changements potentiellement liés → fausse piste (changements déclarés dans Teams mais non appliqués). Vérification des actions du prestataire stockage Hardys (lamweb)

10h17

Piste stockage confirmée : logs Oracle indiquent des temps d'écriture très dégradés et aléatoires, uniquement sur les machines identifiées

10h21

Ouverture du canal Teams commun. Confirmation : aucune action Hardys en cours

10h40

Recherches vSphere : message "perte de redondance de l'accès au stockage" identifié

10h46

Ouverture d'un ticket IBM. Décision des équipes support Galaxie, One, HM : pas de communication client jugée nécessaire à ce stade

11h10

Port 5 du switch euw1fr01-swfc01 identifié comme fautif. Le port apparaît online/offline de façon aléatoire selon le rafraîchissement de l'interface de management

11h28

Afflux d'appels vers le support → décision de communiquer aux clients

11h45

Désactivation du port 5 (port trunk) → stabilisation du fabric et résolution de l'incident

Récurrence

Très faible a priori, mais des occurrences précédentes n'ont peut-être pas pu être identifiées faute d'alerting adapté. Un dysfonctionnement physique similaire (côté carte serveur Oracle, non switch) avait déjà été constaté en 2025.

Détection

Alertes de supervision automatique sur montées de sessions Oracle et ralentissements détectés sur les webtests HM.

Root Cause Analysis

Causes immédiates : Perte du lien ISL sur le port 5 entre les switches stdn-b48f-01 et stdn-b48f-05 (fabric prod_fabric1), provoquant des perturbations intermittentes sur le stockage SAN.

Causes racines : Défaillance unilatérale du laser TX du SFP (PN 57-1000485-01) sur le port 5 de stdn-b48f-01 (S/N BRCFME1903U07D, ~5 ans de fonctionnement). La puissance TX tombe à 0 µW (-99,99 dBm) alors que la RX reste correcte à -8,9 dBm. Le switch distant stdn-b48f-05 remontait 35 800 erreurs FEC et plusieurs pertes de signal. Au total : plus de 7 millions d'erreurs FEC non corrigées et 245 000 BB_Credit zeros constatés.

Faits aggravants : Absence d'alerting hardware dédié sur les équipements SAN (switches Brocade, métriques SFP). L'outil de supervision hardware xormon récemment mis en place n'est accessible qu'au compte 'admin', limitant la visibilité des équipes. Support Brocade mal défini (processus d'escalade flou). Seul un compte nominatif (Benoit) permettait d'ouvrir un ticket IBM, bloquant les administrateurs standards (ex. J

Résolution

Désactivation du port 5 du switch stdn-b48f-01 en CLI pour stabiliser le fabric prod_fabric1. Case Dell ouverte (SR # 225743679), logs supportshow fournis. Dell a confirmé la défaillance du SFP et créé le Work Order # 466424924 pour expédition du SFP de remplacement (PN 100-652-959) vers le datacenter.

Apprentissage

Ce qui s'est mal passé : Manque d'expertise et de maîtrise technique sur les switches Brocade SAN. Processus de support Brocade non clarifié (interlocuteurs, modalités de contact). Accès IBM pour ouverture de tickets restreint à un seul collaborateur (Benoit) — les comptes admins standards (JBeau) ne le permettent pas. Accès aux données xormon limité au compte 'admin' uniquement. Gestion de la cellule de communication de

Chanceux : Le fabric SAN disposait d'une redondance (lien ISL), ce qui a limité l'impact à des perturbations intermittentes plutôt qu'une coupure totale. L'incident ne s'est pas produit sur l'ensemble du fabric ni sur la baie de stockage elle-même, évitant une indisponibilité généralisée.

Communication interne
**[COMM INTERNE SWM — Incident SAN stdn — Dysfonctionnement port switch Brocade]** Ce matin, à partir de 10h10, nos outils de supervision ont détecté des montées anormales de sessions Oracle et des ralentissements sur les webtests HM. Après ouverture de la cellule de crise infra, nous avons rapidement orienté les investigations vers le stockage SAN stdn. Les logs Oracle confirmaient des temps d'écriture très dégradés et aléatoires sur 9 serveurs DB (P07HM, P11HM, P13HM, P01AM, P05OM, P15HM, P01GX, P21HM, P01TM) ainsi que sur plusieurs ESX. vSphere remontait des messages de "perte de redondance de l'accès au stockage". **Cause racine identifiée :** défaillance du laser TX du SFP (PN 57-1000485-01) sur le port 5 du switch stdn-b48f-01 (S/N BRCFME1903U07D, ~5 ans). La puissance TX était to

Communication client
Des perturbations sur un composant physique redondé d'accès au stockage ont été constatées sur le datacenter STDN entre 10h05 et 12h05 le 28 avril 2026. Ces perturbations ont pu générer des ralentissements ou des interruptions d'accès aux applications hébergées. Le problème a été identifié et résolu à 12h05. Des opérations de remplacement préventif sont planifiées.

Clients impactés
P07HM, P11HM, P13HM, P01AM, P05OM, P15HM, P01GX, P21HM — ainsi que clients HM (dont Cognacq Jay 2423, Dunkerque, FILIERIS 2722) et clients OM (SAAS2/3/4/7), XTS (Ramsay)

Actions — 4 total · ✓ 1 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Accès à xormon pour les comptes ldap infra	Wahid MESLEM	—	—	Medium	In progress	—
Comptes support ibm (et autres) pour l’ensemble du pôle	Wahid MESLEM	—	—	High	In progress	—
Mise en prod de la supervision Xormon dans zabbix	Wahid MESLEM	—	—	Medium	In progress	—
Remplacement du SFP	Wahid MESLEM	—	—	Urgent	Done	07/05/2026

Sévérité	SEV-2 · 7h00
Date	22/04/2026
Infra impactée	OnlyOffice
Fonctionnalité	—
Thème	Indisponibilité
Détection	—
Clients / CML	OMSAAS3, OMSAAS, OMPILOTE, OMSAAS4, C1265000, C1112000, C1226000, C0000589, C1155000, C0001286, C1508000, C0000651, C1490000, C1518000, OMSAAS7, C0763002, C1132000, OMSAASDOM, C077100, C1343000, C1529000
Nb sites impactés	98

📎 Post Mortem

Résumé

Suite à des modifications en production le 21/04 au soir (nouveau cron, volume de stockage, montage sur pods OnlyOffice), des dysfonctionnements sont apparus le 22/04 matin : documents vides après validation et chargements aléatoires. La résolution est intervenue en milieu d'après-midi après réduction de RabbitMQ et Redis de 2 pods à 1.

Impact

Impact métier important : des comptes rendus validés sont redevenus vides, des accès aux documents OnlyOffice étaient intermittents ou en échec. Comportement aléatoire (fonctionnement normal puis dégradé) ayant généré une perte de confiance sur les documents et un blocage partiel de l'activité pour plusieurs structures clientes.

Chronologie

21/04 21h00

Mise en place du cron, nouveau volume de stockage et montage sur les pods OnlyOffice

21/04 21h30

Fin des opérations de mise en production

22/04 08h32

Premiers retours clients : documents vides et accès OnlyOffice KO

22/04 09h00

Pause du cron — aucun effet constaté

22/04 09h30

Rollback du volume /data — apparition d'erreurs 504 côté converter

22/04 ~10h00

Tentative de rollout converter — problème de scaling : dossier /data trop volumineux, 5 pods sur 6 montés seulement

22/04 ~10h30

Redémarrage RabbitMQ et Redis — sans amélioration

22/04 12h00

Retours clients indiquant des comportements toujours aléatoires

22/04 12h40

Communication aux clients : interruption et redémarrage global planifiés

22/04 après-midi

Multiples tentatives (reset infra, DB, pods) sans succès

22/04 milieu d'après

Passage RabbitMQ / Redis / StatsD de 2 pods à 1 pod — amélioration immédiate, disparition des erreurs

22/04 16h00

Communication de résolution envoyée aux clients

Détection

Incident remonté par les utilisateurs (clients finaux et praticiens). Aucune alerte monitoring n'a permis une détection proactive. Les erreurs 504 côté converter ont été identifiées a posteriori via les logs lors des investigations techniques.

Root Cause Analysis

Causes immédiates : Dysfonctionnement dans la gestion des composants RabbitMQ et Redis en configuration multi-pods (2 pods chacun), entraînant des comportements instables et des erreurs de traitement côté OnlyOffice (converter/docservice). Le redémarrage des pods OnlyOffice lors du rollback semble avoir réveillé les 2 instances de RabbitMQ et Redis dans un état incohérent.

Faits aggravants : Absence de monitoring fonctionnel permettant de détecter rapidement les anomalies côté utilisateurs. Comportement intermittent et aléatoire rendant le diagnostic particulièrement difficile. Intégration Claude Code / Grafana / Graylog non encore disponible au moment de l'incident (demande de tokens en cours auprès de Nicolas Hermitte et Patrice Perronnet). Dossier /data trop volumineux ayant empêch

Résolution

Réduction du nombre de pods RabbitMQ, Redis et StatsD de 2 à 1 (simplification de l'architecture). Redémarrage complet de l'ensemble des pods dans un ordre contrôlé. Nettoyage des tables doc_changes et task_result en base. Retour sur un volume propre. Stabilisation immédiate observée après ces actions.

Apprentissage

Chanceux : La possibilité de basculer vers Word à la place de OnlyOffice existait en tant que solution de contournement. Cette bascule aurait dû être activée dès le matin pour limiter l'impact client, et non à 12h00.

Communication interne
**[INCIDENT ONLYOFFICE – 22/04 – POST MORTEM INTERNE]** Suite aux changements mis en prod le 21/04 en soirée (nouveau cron, création d'un volume de stockage et montage sur les pods OnlyOffice), des dysfonctionnements majeurs sont apparus le 22/04 dès 08h32 : documents vides après validation et chargements aléatoires côté docservice/converter. La cause immédiate identifiée est un comportement instable des composants RabbitMQ et Redis en configuration 2 pods. Le rollback du volume /data effectué à 09h30 a généré des erreurs 504 sur le converter et semble avoir réveillé les deux instances RabbitMQ/Redis dans un état incohérent. Le scaling du converter a également été partiellement bloqué par un dossier /data trop volumineux (5/6 pods seulement montés). Malgré plusieurs tentatives (pause cr

Communication client
Le 22 avril 2026, des perturbations ont affecté l'accès à l'éditeur de compte-rendu intégré (OnlyOffice) dès 08h32, suite à une intervention de maintenance réalisée la veille. Des difficultés de chargement et des pertes de contenu ont été signalées par certains utilisateurs. Nos équipes ont travaillé toute la journée pour identifier et corriger la cause. Le service a été rétabli avec une amélioration des performances à partir de 13h20, et la résolution a été confirmée le 23 avril au matin.

Clients impactés
Clients HM et OM utilisant OnlyOffice (portail radiologue V2) : CSE, IMEV, CIMRAD, radiologies SAAS1/2/3/7, groupe AIM Nantes, GOVI — périmètre large

Actions — 8 total · ✓ 2 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Mettre en place du blue green	William ROSSIER, Rami SELLAMI,	—	—	High	Draft	—
Analyser comment rollback de OnlyOffice vers Word	William ROSSIER, Rami SELLAMI,	—	—	Medium	Draft	—
Remettre les logs dans Graylog	William ROSSIER, Rami SELLAMI,	—	—	Medium	Done	—
Regarder nos DOM-TOM et leurs horaires de travail par rapport à la France lors d	William ROSSIER, Rami SELLAMI,	—	—	Medium	Draft	—
Avoir un binome Infra / Dev suite à des MEP micro service	William ROSSIER, Rami SELLAMI,	—	—	Medium	Done	—
Amélioration du monitoring fonctionnel / technique (détection de documents vides	William ROSSIER, Rami SELLAMI,	—	—	Medium	Draft	—
Analyser l’impact du cron et valider son comportement avant remise en production	William ROSSIER, Rami SELLAMI,	—	—	High	Draft	—
Revoir l’architecture RabbitMQ et Redis pour supporter du multi-pods (cluster, p	William ROSSIER, Rami SELLAMI,	—	—	High	Draft	—

Sévérité	SEV-2 [M] · 10h00
Date	08/04/2026
Infra impactée	Infrastructure
Fonctionnalité	—
Thème	Indisponibilité
Détection	—
Clients / CML	—
Nb sites impactés	—

📎 Post Mortem

Résumé

Le 07/04, lors du renouvellement des certificats TLS swmcloud.net, le redémarrage du cluster Elasticsearch 'Alicante' a entraîné la prise en compte d'un fichier de configuration incorrect, empêchant l'accès aux index clients. Le cluster apparaissait pourtant en état 'green' dans la supervision, masquant le problème. L'incident a provoqué une indisponibilité complète de Dimbox pendant près de 24 heures.

Impact

Dimbox indisponible du mardi 07/04 à 19h35 au mercredi 08/04 à 19h07, soit environ 23h30 d'interruption. Une petite dizaine de clients en production impactés. Périmètre fonctionnel limité car produit récent avec peu de clients en prod.

Chronologie

16h00

Diffusion des nouveaux certificats TLS swmcloud.net sur l'ensemble du parc BDD (07/04)

—

Redémarrage rolling des clusters MongoDB et Elasticsearch lancé via Rundeck après test manuel sur 1 cluster de chaque type (07/04)

—

Échec du redémarrage du service Elasticsearch sur le nœud 3 du cluster 'Alicante' (erreur de ressources système) — redémarrage de la VM décidé (07/04)

—

Correction de la configuration système sur nœud 3, puis actions identiques sur nœuds 2 et 1 — cluster en état 'green', aucune alerte supervision (07/04)

19h35

Indisponibilité Dimbox constatée (07/04)

—

Détection de l'incident par les équipes fonctionnelles (08/04)

—

Déclaration à un admin unique plutôt qu'au support — déclenchement tardif de la cellule de crise

—

Mauvais diagnostic sur le port de connexion entraînant des reparamétrages et redémarrages inutiles (~1h perdue)

—

Identification de la cause racine : mauvais fichier de configuration Puppet pointant vers le mauvais répertoire DATA

—

Modification de la configuration Puppet pour pointer vers le bon répertoire DATA contenant les index clients

19h07

Service Dimbox rétabli (08/04)

Détection

Détection par les équipes fonctionnelles. Aucune alerte supervision n'a remonté malgré l'indisponibilité du service, le cluster Elasticsearch apparaissant en état 'green'.

Root Cause Analysis

Causes immédiates : Suite au redémarrage du cluster Elasticsearch 'Alicante' pour prise en compte des nouveaux certificats TLS, le service a chargé un fichier de configuration incorrect (paramétrage standard Softway) qui pointait vers un mauvais répertoire DATA. Les index clients n'étaient donc plus accessibles, bien que le cluster soit vu comme opérationnel.

Causes racines : Installation non-conforme du cluster Elasticsearch : deux fichiers de configuration coexistaient avec des paramétrages différents, et le fichier chargé par le service système pointait vers le mauvais répertoire DATA. Des index étaient présents dans ce 'mauvais' répertoire, rendant la détection plus difficile. La configuration système n'était pas alignée avec la configuration Elasticsearch. L'interface Kibana était déployée directement sur le serveur, accessible par un prestataire externe sans authentification (non conforme aux pratiques de sécurité, non documenté) et ne redémarrait pas automat

Faits aggravants : Absence de supervision du service Dimbox — aucune détection automatique de l'indisponibilité. Absence de détection du problème au niveau base de données. Mauvais diagnostic initial sur le port de connexion et la configuration sécurisée, entraînant des reparamétrages et redémarrages inutiles (~1h perdue). Temps de redémarrage de l'application extrêmement long pour un déploiement en containers. Décl

Résolution

Identification du mauvais fichier de configuration Puppet utilisé par le service Elasticsearch. Modification de la configuration Puppet pour pointer vers le répertoire DATA contenant les index clients corrects. Réactivation de Puppet et redémarrage du service validés avec succès. Service Dimbox rétabli à 19h07 le 08/04.

Apprentissage

Ce qui s'est bien passé : Disponibilité et réactivité de la squad (C. Arizzi et F. Petit) et du prestataire (Julien T.) pour traiter l'incident.

Ce qui s'est mal passé : Détection de l'incident non assurée par la supervision — remontée uniquement par les équipes fonctionnelles. Déclaration faite à un admin unique plutôt qu'au support. Déclenchement trop tardif de la cellule de crise alors que tous les clients étaient impactés. Mauvais diagnostic initial sur le port de connexion ayant ralenti le rétablissement et faussé l'analyse pendant environ 1 heure.

Chanceux : Disponibilité du prestataire externe (Julien T.) pour intervenir en dehors des heures ouvrées. Le fait que Dimbox soit un produit récent avec peu de clients en production a limité l'étendue de l'impact.

Communication interne
Incident Dimbox – Cluster Elasticsearch 'Alicante' – 07/04 19h35 au 08/04 19h07 Contexte : Dans le cadre du renouvellement des certificats TLS swmcloud.net (expiration le 07/04 au soir), un redémarrage rolling de l'ensemble des clusters Elasticsearch et MongoDB a été effectué pour prise en compte des nouveaux certificats. Sur le cluster 'Alicante', le nœud 3 a présenté une erreur de ressources système au démarrage du service Elastic, nécessitant un redémarrage complet de la VM (uptime > 1000 jours) et une correction de la configuration système. L'opération a été appliquée sur les 3 nœuds. À l'issue, le cluster affichait un état 'green' sans aucune alerte de supervision. Cause réelle : Le cluster 'Alicante' présentait deux fichiers de configuration Elasticsearch avec des paramétrages diff

Communication client
Une indisponibilité du service a été détectée sur votre infrastructure, rendant temporairement inaccessibles certaines fonctionnalités de votre environnement Alicante. Nos équipes techniques ont été immédiatement mobilisées afin d'identifier et de traiter l'origine du problème. L'incident a été résolu à 17h01 et l'ensemble des services ont été rétablis dans leur intégralité. Nous vous prions de nous excuser pour la gêne occasionnée et restons disponibles si vous constatez la moindre anomalie persistante.

Clients impactés
Tous clients infrastructure Alicante

Actions — 3 total · ✓ 0 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Supervision de l’état de l’application	Cyril DIOLI	—	—	Medium	Assigned	—
Amélioration des logs de connexion à elastic	Philippe BERNE	—	—	Medium	Draft	—
Migration cluster Alicante Elastic v8	Philippe BERNE	—	process	Medium	Draft	—

Sévérité	SEV-2 [M] · 432h00
Date	06/04/2026
Infra impactée	Tomcat
Fonctionnalité	—
Thème	Socle Technique
Détection	—
Clients / CML	—
Nb sites impactés	—

📎 Post Mortem

Résumé

Lors de la migration du socle technique Tomcat 6 vers Tomcat 9 sur les sites RAMSAY, des dysfonctionnements applicatifs multiples ont été constatés progressivement sur l'ensemble des sites migrés. Les écarts de configuration entre les deux versions de Tomcat ont provoqué des comportements incompatibles impactant plusieurs fonctionnalités critiques de l'application.

Impact

Les clients RAMSAY ayant migré vers Tomcat 9 ont rencontré des dysfonctionnements sur : l'accès et la récupération de traitements antérieurs, des erreurs lors des imports HM, des difficultés sur la composition et génération de documents Word, des anomalies sur les chaînes de traitement (cueillette) et sur la saisie de masse.

Chronologie

17/06/2024

Déploiement OMPILOTE

01/07/2024

Déploiement des premiers clients Tomcat 9

03/02/2025

Migration Tomcat 6 → Tomcat 9 chez RAMSAY MCO (infrastructures locales)

31/03/2025

Première remontée d'erreur client

31/03/2025

Cellule de crise déclenchée

16/04/2025

Merge code Puppet

21/04/2025

Désactivation de S1

23/04/2025

Tests en déplaçant Tomcat sur l'ancien VLAN

24/04/2025

Tests concluants

Récurrence

Le problème s'est étendu progressivement à tous les sites RAMSAY migrés vers Tomcat 9.

Détection

L'incident a été détecté suite à un signalement client au support.

Root Cause Analysis

Causes immédiates : Migration vers une nouvelle infrastructure Tomcat 9 avec des écarts de configuration non anticipés par rapport à Tomcat 6 : valeurs par défaut plus restrictives sur Tomcat 9 provoquant des rejets d'appels à fort volume de paramètres, différences de comportement de compilation nécessitant un ajustement JVM, paramètres manquants pour assouplir certaines vérifications, divergences de configuration entre Tomcat 9 et Tomcat 6 empêchant certaines actions applicatives d'aboutir.

Causes racines : Problèmes de configuration Tomcat non identifiés lors de la phase de préparation de la migration, conduisant à des comportements plus stricts et non compatibles avec l'application existante.

Faits aggravants : Absence de site pilote établissement avant déploiement élargi. Couverture de tests insuffisante et jeux de données de validation inadaptés. Migration Oracle concomitante ayant potentiellement brouillé les pistes d'analyse. Méconnaissance des changements opérés par le client dans son infrastructure (VLAN, EDR, migrations Oracle ponctuelles). Sites On-Premise non télé-exploités, rendant les investig

Résolution

Des corrections de configuration Tomcat 9 ont été préparées et appliquées. Des tests de validation incluant des tests réseau et VLAN ont été réalisés et se sont avérés concluants le 24/04. Une liste d'actions de suivi est en cours de pilotage pour sécuriser la migration sur l'ensemble des sites restants.

Apprentissage

Ce qui s'est bien passé : Bonne mobilisation des équipes Infra, Mindcraft et Support face à l'incident.

Ce qui s'est mal passé : Méconnaissance de l'infrastructure client (sites On-Premise non télé-exploités). Latence importante pour localiser et comprendre l'origine des problèmes. Absence de visibilité sur les changements d'infrastructure côté client (VLAN, EDR, Oracle).

Communication interne
Équipes SWM, Suite à la migration Tomcat 6 → Tomcat 9 sur les sites RAMSAY MCO (On-Premise), nous avons rencontré une série de dysfonctionnements applicatifs touchant plusieurs fonctionnalités : récupération de traitements antérieurs, imports HM, génération de documents Word, chaînes de cueillette et saisie de masse. La cause racine est une mauvaise maîtrise des écarts de configuration entre Tomcat 6 et Tomcat 9 : valeurs par défaut plus restrictives en T9, différences de comportement JVM/compilation, paramètres manquants pour assouplir certaines vérifications, divergences de config non documentées. Ces écarts n'ont pas été détectés en amont faute de site pilote établissement et d'une couverture de tests suffisante. Les investigations ont été rendues difficiles par le fait que les sites

Communication client
Madame, Monsieur, Nous tenons à vous informer de la situation rencontrée suite à la migration de vos environnements vers notre nouvelle version de socle applicatif. Depuis cette migration, plusieurs de vos utilisateurs ont signalé des dysfonctionnements sur certaines fonctionnalités : accès à des traitements antérieurs, imports de données, génération de documents, ainsi que des anomalies sur certaines chaînes de traitement. Nous en sommes pleinement conscients et nous nous en excusons. Nos équipes techniques et support se sont immédiatement mobilisées dès la remontée de ces incidents. Après analyse approfondie, nous avons identifié et corrigé les causes de ces dysfonctionnements. Des tests de validation ont été conduits avec succès et confirment le retour à un fonctionnement normal. No

Actions — 7 total · ✓ 1 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Blue/Green sur ce type de changement.	Patrice PERRONNET	—	—	Projet	Draft	—
Definition claire des sites pilote	—	—	—	Projet	Not Retained	—
Définir et Vérification de la conformité des infras.	Cyril DIOLI	—	—	Medium	Accepted	—
Mettre en place une cellule technique lors de ce type de migration	Cédric Astier	—	—	Projet	Draft	—
Réaliser systématiquement un pilote Etablissement	Ludovic LARGERON	—	—	Urgent	Draft	—
Tests T6 ET T9	Cédric MORETTI	—	—	Projet	Draft	—
Couverture de TEST	Cédric MORETTI	—	—	Projet	Draft	—

Sévérité	SEV-1 · 40 min
Date	01/04/2026
Infra impactée	—
Fonctionnalité	—
Thème	Socle Technique
Détection	—
Clients / CML	—
Nb sites impactés	—

📎 Post Mortem

Résumé

Suite à une mise à jour des Netscaler (RFC-2026-001034) le 31/03 à 21h, les certificats Citrix se sont retrouvés non pris en compte ou absents, rendant l'accès à Galaxie indisponible. L'incident a été détecté le 01/04 au matin via remontée client et résolu à 09h26 par remise en place des certificats.

Impact

Accès à Galaxie indisponible pour les clients concernés. Détection tardive via remontée client (Ramsay) sans alerte supervision. Interruption de service en début de journée du 01/04.

Chronologie

31/03 21h00

Mise à jour des Netscaler (RFC-2026-001034)

08h20

Message Teams de FSeara indiquant que Ramsay remonte à PGoncalvez l'absence d'accès à Galaxie

08h41

Lancement de la cellule de crise après tests confirmant un problème général

09h00

Diagnostic : certificats non pris en compte (crbv) ou absents (stdn)

09h26

Accès rétabli

Récurrence

Ponctuelle

Détection

Appel client vers CP / DP / responsable BU — aucune alerte supervision déclenchée.

Root Cause Analysis

Causes immédiates : Les certificats Citrix n'ont pas été pris en charge après la mise à jour des Netscaler : absents sur stdn, non reconnus sur crbv.

Causes racines : Incompatibilité entre les caractères spéciaux présents dans les certificats SWM et la nouvelle version du Netscaler. Référence Citrix : https://support.citrix.com/external/article/CTX461396/certificate-binding-lost-after-upgrade.html

Faits aggravants : La RFC prévoyait des tests post-mise à jour qui n'ont pas été réalisés ou ont été insuffisants. Le process de contact support en HNO n'est pas existant, connu ou correctement appliqué par le client. L'incident n'a pas été détecté par la supervision.

Résolution

Remise en place manuelle des certificats Citrix sur les équipements concernés (crbv et stdn).

Apprentissage

Ce qui s'est mal passé : Tests post-RFC non effectués ou insuffisants. Le client n'a pas su contacter le support en dehors des heures ouvrées (process HNO absent ou mal connu). La supervision n'a pas détecté la perte des certificats.

Chanceux : Suite à une mise à jour de sécurité effectuée le 31/03 à 21h sur le Netscaler Citrix, un dysfonctionnement imprévu a impacté le certificat HTTPS, rendant l'accès indisponible. L'incident a été identifié et corrigé le 01/04 à 09h26. Des contrôles complémentaires post-mise à jour ainsi qu'une supervis

Communication interne
Le 31/03 à 21h, la mise à jour des Netscaler (RFC-2026-001034) a provoqué une perte des bindings de certificats HTTPS sur les VIPs Citrix, en raison d'une incompatibilité documentée entre la nouvelle version du firmware Netscaler et les caractères spéciaux présents dans nos certificats (cf. CTX461396). Les certificats étaient soit absents (stdn) soit non pris en compte (crbv). L'incident n'a pas été détecté par la supervision — c'est une remontée client Ramsay via FSeara/PGoncalvez à 08h20 le 01/04 qui a déclenché l'alerte. Cellule de crise ouverte à 08h41, cause identifiée à 09h00, service rétabli à 09h26 après remise en place manuelle des certificats. Points de défaillance : absence de tests de vérification des certificats post-RFC, supervision aveugle sur ce type de rupture, et absence

Communication client
Suite à un incident survenu sur notre infrastructure d'hébergement, l'accès aux applications via le portail Citrix a été temporairement indisponible pour votre établissement. Nos équipes techniques ont rapidement identifié l'origine du problème, lié à une mise à jour de notre environnement ayant entraîné une incompatibilité sur la gestion des certificats de connexion. Les actions correctives ont été mises en œuvre et l'accès aux applications a été pleinement rétabli à 10h05. Nous nous excusons pour la gêne occasionnée et restons disponibles si vous constatez la moindre anomalie résiduelle.

Clients impactés
COSEM · CML 11103 Franconville · SELAS VISION METZ · UMFMB · quasi tous clients ctx.xtremcloud.cloud

Actions — 4 total · ✓ 0 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Renforcement des Tests	Benoit SAMSON	—	—	Medium	Draft	—
Mise en place de l’automatisation de la mise à jour des certificats	Benoit SAMSON	—	—	Medium	In progress	19/05/2026
Revue de la supervision Citrix	Benoit SAMSON	—	—	Medium	Planned	21/10/2026
Ticket citrix - certificats et caractères spéciaux / version netscaler	Benoit SAMSON	—	—	Medium	In progress	—