Synthèse PM — Janvier 2026

Janvier 2026Synthèse Post Mortem validés

Sévérité	· —
Date	22/01/2026
Infra impactée	Oracle
Fonctionnalité	—
Thème	Indisponibilité
Détection	—
Clients / CML	—
Nb sites impactés	—

📎 Post Mortem

Résumé

Le 21 janvier 2026, une saturation du volume contenant les journaux de transactions Oracle de l'instance P01GX a provoqué l'arrêt de la base de données et l'indisponibilité de l'application Galaxie. La saturation a été déclenchée par une opération de copie d'environnement sur cette instance. L'incident a duré 1 heure 44 minutes avant rétablissement complet du service.

Impact

Indisponibilité totale de l'application Galaxie pour l'ensemble des clients hébergés sur l'instance P01GX. Arrêt de la base de données Oracle suite à la saturation du volume des journaux de transactions (Archive Logs). GTI constatée : 6 minutes. GTR constatée : 1 heure 44 minutes.

Chronologie

12h22

Remontées d'alertes Zabbix indiquant un remplissage anormalement élevé du volume de journaux de transactions (Archive Logs) sur P01GX

12h28

Prise en charge de l'incident

12h30

Saturation totale du volume et ouverture d'une cellule de crise

12h35

Forçage des opérations régulières de vidage des Archive Logs via l'outil de maintenance

12h45

Les opérations de vidage ne permettent pas la remise en service

12h50

Lancement de la procédure d'extension du volume — échec de l'opération

13h00

Lancement d'une purge du volume — échec de la purge

13h30

Réinitialisation du composant Oracle, purge manuelle du volume, redémarrage de la base de données

14h06

Application Galaxie à nouveau disponible — lancement de la procédure d'extension du volume des journaux de transactions

14h20

Fin de la procédure d'extension du volume

14h30

Fermeture de la cellule de crise — fin de l'incident

Récurrence

2ème cas de saturation sur l'instance P01GX en 2 ans. Le 1er cas n'avait pas généré d'indisponibilité car il avait été traité juste avant la saturation totale. Récurrence jugée moyenne.

Détection

Détection automatique par la supervision Zabbix via alertes de remplissage élevé du volume de journaux de transactions.

Root Cause Analysis

Causes immédiates : Saturation des Archive Logs (AL) sur le volume de base de données de l'instance P01GX.

Causes racines : Opération de copie d'environnement sur P01GX ayant généré un volume anormalement élevé de journaux de transactions, conduisant à la saturation du volume dédié.

Faits aggravants : Cellule de crise partiellement déclenchée, ce qui a potentiellement ralenti la coordination et la prise de décision. Échec des opérations automatiques de vidage des Archive Logs en première intention, forçant le recours à des procédures manuelles plus longues.

Résolution

Réinitialisation du composant Oracle, purge manuelle du volume des Archive Logs, redémarrage de la base de données, puis extension du volume des journaux de transactions pour prévenir une nouvelle saturation immédiate.

Apprentissage

Ce qui s'est bien passé : Prise en charge rapide de l'incident en 6 minutes après détection de l'alerte.

Ce qui s'est mal passé : Déclenchement partiel de la cellule de crise, ayant impacté la réactivité collective. Les opérations automatiques de vidage des Archive Logs se sont révélées inopérantes en première intention, allongeant significativement la durée de résolution.

Chanceux : Bof, pas trop — aucun facteur de chance notable identifié. L'incident aurait pu être évité si les mécanismes de vidage automatique avaient fonctionné ou si le volume avait été étendu préalablement, comme lors du 1er épisode.

Communication interne
Incident P01GX — 21/01/2026 — Saturation des Archive Logs Oracle / Indisponibilité Galaxie Dans l'après-midi du 21 janvier, une saturation complète du volume hébergeant les Archive Logs (AL) de l'instance Oracle P01GX a provoqué l'arrêt du moteur de base de données et rendu l'application Galaxie totalement indisponible pour les clients hébergés sur cette instance. Cause réelle : une opération de copie d'environnement sur P01GX a généré une production massive de journaux de transactions, saturant le volume dédié à 100%. La supervision Zabbix a remonté l'alerte à 12h22 et la prise en charge a eu lieu à 12h28. Les tentatives de vidage automatique via l'outil de maintenance (12h35) se sont révélées inopérantes. Une tentative d'extension du volume a également échoué (12h50-13h00). Une purge

Communication client
Madame, Monsieur, Nous vous informons qu'une indisponibilité de l'application Galaxie a affecté votre établissement le 21 janvier 2026, entre 12h30 et 14h06, soit une durée d'environ 1 heure 36 minutes. Cet incident a été causé par une saturation d'un composant de stockage interne à notre infrastructure, survenue dans le cadre d'une opération de maintenance que nous menions sur votre environnement. Dès détection du problème, nos équipes ont pris en charge l'incident dans les 6 minutes et ont mobilisé une cellule de crise pour coordonner la résolution au plus vite. L'application Galaxie a été pleinement rétablie à 14h06. Des mesures correctives ont immédiatement été appliquées pour sécuriser l'environnement et prévenir la réapparition de ce type d'incident, notamment un renforcement de l

Actions — 3 total · ✓ 0 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Vérifier si le processus de change a bien été respecté	Thomas PORTAL	—	—	Medium	Draft	—
Etude sur l’automatisation du processus de copie, avec une gestion automatisée d	Philippe BERNE	—	—	Medium	Draft	—
Renforcement du processus de copie afin de mieux provisionner le volume contenan	Valentin BARRET	—	—	Medium	Draft	—

Sévérité	SEV-3 · 71h00
Date	20/01/2026
Infra impactée	Tomcat
Fonctionnalité	—
Thème	Lenteurs
Détection	—
Clients / CML	OMSAAS
Nb sites impactés	68

📎 Post Mortem

Résumé

Entre le 21 et le 23 janvier 2026, plusieurs instances Tomcat de l'environnement OMSAAS ont subi une saturation CPU causée par l'exécution du rapprochement bancaire intelligent (mode N-N) lancé par un utilisateur du client HERMEUGOZ. Cette surcharge, maintenue plus de 24h, a provoqué de fortes lenteurs sur l'application ONE Manager pour l'ensemble des utilisateurs connectés aux Tomcats impactés. La résolution a nécessité le retrait des Tomcats du répartiteur, leur redémarrage et la bascule du client en mode de rapprochement non intelligent (1-1).

Impact

Jusqu'à une vingtaine de clients par Tomcat impacté ont subi de fortes lenteurs sur l'application ONE Manager (ex : 30 secondes pour l'affichage de l'écran de facturation). Le rapprochement bancaire initiateur n'a pas abouti. Une perte de productivité significative a été constatée côté clients. L'incident a également mobilisé fortement les équipes OPS, Support et Développement sur deux jours.

Chronologie

22/01 - 15:03

Détection des lenteurs OMSAAS liées au CPU saturé par le rapprochement bancaire — 10 Tomcats sur 18 saturés, temps d'exécution des webtests 3x supérieur à la normale

22/01 - 15:19

Identification de l'origine du problème via GrayLog : requêtes du rapprochement bancaire

22/01 - 15:34

Confirmation de lenteurs sur l'écran de facturation (30 secondes pour l'affichage) remontée par l'équipe support (Damien CINTAS)

22/01 - 16:15

Demande d'intervention de l'équipe développement

22/01 - 17:21

Début d'analyse par l'équipe développement

23/01 - 03:39

Redémarrage de tous les Tomcats pendant la nuit — retour à des valeurs normales

23/01 - 08:47

Nouvelle requête de rapprochement N-N lancée sur le Tomcat 18-2 → saturation CPU immédiate

23/01 - 10:34

Observation de nouveaux blocages — suspicion de threads persistants

23/01 - 13:00

Identification des utilisateurs déclenchant le rapprochement N-N (client HERMEUGOZ)

23/01 - 13:00

Sortie du Tomcat 18-2 du répartiteur pour limiter l'impact sur les nouveaux utilisateurs

23/01 - 15:21

Bascule du client HERMEUGOZ en mode rapprochement non intelligent (1-1) après accord du client

23/01 - 15:50

Appel des clients connectés au Tomcat 18-2 pour demande de déconnexion/reconnexion

—

Redémarrage planifié du Tomcat 18-2 et retour à la normale

Détection

Détection via les webtests internes de monitoring infra : temps d'exécution 3x supérieur à la normale sur les Tomcats. Confirmation de l'origine via les logs GrayLog identifiant les requêtes de rapprochement bancaire comme source de la saturation CPU.

Root Cause Analysis

Causes immédiates : Threads du processus RapproBancProcessor bloqués dans une boucle prolongée (méthode getListeCombinaisonsSumRn), maintenant le CPU à plus de 93% sur les Tomcats concernés pendant plus de 24h.

Causes racines : Absence de limitation en amont du nombre de mouvements bancaires et de retours NOEMI à rapprocher dans le mode de rapprochement intelligent (N-N), permettant le déclenchement de calculs combinatoires potentiellement infinis sans garde-fou ni timeout applicatif.

Faits aggravants : Impossibilité de retirer un Tomcat du pool de répartition sans déconnecter les utilisateurs qui y sont attachés. Temps de réaction allongé pour identifier et isoler les instances en saturation. Relances utilisateur intempestives (plusieurs exécutions successives du rapprochement N-N) ayant amplifié et propagé la charge sur d'autres Tomcats.

Résolution

Retrait des Tomcats saturés (CPU > 90%) du répartiteur de charge puis redémarrage, avec communication préalable aux clients concernés sur le risque de déconnexion. Bascule du paramétrage du client HERMEUGOZ en mode rapprochement bancaire non intelligent (paramètre CDCT_RAPPRO_BANC_MULTIPLE = 0) en attente d'un correctif applicatif pérenne.

Apprentissage

Ce qui s'est bien passé : Identification rapide de l'origine via GrayLog (moins de 20 minutes après détection). Coordination efficace entre les équipes OPS, Support et Dev. Contact direct avec le client HERMEUGOZ ayant été constructif et facilitant la prise de décision. Procédure d'extinction de l'incident claire et appliquée.

Ce qui s'est mal passé : Absence de garde-fou applicatif sur le volume de données traitées par le rapprochement N-N. Impossibilité de retirer proprement un Tomcat du répartiteur sans impact utilisateur. Délai important entre la détection (15h03) et le début d'analyse développement (17h21). Relances utilisateur non maîtrisées ayant propagé la saturation à d'autres Tomcats.

Chanceux : L'incident s'est déclaré en journée, permettant une mobilisation rapide des équipes. Le client HERMEUGOZ a été coopératif et a accepté la bascule en mode non intelligent sans résistance. Le trafic global de rapprochement bancaire n'était pas en augmentation sur la période, limitant l'ampleur de la p

Communication interne
Incident OMSAAS — Saturation CPU Tomcat par rapprochement bancaire N-N (22-23 janvier 2026) Entre le 22 et le 23 janvier, 10 Tomcats sur 18 de l'environnement OMSAAS ont été saturés à plus de 93% de CPU. L'origine est une requête de rapprochement bancaire intelligent (mode N-N) déclenchée par un utilisateur du client HERMEUGOZ (étab 5106728770). Le processus RapproBancProcessor est entré dans une boucle prolongée dans la méthode getListeCombinaisonsSumRn, bloquant les threads Tomcat sans timeout ni limitation volumétrique. La saturation a persisté plus de 24h, provoquant des lenteurs sévères pour tous les utilisateurs partagés sur les Tomcats impactés (ex : 30s pour l'écran de facturation). Après un redémarrage nocturne de l'ensemble des Tomcats (03h39), une nouvelle exécution du rapproc

Communication client
Madame, Monsieur, Nous vous contactons suite aux difficultés rencontrées les 22 et 23 janvier 2026 sur votre application ONE Manager. Pendant cette période, certains utilisateurs ont pu constater des ralentissements importants lors de la navigation, notamment à l'ouverture des écrans de facturation. Ces lenteurs ont affecté la fluidité globale de l'application et ont pu générer une perte de productivité pour vos équipes, ce que nous regrettons sincèrement. Nos équipes ont identifié rapidement l'origine du problème et ont pris les mesures nécessaires pour y mettre fin : isolation du service concerné, ajustement du paramétrage lié à la fonctionnalité de rapprochement bancaire, et redémarrage contrôlé des serveurs concernés. Le service a été pleinement rétabli le 23 janvier dans l'après-m

Actions — 9 total · ✓ 7 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
Report (patch) en version 2603 (1.2603.03)	Elyes BEZZINE	—	prevent	High	Done	—
Analyse des processus levant des alertes CPU	Patrice PERRONNET, Florent LAN	—	prevent	Medium	Done	—
Rappeler le client et réactiver le rapprochement intelligent	Charles-Edouard BARON, Elyes B	—	prevent	High	In progress	—
Optimisation algorithme	Elyes BEZZINE	—	prevent	Medium	Cancelled	—
Auto kill contrôlé des processus	Florent LANDUCCI, Thomas PORTA	—	prevent	Medium	Not Retained	—
Monitoring coté Infra	Florent LANDUCCI, Thomas PORTA	—	prevent	Medium	Not Retained	—
Monitoring coté DEV du Rapprochement bancaire	Elyes BEZZINE, Stéphane AMAYEN	—	prevent	High	In progress	—
Ajouter des log	Elyes BEZZINE	—	prevent	High	Done	—
Définir un timeout	Elyes BEZZINE	—	prevent	High	Done	—

Sévérité	SEV-2 · 48h00
Date	14/01/2026
Infra impactée	MicroService
Fonctionnalité	—
Thème	Lenteurs
Détection	—
Clients / CML	OMSAAS, OMSAAS7, OMSAAS3, OMSAAS4, OMSAAS2, OMSAASDOM
Nb sites impactés	96

📎 Post Mortem

Résumé

Suite au remplacement du convertisseur JOD par le Report Converter OnlyOffice, une augmentation significative des lenteurs et des timeouts HTTP 504 a été observée sur plusieurs SaaS (OMSAAS3, OMSAAS7, OMSAASDOM) durant la semaine du 12 janvier 2026. Un rollback complet vers JOD a été effectué le 16 janvier, rétablissant immédiatement les performances nominales. La cause précise des lenteurs liées au Report Converter n'est pas encore totalement identifiée et fait l'objet d'un plan de migration sécurisé.

Impact

Les clients utilisant les SaaS OMSAAS3, OMSAAS7 et OMSAASDOM ont subi des lenteurs perceptibles sur la génération et la conversion de rapports (API /reports/converter/api/v1/documents/converter/), se traduisant par des timeouts HTTP 504. Les temps de traitement ont dépassé les valeurs normales (moyenne habituelle ~2,46s, pic jusqu'à 29,3s). Aucune erreur HTTP 500 significative n'a été constatée. L'impact financier n'a pas été mesuré.

Chronologie

12 jan

Mise en production de la bascule du convertisseur JOD vers le Report Converter OnlyOffice sur plusieurs SaaS

15 jan

Observation d'une augmentation des lenteurs et des timeouts HTTP 504 sur l'API de conversion

Semaine du 12 jan

Analyses Grafana et Graylog montrant une corrélation avec la bascule vers Report Converter

Semaine du 12 jan

Retours clients signalant des temps de génération de rapports plus longs

16 jan

Décision de rollback vers le convertisseur JOD sur l'ensemble des SaaS

16 jan

Disparition des lenteurs et retour à des performances nominales après rollback

Récurrence

Le problème n'avait pas été observé avant la bascule vers le Report Converter OnlyOffice. Il s'est manifesté uniquement après cette bascule sur certains SaaS et a disparu après le rollback. L'incident est considéré comme non récurrent en production à ce stade, mais une récurrence reste possible tant que la migration vers le Report Converter n'est pas finalisée et sécurisée.

Détection

L'incident a été détecté via la surveillance des métriques de performance dans Grafana, avec une hausse des timeouts HTTP 504 sur l'API de conversion (/reports/converter/api/v1/documents/converter/). La dégradation a été confirmée par l'analyse des logs Graylog (requête : http_request:/reports/converter/api/v1/documents/converter/ AND http_status:504). Des retours clients signalant des temps de génération de rapports anormalement longs ont également contribué à l'identification du problème.

Root Cause Analysis

Causes immédiates : Le passage de JOD au Report Converter OnlyOffice a augmenté le temps de traitement des conversions de documents, entraînant des timeouts HTTP 504 sur l'API /reports/converter/api/v1/documents/converter/. Un sous-dimensionnement des pods OpenShift (CPU/mémoire insuffisants) et un nombre de pods insuffisant par rapport à la charge sont suspectés comme causes principales.

Faits aggravants : La bascule a été appliquée simultanément sur plusieurs SaaS (OMSAAS3, OMSAAS7, OMSAASDOM), augmentant la charge globale sur la stack OnlyOffice/Report Converter. La dépendance à une stack OnlyOffice partagée a potentiellement amplifié l'effet sur d'autres usages (notamment la partie radio utilisant déjà OnlyOffice).

Résolution

Résolution immédiate : rollback complet vers le convertisseur JOD sur l'ensemble des SaaS concernés, supprimant l'utilisation du Report Converter OnlyOffice et permettant un retour immédiat aux performances nominales avec disparition des timeouts HTTP 504. Résolution durable en cours : définition d'un plan de migration progressif incluant la validation de la configuration OpenShift cible, l'ajustement des ressources des pods, une migration par lots avec phases de tests de 24–48h et une possibilité de rollback à chaque étape.

Communication interne
Incident de performance — Report Converter OnlyOffice / Semaine du 12 janvier 2026 Suite à la bascule du convertisseur JOD vers le Report Converter OnlyOffice sur OMSAAS3, OMSAAS7 et OMSAASDOM le 12 janvier, une dégradation des performances a été constatée à partir du 15 janvier : hausse significative des timeouts HTTP 504 sur l'endpoint /reports/converter/api/v1/documents/converter/. Les métriques Grafana montrent un pic de lenteurs clairement corrélé à la semaine de bascule. Graylog confirme l'augmentation des 504, y compris sur la partie radio (espace-radiologue) utilisant déjà OnlyOffice. Hypothèse principale : sous-dimensionnement des pods OpenShift (CPU/mémoire) et nombre insuffisant de répliques face à la charge combinée de plusieurs SaaS basculés simultanément. La cause précise n

Communication client
Objet : Information sur les lenteurs observées lors de la génération de rapports — semaine du 12 janvier 2026 Chère équipe, Nous souhaitons vous informer que certains utilisateurs de notre solution ont pu observer, durant la semaine du 12 janvier 2026, des temps de traitement inhabituellement longs lors de la génération ou de la conversion de rapports. Ces ralentissements ont été causés par une mise à jour technique que nous avons déployée sur notre plateforme. Dès la détection du problème, nos équipes ont immédiatement pris les mesures nécessaires pour rétablir un fonctionnement normal. Le 16 janvier, la situation a été pleinement résolue et les performances sont revenues à leur niveau habituel. Nous avons par ailleurs engagé un plan d'actions pour sécuriser les prochaines évolutions

Actions — 5 total · ✓ 1 closes

Action	Owner	Tribu	Type	Priorité	Statut	Target
—	—	—	—	Medium	Draft	—
Déplacer les alertes local Tribu vers Infra, voir avec Nico / Flo côté Infra	—	—	—	Medium	Draft	—
Tests de migration progressive JOD → Report Converter avec monitoring renforcé	William ROSSIER	—	prevent	Medium	In progress	—
Recalibrage CPU et mémoire des pods OnlyOffice / Report Converter	William ROSSIER	—	prevent	Medium	In progress	—
Rollback vers JOD sur l’ensemble des SaaS	William ROSSIER	—	revert	High	Done	—