Project

General

Profile

Actions

Bug #7

open

[Performance] Application "AnalyseDonnees" - Latence excessive et erreurs 503 sporadiques

Added by UserName LastName 10 months ago. Updated 10 months ago.

Status:
New
Priority:
High
Assignee:
-
Start date:
05/12/2025
Due date:
% Done:

0%

Estimated time:

Description

Demandeur : Sophie Dubois (Data Analyst Lead - Équipe BI)

Service Concerné : Plateforme Data & Analytics

Application Impactée : AnalyseDonnees

Environnement : Pré-Production (Utilisé pour les tests de charge avant MEP Production)

Urgence : Moyenne (Impacte les tests de validation et retarde potentiellement la MEP)

Impact : Modéré (Les tests de performance sont bloqués, risque de ne pas identifier des problèmes avant la production)

Description du Problème :

L'application "AnalyseDonnees", hébergée sur notre cluster Kubernetes de pré-production, présente des latences très importantes lors de l'exécution de requêtes complexes depuis ce matin 09:00 CEST. De plus, nous observons des erreurs HTTP 503 (Service Unavailable) de manière sporadique lorsque plusieurs utilisateurs effectuent des analyses simultanément.

Ces problèmes n'étaient pas présents la semaine dernière lors de tests similaires avec la même version de l'application.

Étapes pour Reproduire (si applicable) :

  1. Lancer un script de test de charge (ex: analyse_charge_job_003) qui exécute 10 requêtes d'analyse complexes en parallèle sur l'endpoint /api/v2/analyse/complexe.
  2. Observer les temps de réponse dans les logs du script ou via les outils de monitoring.
  3. Noter l'apparition d'erreurs HTTP 503 dans les retours d'appels API.

Messages d'Erreur Observés (Logs, Captures d'écran) :

  • Extrait des logs du client de test :
    2025-05-12 10:55:12 INFO: Requête 7/10 - Temps de réponse: 15780ms
    2025-05-12 10:55:18 ERROR: Requête 8/10 - Erreur: 503 Service Unavailable
    ...
    
  • Extrait des événements Kubernetes pour le déploiement (via kubectl describe deployment analyse-donnees-depl -n namespace-preprod) :
    Events:
      Type     Reason        Age                  From                   Message
      ----     ------        ----                 ----                   -------
      Warning  Unhealthy     5m (x3 over 10m)     kubelet, k8s-node-02   Liveness probe failed: HTTP probe failed with statuscode: 503
      Warning  FailedScaleUp 12m (x2 over 15m)    horizontal-pod-autoscaler  unable to get metrics for resource cpu: unable to fetch metrics from resource metrics API: the server is currently unable to handle the request (get pods.metrics.k8s.io)
    
  • Joindre une capture d'écran du dashboard Grafana montrant l'augmentation de la latence et les pics d'erreurs 503.

Informations Techniques Complémentaires (Kubernetes) :

  • Namespace : namespace-preprod
  • Nom du Déploiement : analyse-donnees-depl
  • Nom du Service : analyse-donnees-svc
  • Horizontal Pod Autoscaler (HPA) : Configuré pour scaler sur l'utilisation CPU (cible 70%).
  • Probes (Liveness/Readiness) :
    • Liveness: httpGet sur /healthz toutes les 10s, timeout 3s.
    • Readiness: httpGet sur /readyz toutes les 5s, timeout 2s.
  • Version de l'Image Docker : registre-interne.entreprise.com/analyse-donnees:feature-new-algo-v0.9.2
  • Changements Récents :
    • Déploiement de la branche "feature-new-algo" pour tests hier après-midi.
    • Possiblement une mise à jour des métriques du cluster (metrics-server) ou de la configuration HPA la semaine dernière (à confirmer par l'équipe Infra).
  • Limites de ressources des pods :
    • Requests: CPU 500m, Memory 1Gi
    • Limits: CPU 1000m, Memory 2Gi

Actions Déjà Tentées :

  • Augmentation manuelle du nombre de réplicas du déploiement de 3 à 5 : Peu d'amélioration notable sur la latence, les 503 persistent sous forte charge.
  • Vérification des logs applicatifs des pods "AnalyseDonnees" : Pas d'erreur critique évidente au niveau du code applicatif lui-même, mais des timeouts lors d'appels à des services externes (API partenaires).
  • Vérification de la consommation CPU/Mémoire des pods : La CPU atteint régulièrement les limites sur plusieurs pods lors des pics de charge.

Personne à Contacter pour plus d'Informations :

  • Sophie Dubois (Demandeur)
  • Marc Petit (Ingénieur SRE - marc.petit@entreprise.com)

Catégorisation (Proposée) :

  • Catégorie : Problème de Performance
  • Sous-catégorie : Latence Applicative / Erreur Service (503)
  • Élément de Configuration (CI) : APP-AnalyseDonnees-PREPROD
Actions

Also available in: Atom PDF