Le Change Failure Rate (Taux d'échec au changement) mesure la proportion de déploiements en production qui entraînent une dégradation de service nécessitant une intervention immédiate (rollback, hotfix).
Ce qui compte comme un échec
Un déploiement qui cause une panne de service (Downtime).
Une régression critique nécessitant un Rollback.
Un bug sévère nécessitant un Hotfix d’urgence.
Qualité vs Vitesse
Déployer souvent (Deployment Frequency) ne sert à rien si vous cassez la production à chaque fois.
Le Change Failure Rate est le « garde-fou » de la vitesse. Il assure que l’équipe ne sacrifie pas la qualité pour aller plus vite.
C’est la métrique qui valide la fiabilité de vos tests automatisés.
Comment s'améliorer ?
Tests Automatisés Robustes
Investissez dans une pyramide de tests saine (beaucoup de tests unitaires, des tests d’intégration ciblés). La détection doit se faire AVANT la prod.
Observabilité
Utilisez des outils de monitoring et de tracing pour détecter les dégradations de service mineures avant qu’elles ne deviennent des pannes majeures.
L'analyse d'Alice
Alice analyse la corrélation entre la taille de vos déploiements (Batch Size) et le taux d’échec. Elle vous alertera si vos ‘gros déploiements’ mensuels sont systématiquement sources d’incidents.