Un petit mot sur ce capteur et son comportement avec une illustration du propos sur un incident détecté.
A un instant T, on remarque dans notre outil de monitoring que ce le capteur SNMP CPU Load d'un serveur Linux passe en erreur. Effectivement, visiblement 100% de charge sur les deux cœurs de la machine.
Il se trouve que c'est un serveur virtualisé donc on jette un petit coup d’œil aux graphes disponibles via l'hyperviseur:
En première lecture, on a l'impression que tout va bien. Hors, on a simultanément des retours utilisateurs prouvant que le service fourni par la machine est dégradé...
Un top sur le guest OS et on lit ceci:
Peu de %used...
C'est là où il faut être vigilant, on constate que c'est le %wait qui est à presque 100%. Et c'est bien là le problème. En temps normal, on devrait un valeur élevée pour le %idle.
Le capteur avait une bonne raison de nous alerter.
Pour en trouver la source je vous invite à parcourir le post de Benjamin Cane très bien écrit sur le sujet : http://bencane.com/2012/08/06/troubleshooting-high-io-wait-in-linux/
Dans notre cas, un process java était la source du dysfonctionnement.
Nicolas Jançon
Co-fondateur et associé chez Sensor Factory