Monitoring de serveurs Linux : outils, métriques et bonnes pratiques

Superviser un serveur Linux, c’est s’assurer que les ressources système sont utilisées correctement et que les services critiques restent disponibles. Que vous gériez 5 ou 500 serveurs, une supervision proactive évite les pannes et réduit le temps de résolution des incidents.

Les métriques essentielles à surveiller

CPU

Un usage CPU soutenu au-dessus de 80 % pendant plusieurs minutes indique un goulet d’étranglement. Surveillez le load average (1 min, 5 min, 15 min) et l’usage par processus pour identifier les coupables.

Mémoire RAM

Linux utilise la RAM disponible comme cache disque — un usage élevé n’est pas forcément un problème. Ce qui compte, c’est la mémoire disponible (available) et le swap usage. Si le swap est actif, c’est que la RAM physique ne suffit plus.

Espace disque

Un disque plein est la cause numéro 1 des pannes silencieuses. Les logs qui grossissent, les bases de données qui enflent, les backups qui s’accumulent — il faut alerter avant 90 % d’utilisation.

Latence réseau

Un pic de latence ou de perte de paquets peut indiquer un problème de routage, une saturation de bande passante ou un équipement réseau défaillant. Mesurez le ping vers une passerelle connue (ex: 8.8.8.8) et le débit par interface.

Services et processus

Vérifiez que vos services critiques (nginx, PostgreSQL, Docker, etc.) sont en cours d’exécution. Un service arrêté sans alerte peut passer inaperçu pendant des heures.

Les outils de monitoring Linux

Outils en ligne de commande

htop / top — Vue temps réel des processus
df -h — Espace disque par partition
free -h — Usage mémoire
ss -tlnp — Ports en écoute
journalctl -f — Logs système en temps réel

Solutions de supervision

WezOps — Agent léger en Go, installation en une commande, alertes temps réel
Prometheus + Grafana — Open-source, puissant, mais complexe à maintenir
Zabbix — Complet mais lourd à déployer
Netdata — Monitoring local performant, moins adapté au multi-serveur

Configurer des alertes efficaces

Une alerte qui se déclenche trop souvent est ignorée. Une alerte qui ne se déclenche jamais est inutile. Voici des seuils raisonnables :

CPU : alerte warning à 80 %, critique à 95 % (moyenne sur 5 min)
RAM : alerte à 90 % d’utilisation réelle (hors cache)
Disque : alerte à 85 %, critique à 95 %
Service down : alerte immédiate
Latence réseau : alerte si >100 ms ou perte >5 % sur 10 min

Supervision Linux avec WezOps

L’agent WezOps s’installe sur Ubuntu, Debian, CentOS, Rocky Linux et toute distribution compatible systemd. Il collecte automatiquement CPU, RAM, disque, réseau, processus et services — sans configuration.

L’installation se fait en une seule commande générée depuis votre tableau de bord. Créez un compte gratuit pour obtenir votre script d’installation personnalisé.