Supervision des équipements
La supervision est le cœur de Vigileos. L'agent surveille en continu l'état de vos équipements et remonte les données à la plateforme.
Mécanisme de polling
ICMP (Ping)
L'agent envoie un ping ICMP à chaque équipement supervisé toutes les 30 secondes. Ce polling vérifie :
- La joignabilité — L'équipement répond-il ?
- La latence — Quel est le temps de réponse ?
- La perte de paquets — Des pings sont-ils perdus ?
Les résultats sont agrégés et transmis au backend via MQTT toutes les 30 secondes.
SNMP
Pour les équipements compatibles, l'agent collecte des métriques supplémentaires via SNMP :
| Version | Authentification | Usage |
|---|---|---|
| SNMPv1 | Community string | Équipements anciens |
| SNMPv2c | Community string | Standard, la plupart des équipements |
| SNMPv3 | Utilisateur + mot de passe + chiffrement | Équipements sécurisés |
Métriques SNMP collectées :
- Switches : état des ports, trafic (octets entrants/sortants), erreurs
- Routeurs : table de routage, utilisation CPU/mémoire
- NVR/Caméras : uptime, statut des disques (si supporté)
Détection intelligente : anti-flapping
Le flapping se produit quand un équipement oscille rapidement entre les états « en ligne » et « hors ligne ». Cela génère un bruit d'alertes inutile.
Vigileos implémente un mécanisme d'anti-flapping :
- Un équipement doit être hors ligne pendant 3 cycles consécutifs (90 secondes) avant qu'une alerte soit déclenchée.
- De même, il doit répondre pendant 2 cycles consécutifs (60 secondes) avant d'être marqué comme revenu en ligne.
- Pendant la phase de transition, l'équipement est en état instable — aucune alerte n'est générée.
Ce mécanisme évite les faux positifs lors de :
- Redémarrages planifiés
- Micro-coupures réseau
- Congestion temporaire
Corrélation parent-enfant
Vigileos détecte les relations de dépendance entre équipements :
Switch principal
/ | \
Caméra 1 Caméra 2 NVR
Si le switch principal tombe en panne :
- ❌ Sans corrélation : 4 alertes (switch + 3 équipements enfants)
- ✅ Avec corrélation : 1 seule alerte sur le switch, les enfants sont marqués comme « impact parent »
Comment ça fonctionne
- L'agent identifie les switches via SNMP et la table ARP
- Les équipements connectés à un switch sont automatiquement définis comme ses enfants
- Quand un parent passe hors ligne, les alertes des enfants sont supprimées et remplacées par une alerte de corrélation
Seuils et profils
Les seuils d'alerte peuvent varier selon le type de connexion de l'équipement :
| Paramètre | Filaire | WiFi |
|---|---|---|
| Latence max (warning) | 50 ms | 100 ms |
| Latence max (critique) | 200 ms | 500 ms |
| Perte paquets (warning) | 5% | 15% |
| Perte paquets (critique) | 20% | 40% |
| Cycles anti-flapping | 3 | 5 |
Les profils WiFi sont plus tolérants car les connexions sans fil sont naturellement plus instables.
Buffer local et résilience
Si l'agent perd temporairement sa connexion avec le serveur MQTT :
- Les métriques sont stockées localement dans un buffer
- Le buffer conserve jusqu'à 24 heures de données
- Dès que la connexion est rétablie, les données sont envoyées par ordre chronologique
- Aucune donnée n'est perdue pendant les déconnexions temporaires
Le buffer local garantit la continuité des données même lors de coupures Internet du site. La supervision continue localement et les données sont synchronisées dès le retour de la connexion.
Métriques disponibles
Par équipement
| Métrique | Source | Fréquence |
|---|---|---|
| Statut (en ligne/hors ligne) | ICMP | 30s |
| Latence (ms) | ICMP | 30s |
| Perte de paquets (%) | ICMP | 30s |
| Uptime | SNMP | 5 min |
| Trafic réseau (octets) | SNMP | 5 min |
Par site
| Métrique | Calcul |
|---|---|
| Taux de disponibilité | % d'équipements en ligne sur la période |
| Équipements en ligne | Nombre d'équipements répondant au ping |
| Alertes actives | Nombre d'alertes non résolues |
| Score de santé | Indicateur composite (uptime + latence + alertes) |