Aller au contenu principal

Supervision des équipements

La supervision est le cœur de Vigileos. L'agent surveille en continu l'état de vos équipements et remonte les données à la plateforme.

Mécanisme de polling

ICMP (Ping)

L'agent envoie un ping ICMP à chaque équipement supervisé toutes les 30 secondes. Ce polling vérifie :

  • La joignabilité — L'équipement répond-il ?
  • La latence — Quel est le temps de réponse ?
  • La perte de paquets — Des pings sont-ils perdus ?

Les résultats sont agrégés et transmis au backend via MQTT toutes les 30 secondes.

SNMP

Pour les équipements compatibles, l'agent collecte des métriques supplémentaires via SNMP :

VersionAuthentificationUsage
SNMPv1Community stringÉquipements anciens
SNMPv2cCommunity stringStandard, la plupart des équipements
SNMPv3Utilisateur + mot de passe + chiffrementÉquipements sécurisés

Métriques SNMP collectées :

  • Switches : état des ports, trafic (octets entrants/sortants), erreurs
  • Routeurs : table de routage, utilisation CPU/mémoire
  • NVR/Caméras : uptime, statut des disques (si supporté)

Détection intelligente : anti-flapping

Le flapping se produit quand un équipement oscille rapidement entre les états « en ligne » et « hors ligne ». Cela génère un bruit d'alertes inutile.

Vigileos implémente un mécanisme d'anti-flapping :

  1. Un équipement doit être hors ligne pendant 3 cycles consécutifs (90 secondes) avant qu'une alerte soit déclenchée.
  2. De même, il doit répondre pendant 2 cycles consécutifs (60 secondes) avant d'être marqué comme revenu en ligne.
  3. Pendant la phase de transition, l'équipement est en état instable — aucune alerte n'est générée.

Ce mécanisme évite les faux positifs lors de :

  • Redémarrages planifiés
  • Micro-coupures réseau
  • Congestion temporaire

Corrélation parent-enfant

Vigileos détecte les relations de dépendance entre équipements :

        Switch principal
/ | \
Caméra 1 Caméra 2 NVR

Si le switch principal tombe en panne :

  • ❌ Sans corrélation : 4 alertes (switch + 3 équipements enfants)
  • ✅ Avec corrélation : 1 seule alerte sur le switch, les enfants sont marqués comme « impact parent »

Comment ça fonctionne

  1. L'agent identifie les switches via SNMP et la table ARP
  2. Les équipements connectés à un switch sont automatiquement définis comme ses enfants
  3. Quand un parent passe hors ligne, les alertes des enfants sont supprimées et remplacées par une alerte de corrélation

Seuils et profils

Les seuils d'alerte peuvent varier selon le type de connexion de l'équipement :

ParamètreFilaireWiFi
Latence max (warning)50 ms100 ms
Latence max (critique)200 ms500 ms
Perte paquets (warning)5%15%
Perte paquets (critique)20%40%
Cycles anti-flapping35

Les profils WiFi sont plus tolérants car les connexions sans fil sont naturellement plus instables.

Buffer local et résilience

Si l'agent perd temporairement sa connexion avec le serveur MQTT :

  1. Les métriques sont stockées localement dans un buffer
  2. Le buffer conserve jusqu'à 24 heures de données
  3. Dès que la connexion est rétablie, les données sont envoyées par ordre chronologique
  4. Aucune donnée n'est perdue pendant les déconnexions temporaires
info

Le buffer local garantit la continuité des données même lors de coupures Internet du site. La supervision continue localement et les données sont synchronisées dès le retour de la connexion.

Métriques disponibles

Par équipement

MétriqueSourceFréquence
Statut (en ligne/hors ligne)ICMP30s
Latence (ms)ICMP30s
Perte de paquets (%)ICMP30s
UptimeSNMP5 min
Trafic réseau (octets)SNMP5 min

Par site

MétriqueCalcul
Taux de disponibilité% d'équipements en ligne sur la période
Équipements en ligneNombre d'équipements répondant au ping
Alertes activesNombre d'alertes non résolues
Score de santéIndicateur composite (uptime + latence + alertes)