Supervision des équipements

La supervision est le cœur de Vigileos. L'agent surveille en continu l'état de vos équipements et remonte les données à la plateforme.

Mécanisme de polling

ICMP (Ping)

L'agent envoie un ping ICMP à chaque équipement supervisé toutes les 30 secondes. Ce polling vérifie :

La joignabilité — L'équipement répond-il ?
La latence — Quel est le temps de réponse ?
La perte de paquets — Des pings sont-ils perdus ?

Les résultats sont agrégés et transmis au backend via MQTT toutes les 30 secondes.

SNMP

Pour les équipements compatibles, l'agent collecte des métriques supplémentaires via SNMP :

Version	Authentification	Usage
SNMPv1	Community string	Équipements anciens
SNMPv2c	Community string	Standard, la plupart des équipements
SNMPv3	Utilisateur + mot de passe + chiffrement	Équipements sécurisés

Métriques SNMP collectées :

Switches : état des ports, trafic (octets entrants/sortants), erreurs
Routeurs : table de routage, utilisation CPU/mémoire
NVR/Caméras : uptime, statut des disques (si supporté)

Détection intelligente : anti-flapping

Le flapping se produit quand un équipement oscille rapidement entre les états « en ligne » et « hors ligne ». Cela génère un bruit d'alertes inutile.

Vigileos implémente un mécanisme d'anti-flapping :

Un équipement doit être hors ligne pendant 3 cycles consécutifs (90 secondes) avant qu'une alerte soit déclenchée.
De même, il doit répondre pendant 2 cycles consécutifs (60 secondes) avant d'être marqué comme revenu en ligne.
Pendant la phase de transition, l'équipement est en état instable — aucune alerte n'est générée.

Ce mécanisme évite les faux positifs lors de :

Redémarrages planifiés
Micro-coupures réseau
Congestion temporaire

Corrélation parent-enfant

Vigileos détecte les relations de dépendance entre équipements :

        Switch principal
       /        |        \
  Caméra 1   Caméra 2   NVR

Si le switch principal tombe en panne :

❌ Sans corrélation : 4 alertes (switch + 3 équipements enfants)
✅ Avec corrélation : 1 seule alerte sur le switch, les enfants sont marqués comme « impact parent »

Comment ça fonctionne

L'agent identifie les switches via SNMP et la table ARP
Les équipements connectés à un switch sont automatiquement définis comme ses enfants
Quand un parent passe hors ligne, les alertes des enfants sont supprimées et remplacées par une alerte de corrélation

Seuils et profils

Les seuils d'alerte peuvent varier selon le type de connexion de l'équipement :

Paramètre	Filaire	WiFi
Latence max (warning)	50 ms	100 ms
Latence max (critique)	200 ms	500 ms
Perte paquets (warning)	5%	15%
Perte paquets (critique)	20%	40%
Cycles anti-flapping	3	5

Les profils WiFi sont plus tolérants car les connexions sans fil sont naturellement plus instables.

Buffer local et résilience

Si l'agent perd temporairement sa connexion avec le serveur MQTT :

Les métriques sont stockées localement dans un buffer
Le buffer conserve jusqu'à 24 heures de données
Dès que la connexion est rétablie, les données sont envoyées par ordre chronologique
Aucune donnée n'est perdue pendant les déconnexions temporaires

info

Le buffer local garantit la continuité des données même lors de coupures Internet du site. La supervision continue localement et les données sont synchronisées dès le retour de la connexion.

Métriques disponibles

Par équipement

Métrique	Source	Fréquence
Statut (en ligne/hors ligne)	ICMP	30s
Latence (ms)	ICMP	30s
Perte de paquets (%)	ICMP	30s
Uptime	SNMP	5 min
Trafic réseau (octets)	SNMP	5 min

Par site

Métrique	Calcul
Taux de disponibilité	% d'équipements en ligne sur la période
Équipements en ligne	Nombre d'équipements répondant au ping
Alertes actives	Nombre d'alertes non résolues
Score de santé	Indicateur composite (uptime + latence + alertes)

Mécanisme de polling​

ICMP (Ping)​

SNMP​

Détection intelligente : anti-flapping​

Corrélation parent-enfant​

Comment ça fonctionne​

Seuils et profils​

Buffer local et résilience​

Métriques disponibles​

Par équipement​

Par site​