告警机制原理和规则说明 - WGCLOUD

告警报警配置说明 / 告警原理机制说明

1、告警静默（缓存）时间，同一条告警通知，默认2小时内不会重复发送，如下配置server/config/application.yml，可以修改，修改后重启server生效

若某个下线的告警资源恢复上线，则会清除该资源的告警缓存，再次下线后会继续告警。

比如一个服务接口，下线后，系统发送告警通知后，2小时内不会重复发告警通知，但是如果它在2小时内上线了（会发送恢复通知），再次下线，还是会发告警通知

如果它在2小时内一直处于下线状态，没有变化，则不会重复发告警通知，直到2小时后才会继续发送告警通知，发送后继续保持静默

2、进程、端口、文件防篡改、日志监控、docker、自定义监控项，这些监控资源添加后，agent会在3分钟内同步到监控资源信息，之后就会正常进行持续监测，

所以刚添加完没有获取到监控信息，这是正常的，不用担心

3、主机、进程、端口、文件防篡改、docker、数据库、服务接口、FTP、数通PING、数通SNMP，这些监控资源下线和上线恢复都会有通知（如果已经配置过告警方式的话）

其中，主机上线和下线会在5分钟内通知，新加入的主机也会发送上线通知

进程、端口、文件防篡改、docker这些资源下线后实时通知（一般2分钟内，以agent配置的上报时间为准），恢复上线后会在5分钟内通知

数据库、服务接口、FTP、数通PING、数通SNMP这些资源下线后实时通知，恢复上线后实时通知

4、主机cpu使用率、主机内存使用率、主机cpu温度、主机上下行速率、主机系统负载、连接数量，默认2分钟（以agent配置的上报时间为准），超过告警阈值就会发送告警通知，

但是它们没有恢复通知，因为我们这些资源是波动比较频繁的指标，所以没有实现恢复通知

其中CPU使用率和内存使用率，可以配置连续几次超过阈值后发送告警，默认2次

5、磁盘空间，默认15分钟扫描一次，不能自定义时间，超过告警阈值就会发送告警通知，有恢复通知

6、日志文件监控，默认10分钟（可在agent/config/properties修改），扫描到关键字就会发送告警通知，没有恢复通知

7、文件防篡改监测，默认每15分钟扫描一次，若发现文件或文件夹，被篡改或者删除，然后判定，发送下线告警通知，恢复后发送恢复通知

8、被控主机agent未上报数据超过设置的监控上报时间，系统会在2-3分钟确认，然后判定该被控主机下线

9、服务接口(默认10分钟，可server配置文件修改)、数据库、数据表(默认60分钟，可在server配置文件修改)、数通设备(默认15分钟，可在server配置

文件修改)监控以配置扫描间隔时间为准，发送下线告警通知，恢复后发送上线恢复通知

10、所有监控资源下线后，系统仍会继续扫描检测，不会停止，但是下线后，更新时间不会变化了，直到资源重新上线才会继续更新时间

11、关于告警表达式，告警表达式检测到成立后，会实时发送告警通知。告警表达式恢复时候会发送恢复通知

12、自定义监控项告警表达式，告警表达式检测到成立后，会实时发送告警通知。恢复后，也有恢复通知

告警机制视频讲解