告警机制说明

1、告警静默(缓存)时间,同一条告警通知,默认2小时内不会重复发送,如下配置server/config/application.yml,可以修改,修改后重启server生效
若某个下线的告警资源恢复上线,则会清除该资源的告警缓存,再次下线后会继续告警。
比如一个服务接口,下线后,系统发送告警通知后,2小时内不会重复发告警通知,但是如果它在2小时内上线了(会发送恢复通知),再次下线,还是会发告警通知
如果它在2小时内一直处于下线状态,没有变化,则不会重复发告警通知,直到2小时后才会继续发送告警通知,发送后继续保持静默
2、进程、端口、文件防篡改、日志监控、docker,这些监控资源添加后,agent会在3分钟内同步到监控资源信息,之后就会正常进行持续监测,
所以刚添加完没有获取到监控信息,这是正常的,不用担心
3、主机、进程、端口、文件防篡改、docker、数据源、服务接口、FTP、数通PING、数通SNMP,这些监控资源下线和上线恢复都会有通知(如果已经配置过告警方式的话)
其中,主机上线和下线会在5分钟内通知,新加入的主机也会发送上线通知
进程、端口、文件防篡改、docker这些资源下线后实时通知(一般2分钟内,以agent配置的上报时间为准),恢复上线后会在5分钟内通知
数据源、服务接口、FTP、数通PING、数通SNMP这些资源下线后实时通知,恢复上线后实时通知
4、主机cpu使用率、主机内存使用率、主机cpu温度、主机上下行速率、主机系统负载、连接数量,默认2分钟(以agent配置的上报时间为准),超过告警阈值就会发送告警通知,
但是它们没有恢复通知,因为我们这些资源是波动比较频繁的指标,所以没有实现恢复通知
其中CPU使用率和内存使用率,可以配置连续几次超过阈值后发送告警,默认2次
5、磁盘空间,默认15分钟扫描一次,不能自定义时间,超过告警阈值就会发送告警通知,有恢复通知
6、日志文件监控,默认10分钟(可在agent/config/properties修改),扫描到关键字就会发送告警通知,没有恢复通知
7、文件防篡改监测,默认每15分钟扫描一次,若发现文件或文件夹,被篡改或者删除,然后判定,发送下线告警通知,恢复后发送恢复通知
8、被控主机agent未上报数据超过设置的监控上报时间,系统会在2-3分钟确认,然后判定该被控主机下线
9、服务接口(默认10分钟,可server配置文件修改)、数据源、数据表(默认60分钟,可在server配置文件修改)、数通设备(默认15分钟,可在server配置
文件修改)监控以配置扫描间隔时间为准,发送下线告警通知,恢复后发送上线恢复通知
10、所有监控资源下线后,系统仍会继续扫描检测,不会停止,但是下线后,更新时间不会变化了,直到资源重新上线才会继续更新时间
11、关于告警表达式,告警表达式检测到成立后,会实时发送告警通知。告警表达式恢复时候会发送恢复通知
12、自定义监控项告警表达式,告警表达式检测到成立后,会实时发送告警通知。恢复后,也有恢复通知
告警机制视频讲解