搜索看看
告警信息多怎么办
我们可以调整下告警策略,减少告警通知数量,有时候告警消息多了,确实有些困扰,以下几种方式可以根据自己实际场景做调整
1、提高告警级别
(v3.4.7或以上版本支持)
系统的默认告警级别defaultWarn为INFO(会发送告警级别INFO、WARN、ERROR的告警通知),我们可以提升告警级别为WARN(会发送告警级别WARN、ERROR的告警通知),甚至ERROR(会发送告警级别ERROR的告警通知)
如下配置文件server/config/application.yml,修改如下配置defaultWarn后,重启server生效
#监控资源的告警级别,告警级别从高到底共3级:ERROR,WARN,INFO,如下是主机指标的告警级别配置,其他监控资源(如进程、端口、服务接口、数通监测、数据监测)的告警级别,可在编辑页面配置 level: #主机上行/下行传输速率的告警级别 speedWarn: WARN #主机内存使用率的告警级别 memWarn: WARN #主机系统负载的告警级别 sysLoadWarn: WARN #主机CPU使用率的告警级别 cpuWarn: WARN #主机CPU温度的告警级别 cpuTemperatureWarn: WARN #主机磁盘使用率的告警级别 diskWarn: WARN #主机磁盘SMART健康检测的告警级别 smartWarn: ERROR #主机下线的告警级别 hostDownWarn: ERROR #服务器登录提醒的告警级别 hostLoginWarn: INFO #指令下发的告警级别 shellWarn: INFO #设置系统发送告警通知的级别,指此级别或更高级别的资源出现故障,会发送告警通知 defaultWarn: INFO #是否将告警级别和标签添加到告警内容中,yes是,no否 addToWarnContent: yes
2、延长告警静默时间,默认是2小时,我们可以延长设置为4小时,或者6小时,或者8小时
告警静默时间,是指在该时间段同一条告警不会重复发送
如下配置文件server/config/application.yml,修改如下配置项warnCacheTimes后,重启server生效
#告警缓存时间间隔(此时间段内同一告警通知不再重复发),单位秒,默认120分钟。此期间只是不推送告警到第三方(邮件钉钉微信等)了,系统监控扫描工作仍正常进行 warnCacheTimes: 7200
若某个下线的告警资源恢复上线,则会清除该资源的告警缓存,再次下线后会继续告警
比如一个服务接口,下线后,2小时内不会重复发告警通知,但是如果它在2小时内上线了,再次下线,还是会发告警通知
如果它在2小时内一直处于下线状态,没有变化,则不会重复发告警通知
3、配置告警时间段
(v3.3.9或以上版本支持)
比如我们想在周一到周五的早上8点到晚上8点,这个时间段接收告警通知,其他时间不接受告警
我们在配置文件server/config/application.yml,修改如下配置项后,重启server生效
#告警时间段cron表达式设置(在该时间段内发送告警,其他时间不发),默认为空会持续发送,如'* * 8-20 ? * MON-FRI'表示周1到周5的8点-20点发送告警,'* * 8-20 * * ?'表示每天的8点-20点发送告警,带单引号 warnCronTime: '* * 8-20 ? * MON-FRI'
如上是cron表达式,也可以进行其他配置,比如
'* * 8-20 * * ?'
表示每天的8点-20点发送告警,记得带单引号
4、我们可以把告警阈值设置大些,也可以关闭某些不重要的告警开关
告警阈值、开关、时间段、规则在哪儿配置修改
5、或者我们可以直接关闭告警总开关,关闭后,相当于关闭所有告警通知
#告警总开关,yes开启,no关闭 allWarnMail: yes
6、也可以针对某个主机单独配置告警策略
针对一个或多个主机的告警阈值配置,点击此处查看