Новый Zabbix -- новые оповещения

система мониторинга zabbixПоскольку переход на новый zabbix состоялся и назад пути уже нет, мне пришлось крепко задуматься над оповещениями, которые этот самый zabbix рассылает. А задуматься есть над чем: если раньше сработавшие триггеры выдавали состояния "ON/OFF", то теперь -- "PROBLEM/OK". И эта проблема вовсе на такая мелкая, как может показаться на первый взгляд, особенно если учесть, что оповещения приходят в разное время суток людям с разной степенью адекватности их восприятия.

С одной стороны, это изменение к лучшему: "эргономика" повысилась и когда в 4 утра приходит SMS, спросонья спутать "PROBLEM" с "OK" гораздо труднее, чем "ON" с "OFF". И это хорошо. А с другой стороны, после обновления в оповещениях появились такие "шедевры", как "flycat.info: Low free disk space on volume /www/cache: OK".

Напомню, раньше это выглядело как "flycat.info: Low free disk space on volume /www/cache: OFF". С этим нужно было что-то делать, потому что некоторые оповещения получали весьма далёкие от системного администрирования и zabbix люди, которые резонно недоумевали: "Так что там у нас со свободным местом -- его мало, или всё-таки ОК?"

Кроме того, есть категория триггеров, которые проблемы в себе не содержат, например, изменение количества пользователей на машине. Раньше оповещение об этом выглядело более "нейтрально": "flycat.info: Number of connected users changed: ON". Сейчас это стало "проблемой": "flycat.info: Number of connected users changed: PROBLEM". Не очень приятно получать такое сообщение, но, похоже, выхода здесь нет.

В ходе экспериментов удалось выработать общие требования к формулировке текста триггера и сообщения:

  • Оповещение должно быть понятным и не допускать двойного толкования
  • Содержание текста триггера должно быть как можно короче (не в ущерб содержательности), чтобы, по возможности, SMSка помещалась на экране сотового без прокрутки
  • Триггер должен понятно выглядеть и в оповещении (по почте, SMS, Jabber) и в Zabbix Dashboard и в "Monitoring - Triggers"
  • Поскольку статус теперь явно указывает на проблему, формулировка триггера должна быть близка к формулировке айтема, его породившего
  • Для удобства мы убрали переменную {HOSTNAME} из всех триггеров и "загнали" её непосредственно в Action оповещений

Теперь осталось, подобно скульпторам, "отсчечь всё лишнее". Таким образом формулируя триггер про свободное место в таком виде: "Free space on /www/cache", мы получаем оповещение формата: "flycat.info: Free space on /www/cache: PROBLEM". По-моему, всё очень понятно и недвусмысленно: проблема со свободным местом на /www/cache на машине flycat.info.

Теперь разберёмся с доступностью/недоступностью. Прежняя формулировка была: "flycat.info: Server is unreachable - ON". Поразмыслив, мы убрали "сервер" и изменили это в "flycat.info: Reachability: PROBLEM". Проблема, так сказать, с доступностью. Кстати, странно, почему-то в одном шаблоне встречаются формулировки "Host information was changed on..." и "Server is unreachable". В общем, чтобы не заморачиваться на этот счёт, мы всё удалили :-)

Удалены были также все туманные слова "Lack of free swap space..." и "Low free disk space..." а также " Low number of free inodes".  (И почему swap -- Lack, а дисковое место и иноды -- low?) Теперь всё чётко: имя машины (flycat.info), параметр (free swap), его значение ("PROBLEM/OK").

Все триггеры, отвечающие за процессы, теперь выглядят так: "flycat.info: Process SSHD: PROBLEM". Это значит, что упал SSHD.

А изменение количества зашедших пользователей теперь выглядит как "flycat.info: N of logins changed: PROBLEM". Немного корявенько, но тоже вполне понятно.

После того, как изменения были опробованы на отдельной машине (текст приходящих сообщения читался и в почтовом клиенте и на сотовом в виде SMS), и формулировки были признаны удачными, пришло время поправить шаблоны и распространить изменения на все машины.

Конечно, такие изменения -- не догма и предполагается изменять формулировки и дальше. Кстати, интересно было бы узнать мнение читателей и их опыт в этой области.