Как «ИТ-ГРАД» трансформировал систему мониторинга

В сегодняшней статье мы расскажем об уникальном кейсе — как впервые на рынке российского IaaS в условиях объединения трех облачных провайдеров происходила трансформация системы мониторинга. Отдельно поговорим о сложностях и точках роста в создании услуги мониторинга для заказчиков. Технические детали и нюансы — намеренно опустим, сосредоточим внимание на административных сложностях процесса.

Что побудило нас к построению новой системы мониторинга

Как вы, возможно, знаете, в конце 2018 года состоялась сделка, в рамках которой облачный бизнес «ИТ-ГРАД» перешел в облачное направление к ПАО МТС. Слияние стало первым шагом в реализации концепции «Объединенного облачного провайдера», который на текущий момент представлен тремя брендами:

  • #CloudMTS, создан центром инноваций компании МТС.
  • Компания «ИТ-ГРАД», облачный IaaS-провайдер.
  • Сервис 1cloud.

Сегодня все три бренда работают совместно и взаимно дополняют друг друга. Однако в ходе слияния был запущен процесс по выделению облачной IT-инфраструктуры «ИТ-ГРАД» в отдельный сегмент. Это был сложный переходный момент — именно тогда началось отключение большого количества оборудования и ЦОДов, которые не вошли в контур сделки. К тому же поменялась маршрутизация внутренней и внешней сети. Сроки, как всегда, поджимали, триггеры в системе мониторинга не всегда удавалось актуализировать вовремя. Это привело к генерации множества ложных инцидентов от уже несуществующего оборудования.

В результате сотрудники первой линии поддержки столкнулись с таким огромным потоком ложных оповещений, что физически обработать все события корректно и своевременно было довольно сложно. Требовалось полностью перенастроить систему мониторинга, актуализировать ее под текущие задачи.

В итоге было принято решение создать выделенное подразделение управления событиями, которое наладит работу системы мониторинга в «ИТ-ГРАД» и впоследствии станет единым центром по наблюдению за состоянием инфраструктуры объединенного облачного провайдера. Требовалось решить следующие важные задачи:

  • Сделать так, чтобы система мониторинга работала не только на «ИТ-ГРАД», но и стала внутренним сервисом для «Объединенного облачного провайдера» и услугой для заказчиков.
  • Организовать сбор статистики со всей IT-инфраструктуры.
  • Обеспечить сбор всех событий в едином агрегаторе данных и при необходимости выполнять автоматическое оповещение пользователей.
Это интересно!  Что может помешать развитию квантовых компьютеров

От определения требований до запуска услуги 

Чтобы добиться поставленных целей, требовалось собрать и проанализировать все данные, разбив реализацию проекта на несколько шагов: определить требования к системе мониторинга, подготовить модели «здоровья» компонентов услуги, проанализировать требования к надежности и отказоустойчивости системы мониторинга, протестировать и последовательно внедрить систему, а после — представить услугу мониторинга для клиентов. Рисунок ниже более наглядно демонстрирует описанный процесс:

Внедрение новой системы не обошлось без сложностей, перечислим основные:
Формирование нового отдела — оказалось, что непросто найти узкоспециализированных сотрудников, которые знают и имеют практический опыт работы с различными системами мониторинга.
Сжатые сроки для решения задачи.
Географически разрозненная IT-инфраструктура, которую требовалось привести к единому стандарту.
Большое количество разрозненных систем мониторинга, которые было необходимо объединить в единую систему.

Учет и контроль

Любая IT-инфраструктура требует не только учета и контроля, но и ведения отчетности. Ни одно событие, даже самое незначительное, не должно оставаться без внимания. На текущий момент в «ИТ-ГРАД» удалось выстроить процесс, который включает в себя:

  • Создание отчетов и отслеживание статистики по компонентам заказчиков.
  • Проведение управленческого анализа «Эксплуатационное состояние» внутренней инфраструктуры.
  • Планирование улучшений услуг на основе собранной отчетности.

Созданная единая CMDB теперь позволяет отслеживать состояние и историю событий как по всей инфраструктуре, так и по конкретным компонентам. Дополнительно отслеживается состояние отдельных услуг, например, резервное копирование с точки зрения корректности его выполнения.

Если по какой-то причине задача отрабатывает с ошибкой, регистрируется инцидент, где указывается сервер резервного копирования, задача и виртуальная машина — наличие этой информации помогает все быстро починить. Благодаря мониторингу услуг, «ИТ-ГРАД» может предоставлять отчёты своим клиентам.

Полученные результаты 

Новая система мониторинга уже активно функционирует, и мы готовы поделиться с вами результатами её работы.

Это интересно!  Облачные сервисы: опыт использования IaaS российскими компаниями

Полностью восстановлен мониторинг. На текущий момент нам удалось восстановить мониторинг инфраструктуры «ИТ-ГРАД» и избавиться от генерации ложных инцидентов. Услуга для клиентов проходит тестирование и скоро станет доступна. В дальнейшем мы планируем завершить объединение инфраструктур, подключив 1cloud и #CloudMTS к единой системе мониторинга «ИТ-ГРАД».

Серьезные изменения в работе техподдержки. Ранее при срабатывании триггера на alert генерировался инцидент на 1-линию поддержки. Дежурный сотрудник обрабатывал его и оповещал заказчика либо звонком, либо по электронной почте. Сейчас всё работает автономно — при срабатывании триггера в течение 2-х минут, если это необходимо, происходит автоматическое оповещение клиента.

Контроль за «состоянием здоровья». В рамках процесса мониторинга и контроля услуг мы в режиме реального времени следим за «состоянием здоровья» рабочей IT-среды, автоматизировано оповещая как внешних, так и внутренних пользователей. Мониторинг состояния IT-инфраструктуры и услуг, а также собираемые данные позволяют предпринимать проактивные действия до того, как что-то выйдет из строя.

Как видите, процесс построения системы мониторинга полон подводных камней. Но мы уверены, что в результате совместной работы нашей команды инженеров и аналитиков получился отличный продукт, который решает сразу две бизнес-задачи: обеспечивает качественным мониторингом «ИТ-ГРАД» и позволяет реализовать мониторинг как услугу для клиентов.

 

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...