Аналитический сервис для ИТ-операций (ITSI)

Аналитический сервис для ИТ-операций (ITSI) — мост между технической и бизнес командами

Недавно, будучи свидетелями совместной работы бизнес команды и технической команды, оказывающей им поддержку у одного из наших клиентов, мы имели возможность наблюдать в определенный момент некоторую борьбу между группами в IT-операциях. Как сказал один мудрец, они испытывали «Взаимное непонимание». Бизнес команда была сосредоточена на продуктовой линейке и множестве бизнес-процессов. Техническая группа пыталась разобраться в технических деталях фундаментальных микро-услуг, и том как они влияют на продуктовую линейку. В течение первых 15-ти минут совместной работы, обе команды разочаровались, т.к. не чувствовали, что у них получается найти общий язык. Это сформировало общее мнение, что их встреча не приведет к ожидаемым группами результатам.

Команды понимали, что несут ответственность за успех друг друга, но не знали, каким образом прийти к соглашению. Как сказал другой мудрец, лучше один раз увидеть, чем сто раз услышать. И мы решили показать им пример того, как обе команды могли бы работать вместе. Барабанная дробь!

Мы собрали вместе обе группы и познакомили их с аналитическим сервисом для ИТ-операций в Splunk (IT Service Intelligence, ITSI). Это были команды финансового учреждения, поэтому мы решили начать с примера того, как бизнес команда могла бы следить за актуальными для них показателями в режиме реального времени; показатели «здоровья» процессов, показатели доходов с разбивкой по источникам и количество взаимодействий с системой в целом (подсчёт пользователей-клиентов). Бизнес команда сообщила, что их руководителю необходимо постоянно следить за этими ключевыми показателями эффективности.

Вот пример, который мы использовали. Первое из двух представлений Glass Table в ITSI:

11

 

 

 

 

 

 

 

 

Бизнес команда была поражена! Тем не менее у технической было огромное количество вопросов «Как Splunk получает эти числа?», «Что происходит, если они не достигают заданного порогового значения?» и т.д.»

Эти и многие другие вопросы были совершенно справедливы, однако мы ответили вопросом к технической команде, что для них является наиболее важным? Команда ответила, что их самый важный ресурс для поиска и устранения неисправностей – это схема сети. Мы спросили, удобно ли им будет видеть эти данные в чём-то вроде этого?

22

 

 

 

 

 

 

 

 

Так мы вызвали поток новых, действительно важных вопросов:

  • Как построен этот сервис?
  • Что (этот компонент сервиса) делает?
  • Где живут эти компоненты?
  • Почему сервис это делает?

Прежде, чем мы начали отвечать, люди из обеих команд начали использовать визуальные примеры в качестве помощников, чтобы попытаться ответить на вопросы друг друга. ITSI создал такую среду взаимодействия, которая позволила каждой команде понять, что является самым важным друг для друга. Что более важно, команды приступили к совместной разработке ключевых показателей эффективности, они вместе думали и были полезными друг другу так, как если бы это работала одна команда. После того, как они завершили свой список топ-10 KPI, они спросили, как все это будет происходить?

Как мы и объясняли командам, одно из основных преимуществ IT Service Intelligence – это гибкость, способность принимать список сущностей (хостов, служб, сетевых устройств и почти любых уникальных, ну… сущностей) и использовать его для создания ключевых показателей эффективности. Мы поделились с каждой командой информацией о том, как создать KPI по своему усмотрению (спойлер – все, что вы можете получить, введя запрос в Splunk, может стать KPI). Техническая команда хотела видеть индивидуальные показатели производительности сущностей в то время, как бизнес команда хотела бы видеть только агрегаты… Мы сказали: Да! Это тоже можно сделать с помощью Splunk IT Service Intelligence.

Заключительная часть нашей поучительной лекции была посвящена введению в модуль «адаптивные пороговые значения», который также действительно хорош. Мы немного повысили ставку, сказав: «Но подождите! Если вам понравился аналитический сервис для IT-операций, возможно вам понравится и входящий в него детектор аномалий! J»

333

 

 

 

 

 

 

 

 

 

 

Почему это ТАК важно?

  1. Способность групп понимать и взаимодействовать появилась через возможность в буквальном смысле слова видеть удобное и понятное представление данных через Glass Table;
  2. Эти команды смогли определить на лету, какие KPI являются наиболее важными для них, не занимаясь громоздкой процедурой связи с руководством;
  3. Возможность использования адаптивных пороговых значений (через машинное обучение) и, как следствие, обнаружение аномалий позволило командам получить представление о вещах, о которых им стоит волноваться;
  4. Самое главное, что теперь техническая и бизнес команды могут быстро изолировать события, влияющие на прибыль и дать представление «почему» почти в режиме реального времени, используя «упреждение» (как усовершенствовать в будущем), а не «реакцию» (разбираясь что произошло и перебирая все возможные варианты почему это могло случиться).

Как технолог, я оставляю вас наедине с вызовом, работайте со своими командами. Потратьте время, чтобы увидеть, насколько сильно похожи между собой существующие в ваших командах KPI и SLA. Всеми силами раскручивайте IT Service Intelligence Test Drive, чтобы использовать его в качестве примера, максимально продемонстрировать его возможности и способность объединенного реагирования групп.