ИВИТ

Антикризисное управление в IT. Часть 2 - IT BCP. Обеспечение непрерывности бизнеса

Антикризисное управление в IT. Часть 2 - IT BCP. Обеспечение непрерывности бизнеса

Планируем катастрофу?

Добрый день, уважаемые коллеги.

В одной из предыдущих статей, посвященной кризисным ситуациям мы коснулись вопросов написания антикризисного плана компании (в международной классификации - BCP) и, в частности, его IT-части - IT BCP. Там же были рассмотрены вопросы актуальности наличия антикризисного плана в каждой компании.

Основной темой настоящей статьи будет более глубокое погружение в данный документ. Мы детально рассмотрим структуру IT BCP, коснемся организационных и технических вопросов, а также разберем рабочий IT BCP на примере типового вероятного риска. Статья будет полезна собственникам бизнеса, риск-менеджерам, ИТ-директорам и другим руководителям, ответственным за непрерывность бизнеса.

crisis-1.jpg

Зачем бизнесу планы катастроф и как они устроены?

Разные компании в процессе своей работы решают множество стратегических и тактических задач Но все, так или иначе, стремятся к одному и тому же – улучшению своих показателей на рынке, минимизации расходов и увеличению прибыли. На разных этапах своей жизни бизнесы сталкиваются с аварийными ситуациями, которые могут кардинально поменять течение нормальной операционной деятельности компании или даже выбросить ее с рынка. Ненадолго, надолго или навсегда. В круг обязательных задач любой компании, независимо от размера и направления деятельности, входит превентивная работа с аварийными ситуациями - подготовка к ним, отработка в случае наступления, выход с минимальными потерями и дальнейшее совершенствование в этом направлении.

В общем случае в компании должен существовать единый документ BCP (business continuity plan – план обеспечения непрерывности бизнеса), регламентирующий и описывающий действия компании в типовых кризисных ситуациях и, самое главное, - действия при подготовке к ним.

Как правило, BCP пишется, внедряется и совершенствуется старшим офицером по безопасности или IT-директором при непосредственном участии руководителя организации. На этих лиц также возложены задачи по формированию антикризисной команды из числа сотрудников или путем привлечения внешних специалистов.

Разберем детально, как устроен IT BCP в общем случае, а также коснемся некоторых особенностей.

crisis-2.jpg

Обязательные разделы BCP

Раздел 1 - Каталог сценариев рисков

Это основной раздел антикризисного плана, включающий в себя описание всевозможных кризисных сценариев, путей их развития и максимально безболезненного закрытия.

Для каждого сценария указываются в обязательном порядке следующие параметры:

  • Вероятность наступления.
    Здесь по различным параметрам оценивается возможность реализации данного кризисного сценария. Может быть – совершенно незначительная, незначительная, вероятная, очень вероятная и ожидаемая. В основном, все зависит от страны и региона, в котором размещается офисное здание. Например, вероятность землетрясения в Центральной части России будет совершенно незначительная, а вот вероятность пожара или отключения электричества вполне может иметь статус вероятной.
  • Возможный урон для бизнеса.
    Данный параметр описывает различные последствия, которые насыпают для бизнеса в случае реализации кризисного сценария. Последствия бывают незначительными, минимальными, ощутимыми, значительными, критическими и ведущими к потере бизнеса. Очень важным является то, что последствия для бизнеса могут меняться с течением времени и определенный кризисный сценарий, незначительный на коротком интервале, может стать критическим по прошествии определенного времени.
  • Перечень затронутых подразделений.
    Здесь указываются подразделения, деятельность которых затрагивается при реализации кризисного сценария. Может быть одно или несколько подразделений, а может быть и вся компания в целом (как это бывает при реализации глобальных кризисных сценариев – пожар, землетрясение и тд.)
  • Триггеры риска.
    Содержит список всех превентивных мер, которые были приняты до наступления риска, и либо снижают вероятность наступления данного риска, либо минимизируют потери при наступлении. Сюда можно отнести автоматическое включение дизель-генератора при падении напряжение или автоматический перевод звонков на резервные линии в случае отказа телефонии.
  • Перечень мер противодействия, которые должны быть предприняты незамедлительно при наступлении кризисной ситуации.
    Здесь детально описываются все меры, которые должны быть предприняты при наступлении риска. Как административного, так и технического характера. Также указываются контакты третьих лиц и организаций, которые должны быть привлечены к разрешению инцидента.
  • Перечень ответственных лиц.
    Содержит перечень лиц, ответственных за закрытие данного конкретного риска. Список может меняться в зависимости от конкретного риска. Как правило, тут указываются генеральный директор, IT-директор, старший офицер по безопасности, руководитель АХО.
  • Перечень заместителей ответственных лиц, на случай их отсутствия.
  • Ссылки на дополнительную документацию, которая может понадобиться для противодействия данной кризисной ситуации.
    Содержит ссылки на всю дополнительную документацию. Которая потребуется для закрытия данного риска. Может включать в себя специфичные для данного риска операционные процедуры и регламенты компании, а также регламенты взаимодействия с третьими лицами, привлекаемыми для закрытия данного риска.

Раздел 2 - Роли и ответственность ключевых игроков команды IT BCP

Данные раздел детально описывает роли всех участников процесса по закрытию риска. В общем случае включает в себя следующие роли:


  • Роль: Ответственный за разрешение инцидента.
    Как правило, это топ-менеджер компании или IT-директор.

    Обязанности:
    - оценивает ситуацию в целом, оценивает возможные последствия для бизнеса и время разрешения инцидента (закрытия риска);
    - оказывает информационное сопровождение инцидента – отвечает за получение клиентами, партнерами и СМИ правильной и непротиворечивой информации о происходящем;
    - обеспечивает своевременную осведомлённость персонала и стейкхолдеров об инциденте и о предпринятых шагах к скорейшему разрешению инцидента;
    - обеспечивает кризисную команду необходимыми ресурсами и поддержкой на протяжении всего времени работы над инцидентом.

  • Роль: Контролер/координатор разрешения инцидента.
    Эту роль также может выполнять IT-директор или одни из линейных руководителей наиболее затрагиваемого инцидентом подразделения.

    Обязанности:
    - принимает решение об активации IT BCP;
    - определяет наиболее подходящую стратегию восстановления для конкретной ситуации;
    - оценивает степень нанесенного инфраструктуре и оборудованию ущерба, докладывает ответственному за разрешение инцидента;
    - привлекает к разрешению инцидента необходимых специалистов;
    - участвует в активации резервной локации;
    - управляет, координирует и отслеживает все работы по разрешению инцидента (совместно с Антикризисной командой);
    - обеспечивает необходимый для скорейшего разрешения инцидента уровень коммуникации между всеми задействованными в разрешении сотрудниками;
    - планирует, организует и проводит отчетные встречи сотрудников о текущем статусе инцидента;
    - отвечает за минимизацию нанесенного инцидентом ущерба.

  • Роль: Руководство разрешением инцидента.
    Эта роль выполняется линейным руководителем или главным специалистом необходимого профиля.

    Обязанности:
    - координирует работу антикризисной команды в соответствии с BCP;
    - оказывает помощь в оценке последствии инцидента;
    - определяет любые особые требования для обеспечения непрерывности бизнеса;
    - поддерживает связь с другими группами восстановления (в том числе и внешними), чтобы избежать дублирования задач и усилий;
    - выполняет все согласованные требования в соответствии с временными рамками BCP;
    - постоянно контролирует уровни риска во всех аспектах бизнеса и консультирует координатора разрешения инцидента о любом значительном увеличения риска;
    - реализует стратегию восстановления.

  • Роль: Непосредственное разрешение инцидента.
    Команда профильных специалистов, занятых в непосредственном разрешении инцидента.

    Обязанности:
    - на время инцидента создается специальная организационная структура, состоящая из штатных сотрудников компании. Эти сотрудники в составе команды восстановления занимаются непосредственно всей операционной деятельностью по разрешению инцидента.

В небольших компаниях довольно часто за BCP (при его наличии) отвечает один человек – генеральный директор. На него возлагается вся полнота ответственности за продолжение бизнеса в различных ситуациях.


Раздел 3 – Решение типовых задач

В данном разделе указываются все принятые в компании превентивные меры, направленные на продолжение ее функционирования в различных кризисных ситуациях с детальным описанием возможности и срока применения. Тезисно содержатся регламенты взаимодействия с внешними подрядчиками (телефонии, интернета, электричества) в части работы в критических ситуациях. Описываются режимы и сроки работы источников бесперебойного питания, дизель-генераторов, порядок переключения на резервные каналы связи (при их наличии).

Кроме того, данный раздел содержит инструкции по восстановлению типовых сервисов, пострадавших в результате реализации различных кризисных сценариев. Типичным примером подобной инструкции будет регламент восстановления работы сервера баз данных после полной гибели дискового хранилища, включающий в себя - порядок замены жестких дисков и, при необходимости, их закупки, порядок развертывания баз данных из резервных копий, порядок взаимодействия с заинтересованными пользователями во время и после восстановления работы сервиса.


Другие возможные разделы

Помимо описанных выше основных разделов для компаний, работающих в различных отраслях, в BCP могут быть введены специализированные разделы, характерные для конкретного бизнеса. Например, BCP крупных логистических компаний содержит детальные протоколы изменения маршрутов при отказе одного или нескольких логистических центров, складов. BCP компаний, работающих в сфере скоропортящихся продуктов питания, ориентирован в первую очередь на непрерывность работы рефрижераторов и возможность их гарантированной замены в установленные сроки.

crisis-3.jpg

Пример IT BCP для одного типового риска

Теперь, обладая необходимыми теоретическими знаниями и методикой построения IT BCP, в качестве примера разберем типовой риск, который также будет актуальный практически для любого бизнеса – долговременное отключение электричества. Данный риск является тяжёлым, в ряде случаев может привести к долгосрочной остановке или даже потере бизнеса в регионе. Имеет типовые сценарии наступления и развития, в зависимости от инфраструктуры предприятия. Имеет также типовые сценарии полного или частичного закрытия (устранения), в зависимости от того, какая сумма будет на это затрачена.

Итак, выдержка из реального IT BCP одной сервисной компании (публикуется с согласия автора):


Сценарии рисков
Название риска Отказ системы электропитания длительностью от 30 минут до нескольких дней
Возможный сценарий возникновения Глобальный сбой в магистральной сети электропитания, возникший в результате техногенной катастрофы, природной катастрофы, действий третьих лиц, отказа инфраструктуры подрядчика и тд.
Вероятность наступления Вероятен
Последствия для бизнеса Критические. Высокие репутационные и материальные потери в течение 6 часов. Потеря бизнеса в регионе Россия и СНГ в течение 1 дня.
Затронутые департаменты/сервисы Все департаменты/все IT-сервисы компании
Основные цели по закрытию риска Немедленное восстановления всех ключевых IT-сервисов компании (имеющих критических приоритет в каталоге сервисов)
Триггеры риска 3 устройства бесперебойного питания включаются автоматически при наступлении риска
Необходимые действия и мероприятия
  • Устройства бесперебойного питания обеспечивают работу серверного помещения и 10 компьютеров колл-центра в течении 1 часа
  • Запуск дизель-генератора в течение 1 часа и обеспечение регулярного подвоза дизельного топлива с интервалом в 12 часов
  • Контакт с провайдером телефонии и перевод входящих звонков в резервный колл-центр (согласно антикризисному протоколу работы колл-центра)
  • Перемещение сотрудников колл-центра в резервную локацию (согласно антикризисному протоколу работы колл-центра)
Ответственные за закрытие риска COO и Директор по IT
Заместители ответственных за закрытие риска CEO и Руководитель службы безопасности
Дополнительная документация Директива 37-95. Работа IT в кризисной ситуации. Раздел 3 – Работа с критическими рисками. Директива 37-16. Обеспечение непрерывности работы колл-центра.

Роли и ответственность ключевых игроков команды IT BCP
  • COO (CEO его замещающий)
    Роль: Ответственный за разрешение инцидента

    Обязанности:
    - проводит первичную оценку ожидаемого времени простоя
    - проводит инвентаризацию возможных мер разрешения инцидента
    - извещает всех заинтересованных лиц в компании о масштабах отключения, прогнозируемом времени восстановления подачи электричества
    - курирует работу антикризисной команды на протяжении всего времени разрешения инцидента

  • IT-директор (Руководитель службы безопасности его замещающий)
    Роль: Контролер/координатор разрешения инцидента

    Обязанности:
    - принимает решение об активации кризисного сценария №6 IT BCP «Отказ системы электропитания длительностью от 30 минут до нескольких дней»;
    - определяет наиболее подходящую стратегию восстановления для данного сценария в соответствии с информацией, полученной от ответственного за разрешение инцидента. Возможные антикризисные стратегии:
    1. Работа офиса от источников бесперебойного питания.
    2. Работа офиса от дизель-генератора.
    3. Перемещение персонала компании на резервную локацию.
    - организует работу антикризисной команды и персонала компании в соответствии с выбранной стратегией;
    - Инициирует расконсервацию резервной локации при выборе антикризисной стратегии «Перемещение персонала в резервную локацию» в соответствии с Директивой 37-16. Обеспечение непрерывности работы колл-центра;
    - 1 раз в час организует бриф-встречи в формате COO, IT-директор, команда антикризисного управления для обсуждения развития кризисного сценария и принятия решений о дальнейших шага.

  • Команда антикризисного управления
    Роль: Руководство разрешением инцидента

    Обязанности:
    - координирует работу антикризисной команды в соответствии с выбранной антикризисной стратегией;
    - на регулярной основе общается с энергосбывающей компанией с целью скорейшего разрешения инцидента;
    - в случае выбора стратегии 2 «Работа офиса от дизель-генератора» организует непрерывную доставку дизтоплива для генератора в течение 1 часа;
    - в случае выбора стратегии 3 «Перемещение персонала в резервную локацию»:
    1. инициирует перевод телефонных линий на номера резервной локации в течение 24 часов;
    2. непосредственно руководит расконсервацией резервной локации;
    3. организует перемещение персонала на резервную локацию;

  • Команда восстановления
    Роль: Непосредственное разрешение инцидента

    Обязанности:
    - команда восстановления по сценарию №6 «Отказ системы электропитания длительностью от 30 минут до нескольких дней» формируется из главного энергетика, специалиста по безопасности и IT-специалиста, ведет непосредственную операционную деятельность по разрешению данного инцидента в соответствии с выбранной антикризисной стратегией.

Решение типовых задач

Компания им имеет механизмы защиты, предназначенные для обеспечения непрерывности бизнеса в случае отключения электричества, в том числе:
- 24x7 соглашения о поддержке / техническом обслуживании с ключевыми поставщиками;
- Резервные батареи телефонной станции, рассчитанные на 3 часа работы;
- Устройства ИБП (источники бесперебойного питания), питающие ключевые серверы, АТС и 10 персональных компьютеров пользователей, рассчитанные на 1 час работы;
- Две независимые системы кондиционирования;
- Системы газового пожаротушения;
- Законсервированную резервную площадку с гарантированным временем развертывания в течение 24 часов. Протокол развертывания доступен по ссылке и инициируется COO или CEO;
- Дизель-генератор с гарантированным временем старта в течение 15 минут.

crisis-4.jpg

Итого

Мы рассмотрели структуру типового IT BCP для компании средних размеров и детально разобрали пример его написания для типового риска. На основании данного материала ответственный за непрерывность бизнеса сотрудник сможет составить и проработать для себя подходящий BCP, проработать практически любые типовые риски, выбрать и оценить те, от которых необходимо защищаться в первую очередь, оценить финансовые затраты.

© "IVIT", при полном или частичном копировании материала ссылка на первоисточник обязательна.
Нашли ошибку в тексте? выделите нужный фрагмент и нажмите ctrl + enter
Рекомендуем прочесть
Дмитрий Гуров
14.03.2018
8 мин
В одной из предыдущих статей, посвященной кризисным ситуациям мы коснулись вопросов написания антикризисного плана компании (в международной классификации - BCP) и, в частности, его IT-части  - IT BCP.  Там же были рассмотрены вопросы актуальности наличия антикризисного плана в каждой компании.

Основной темой настоящей статьи будет более глубокое погружение в данный документ. Мы детально рассмотрим структуру IT BCP, коснемся организационных и технических вопросов, а также разберем рабочий IT BCP на примере типового вероятного риска. Статья будет полезна собственникам бизнеса, риск-менеджерам, ИТ-директорам и другим руководителям, ответственным за непрерывность бизнеса.
Читать далее
Иван Варламов
04.10.2017
7 мин
В данном материале я попытался систематизировать накопленный опыт построения и обслуживания компьютерных сетей, чтобы заказчики могли примерно оценить где они сейчас находятся, какие риски несут и какие затраты им предстоят. Материал будет дорабатываться по мере появления нового опыта и взглядов.
Читать далее
Дмитрий Гуров
01.03.2018
7 мин
В жизни бизнеса, даже самого хорошо отлаженного, иногда случаются кризисные ситуации. Пожар, наводнение, отказ сервисов телефонии и интернета, да и просто массовое заболевание среди персонала – от этого не застрахована ни одна компания. От того, насколько хорошо компания готова к разного рода кризисным ситуациям во многом зависит ее жизнеспособность и возможность дальнейшего полноценного функционирования.
Читать далее
Свяжитесь с нами
Оставьте свое сообщение с описанием вашей задачи или проблемы.
Наши специалисты свяжутся с вами в ближайшее время