Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями

Бизнес в XXI веке немыслим без информационных технологий. Это мощный двигатель экономики, но в то же время и источник рисков. Непрерывность бизнес-процессов «завязана» на бесперебойности работы ИТ-сервисов. Их отказ грозит в лучшем случае простоями и финансовыми потерями, в худшем — катастрофическими последствиями. Какими средствами обеспечивается информационная безопасность и непрерывность бизнеса, читайте в нашем материале.

Составные элементы кризис-менеджмента: BCM, BCP, DRP

Чем больше используются в бизнесе информационные технологии, тем серьезнее он нуждается в обеспечении бесперебойности процессов. Это касается кредитно-финансовых, телекоммуникационных компаний, высокотехнологичных предприятий непрерывного производственного цикла, например атомных электростанций. Продуманная система кризис-менеджмента востребована в ритейле, электронной коммерции, государственном секторе — словом, практически везде, где критически важна непрерывность деловой активности.

Для ряда отраслей существуют специальные регламенты в отношении непрерывности бизнеса, которые должны соблюдаться для лицензирования деятельности.

Степень риска определяется теми последствиями, которыми грозит сбой в работе ИТ-сервисов. Например, для банков даже непродолжительный перерыв в деятельности чреват колоссальными материальными потерями. А если инцидент произойдет в авиакомпании или на предприятии ТЭК? Здесь уже под угрозой не только деньги — опасности подвергаются жизни людей.

Причины возникновения бизнес-рисков различны. Это и природные бедствия (вспомним ледяной дождь в Москве в 2010 году, экономический ущерб от которого для ОАО «МОЭСК» составил порядка 1,3 млрд рублей[1]), и аварии в энергосистемах, не говоря уже о киберпреступлениях (их количество только в России ежегодно возрастает в три–четыре раза)[2]. В связи с многообразием рисков актуальность обеспечения информационной безопасности (ИБ) не вызывает сомнений.

Опрос, проведенный компанией DEAC в 2019 году, продемонстрировал ситуацию относительно рисков непрерывности бизнеса в российской деловой среде. Согласно результатам решения по обеспечению бесперебойности процессов наиболее востребованы в двух сферах — финансовой и информационной. В случае недоступности ИТ-систем 40% опрошенных смогут продолжать работу не более часа, 24% — не более минуты. Максимальную угрозу непрерывности бизнеса несут риски, связанные с информационной безопасностью и изменениями в законодательстве страны. Причем почти половина респондентов считает, что в ближайшее время эти риски будут только расти.

Существуют инструменты кризис-менеджмента, через которые реализуется общая информационная безопасность предприятия. Это специальные технологические дисциплины — BCM (BCP & DRP). Они «вытекают» из системы ИБ, наследуя ее методологию и следующие основные принципы:

  • анализ рисков появления и влияния чрезвычайных ситуаций на деловые процессы и функции;
  • контроль и управление инцидентами;
  • стратегическое и тактическое планирование непрерывности информационно-коммуникационных технологий (ИКТ).

BCM (BCP & DRP) обеспечивают безопасность бизнеса в целом, что обозначено во многих международных, национальных и отраслевых стандартах. В частности, в ISO/IEC 27001, ISO 22301:2012. Первый международный стандарт посвящен вопросам ИБ в общем, второй касается конкретно применения BCM. Соответствие их требованиям следует учитывать при выборе дата-центра для хранения информации. Если же предполагается задействовать собственные ресурсы предприятия, стоит задуматься о внедрении данных стандартов — это станет залогом безопасности данных и непрерывности бизнес-процессов.

Однако рассматриваемые дисциплины не тождественны управлению ИБ, которое является для них лишь основой. Исторически начавшись с банального резервного копирования информации, система BCM постепенно охватила помимо вопросов ИБ практически все аспекты деловой активности, превратившись в целостную структуру взглядов на методы обеспечения непрерывности бизнеса — устойчивости организации к всевозможным сбоям, разрушениям и потерям, в первую очередь — финансовым.

Для справки

  • BCM (Business Continuity Management) — управление непрерывностью бизнеса.
  • BCP (Business Continuity Planning) — планирование непрерывности бизнеса.
  • DRP (Disaster Recovery Planning) — план восстановления после сбоев.

Основные понятия, цели и задачи управления непрерывностью бизнеса

Приоритетные цели и задачи BCM зависят от масштаба и сферы деятельности. Во главу угла ставится управление определенным типом или классом взаимосвязанных инцидентов.

  1. Incident management (IM), или управление инцидентами, охватывает целый комплекс происшествий высокой и средней вероятности возникновения — человеческий фактор, сбой в работе оборудования и прочее. На этом уровне ущерб бизнесу сравнительно невелик. Задачи и цели IM — обеспечить сохранность, доступность, целостность информации, отказоустойчивость оборудования.
  2. Business continuity & disaster recovery management, или управление непрерывностью бизнеса и аварийным восстановлением, нацелено на предотвращение инцидентов, которые могут привести к приостановке работы всей организации или ее важнейших бизнес-процессов. Вероятность их невелика, но ущерб может оказаться внушительным, вплоть до банкротства. По данным исследования, проведенного компанией Veeam Software в 2019 году, ежегодные мировые потери от простоев приложений превышают 20 млн долларов, по России эта цифра немного ниже — 19,8 млн долларов[3].
  3. Crisis & emergency management, или управление чрезвычайными (кризисными) ситуациями, ставит своей задачей предупреждение крайне редких, но катастрофических по последствиям инцидентов. Возможны экологические и гуманитарные катаклизмы, инфраструктурные разрушения в границах целого региона. Например, высокий уровень обеспечения непрерывности деятельности предприятий необходим в ТЭК (разведка, добыча, переработка углеводородов, производство электроэнергии).

На заметку

Ключевым понятием в управлении непрерывностью бизнеса (BCM) выступает «инцидент», под которым понимается любое незапланированное, внезапное происшествие, событие, ведущее к остановке ключевых, критичных процессов и функций, полной потере контроля над оборудованием.

О том, к каким драматическим последствиям для бизнеса может привести недооценка влияния инцидентов на непрерывность, красноречиво свидетельствуют следующие примеры.

12 мая 2017 года компьютеры по всему миру подверглись атаке вируса-вымогателя WannaCry. Он шифровал файлы на устройстве, а для восстановления доступа к ним требовал выкуп, причем неуплата в течение семи дней приводила к необратимой блокировке. Вредоносная программа атаковала более 200 стран, сильнее всего пострадали Россия, Украина, Индия и Тайвань. WannaCry парализовал работу больниц, аэропортов, заводов, банков, правительственных учреждений. Экономические потери от кибератаки составили около 4 млрд долларов[4]. Есть мнение, что в Агентстве Национальной Безопасности США были данные об уязвимости Windows, которые похитили и использовали злоумышленники. Таким образом, при надлежащем уровне предусмотрительности ущерб можно было предотвратить.

Полтора месяца спустя инцидент повторился, но уже с другой вредоносной программой: печально известный вирус Petya действовал аналогичным образом. Самые масштабные потери от него понесли российские и украинские компании[5].

Внедрение и применение программ BCM позволило бы значительно сократить размеры потерь, а возможно, и вовсе избежать катастрофических происшествий. Управление непрерывностью бизнеса — залог сохранности вложенных владельцами и акционерами средств. Если основная площадка дата-центра в результате сбоя или по другой причине временно выйдет из строя, работа будет в кратчайшие сроки продолжена на резервной площадке.

Статистика

По данным The Impact of Catastrophes on Shareholder Value (Rory J. Knight и Deborah J. Pretty), кумулятивный доход сверх нормы (разница между ожидаемой и реальной стоимостью акций) компаний, успешно восстановивших деятельность после крупномасштабной аварии, через год составляет в среднем 10%. В то же время корпорации, не внедрившие BCM, получают те же 10% и даже 15%, но со знаком минус.

Этапы внедрения BCM

Управление непрерывностью бизнеса (BCM) начинается с определения стратегии и планирования. Одновременно используются инструменты риск-менеджмента (Risk Management, RM). Таким образом, внедрение системы BCM в организации означает комплексный и многоэтапный подход, подразумевающий освоение технических и программных средств, регламентацию действий, распределение ответственности, обучение персонала. Осуществить все это силами самой компании, мягко говоря, проблематично. Выход — обратиться за помощью к ИТ-экспертам. Они не только грамотно разработают план мероприятий и подберут оптимальные для компании решения, но и помогут воплотить проект системы в жизнь.

Анализ и оценка рисков

  1. Анализ бизнес-процессов (Business Environment Analysis, BEA). Характер рисков для различных организаций зависит от сферы и масштаба их деятельности. Например, в медицинском учреждении отказ системы учета пациентов не будет критичным, чего нельзя сказать о сбое в работе высокотехнологичного реанимационного оборудования. Отказ приложения для автоматизации совместной деятельности рабочих групп в телекоммуникационной компании, вероятно, к кризису не приведет, но вот сбой в системе биллинга, несомненно, обернется существенными финансовыми потерями. Эти примеры демонстрируют, что в разном бизнесе существуют специфичные точки критичности. Анализ бизнес-процессов позволяет выделить эти точки и ранжировать по степени влияния на непрерывность деловой активности компании.
  2. Анализ рисков (Risk Analysis, RA). Сами риски можно разделить на две группы: зависимые и независимые от ИТ (ИКТ). После того, как были проведены выделение и градация бизнес-процессов по важности влияния на бизнес, из этой иерархии необходимо выделить группу ИТ-зависимых бизнес-процессов. Но что может повлиять на их бесперебойность? Для ответа на этот вопрос следует проверить достаточность и действенность технических и организационных механизмов, направленных на предупреждение прерываний бизнес-процессов, выделить и оценить наиболее уязвимые точки и значимые угрозы. В итоге формируются группы рисков, влияющих на ИТ, разделенные по степени важности.
  3. Оценка воздействия на бизнес (Business Impact Analysis, BIA). На основе полученных данных составляется карта ключевых бизнес-процессов с указанием нарушений, способных привести к убыткам. Далее строится модель, иллюстрирующая связь между этими нарушениями и категориями (масштабами) возможных потерь, которые могут быть зафиксированы как количественно, так и качественно. К группам потерь могут относиться: деловая репутация, рыночная стоимость, уровень операционных издержек, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и так далее.

    Для аналитиков крайне важно получить достоверную информацию о бизнесе организации, в особенности финансовую, узнать о текущем положении дел в ИТ-комплексе и планах его развития.

    Аналогичным образом следует провести детальный анализ информационных сервисов с привязкой к бизнес-процессам и информационным потокам. Результатом оценки возможного ущерба станет полноценная картина бизнеса, показывающая уровень критичности всех бизнес-процессов в целом, а также отдельных нарушений их функционирования в соотношении с величиной потерь.

    Все перечисленные выше задачи решаются в процессе аудита, который проводится аналитиками перед началом сотрудничества. В ходе такой всесторонней оценки четко вырисовываются слабые места в системе информационной безопасности клиента и становятся понятны способы укрепления уязвимых точек.

    Расчет экономического эффекта (стоимости простоя бизнес-процессов) предполагает наличие справедливых допущений о вероятности наступления тех или иных инцидентов в рассматриваемый период, что в дальнейшем позволяет выбрать наиболее приемлемую стратегию.

    В итоге собственники и руководство компании должны совместно с аналитиками определиться с установлением так называемых тайм-аутов и производительной мощности для отдельных бизнес-процессов на случай чрезвычайной ситуации, а именно:

    • Допустимого времени восстановления (Recovery Time Objective, RTO), или интервала вынужденного простоя, который технически может быть сведен к секундам, но из-за дороговизны не всегда оправдывает себя экономически.
    • Целевой точки восстановления (Recovery Point Objective, RPO), или временного диапазона перед наступлением ЧС, за который все данные могут быть утрачены. Сегодня он может быть сведен к нулю, так как все зависит от частоты и технологии резервного копирования информации.
    • Уровня непрерывности бизнеса (Level of Business Continuity, LBC), или допустимого уровня производительности (доли нагрузки) в чрезвычайных ситуациях в процентах от режима штатной работы.
RPO и RTO

Планирование

Планирование — это динамический процесс, а не разовая процедура. Следует поддерживать планы в актуальном и «синхронизированном» состоянии. С этой целью их нужно регулярно тестировать, при необходимости дополняя свежими данными.

  • Определение стратегии непрерывности бизнеса. Она должна затрагивать такие ключевые аспекты, как безопасность сотрудников, обеспечение их рабочими помещениями, техническими средствами и необходимыми материалами, доступ к критически важной информации, беспрепятственные коммуникации с партнерами, клиентами, поставщиками и подрядчиками. Для каждого направления вырабатывается отдельная подстратегия, призванная «указывать дорогу» к скорейшему восстановлению в соответствии с параметрами, определенными на этапах анализа рисков. Обеспечение непрерывности включает три стадии: реагирование на событие, продолжение выполнения критичных для бизнеса процессов в условиях ЧС, восстановление штатной работы.
  • Выбор организационных и технических решений определяется стратегией BCM. Разрабатываются политики, которые формализуют приоритетные цели и задачи поддержания непрерывности бизнеса, процедуры реагирования и области распространения системы BCM, устанавливаются кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения (проекта) BCM.
  • Создание технической и организационной систем BCM. В настоящее время все более широкое распространение приобретают «облачные» услуги. Для защиты информации при помощи облака существует решение — DRaaS (Disaster-Recovery-as-a-Service). Его суть состоит в том, чтобы предоставлять в облачных средах корпоративного уровня услугу аварийного восстановления данных. Это позволяет снизить расходы на обеспечение безопасности, одновременно поддерживая ее на уровне принятых в индустрии стандартов. Предусмотрены разные варианты, но все они основаны на резервном копировании ИТ-инфраструктуры или наиболее критичных ее элементов:

    1. Резервные копии ИТ-инфраструктуры создаются по расписанию, заданному в соответствии с нужными RTO и RPO, и помещаются в хранилище. Восстановление занимает до нескольких часов. Такая схема подходит для малого бизнеса, где некритична непрерывность, но важны экономия и надежная сохранность данных. Однако комплексную защиту резервное копирование не обеспечивает.
    2. Инфраструктура копируется полностью, изменения в непрерывном режиме переносятся в облако, извлечение и восстановление информации происходит за минуты.
    3. Запускается резервная облачная инфраструктура, полностью идентичная основной. Обновления в них происходят синхронно. Восстановление возможно за несколько секунд. Решение актуально для крупных финансовых и ИТ-компаний, госсектора — для любых организаций, где нельзя терять ни минуты на простой.
  • Построение отказоустойчивых ЦОД. В зависимости от потребностей бизнеса может понадобиться построение энергоэффективных отказоустойчивых центров обработки данных (ЦОДов) или их оптимизация. Решение данной задачи возможно за счет реализации комплекса мероприятий по строительству специализированных зданий, организации инженерной, телекоммуникационной и ИТ-инфраструктуры, их автоматизации, сервисного сопровождения подсистем ЦОДов или создания мобильного ЦОДа. Более простой путь — доверить организацию ИТ-инфраструктуры надежному провайдеру.
  • Разработка планов BCP и DRP. По мере роста бизнеса, а значит — наращивания вычислительных мощностей и усложнения ИТ-систем компании сталкиваются с тем, что вычислительные центры сами по себе становятся фактором угрозы непрерывности деловой активности, «точкой сбоя». Таким образом, необходим план восстановления системы после инцидента (DRP), являющийся составной частью более крупного плана обеспечения непрерывности бизнеса (BCP). Если DRP призван максимально быстро восстановить работоспособность ИТ-систем, поддерживающих и критичные бизнес-процессы, и обычные операции, то BCP должен обеспечить восстановление бизнес-процессов в целом.
  • Формирование программы сопровождения и эксплуатации систем BCM. Определение мер по обеспечению нормального функционирования системы, периодичности ее проверок, реагирования обслуживающего персонала на возникновение инцидентов.
  • Встраивание процессов в корпоративную культуру. На этом этапе необходима разработка мер и осведомление персонала о мерах, предпринимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. От подготовки компетентного персонала будет напрямую зависеть успех планирования восстановления после происшествия.

Эффективность внедрения системы

Об эффективности внедрения ВСМ на предприятии будут свидетельствовать:

  • Готовность организации к продолжению работы в случае возникновения аварий в ИТ-системах.
  • Оцененная вероятность простоя (недоступности) информационных систем в случае возникновения внештатной ситуации и возможные убытки.
  • Прохождение аудита и соответствие требованиям регулирующих органов.

Разумеется, силами самого предприятия обеспечить создание и эффективное внедрение системы — задача практически невыполнимая. Для этого потребуются огромные финансовые, кадровые и временные ресурсы, которые есть далеко не у каждой компании.