В блог

Метрики RTO и RPO: как обеспечить непрерывность бизнеса

Статьи 17.09.2025 4 мин
Поделиться
Ссылка скопирована

Сбои в ИТ-инфраструктуре – это вопрос не «если», а «когда». Выход сервера из строя, кибератака, ошибка сотрудника или стихийное бедствие способны парализовать работу компании и привести к утрате критически важных данных. Метрики RPO и RTO стали для ИТ-администраторов и владельцев бизнеса стандартом при формулировании SLA (Service Level Agreement, соглашения об уровне обслуживания между заказчиком и исполнителем) для восстановления после сбоев. Чем ниже значения RPO и RTO, тем быстрее и эффективнее защита компании от потерь и простоев.

В статье Почему репликация и бэкап это не одно и то же мы сравнили два подхода к защите данных и указали на то, что бэкап и репликация – это взаимодополняющие инструменты. Сегодня поговорим о том, как эти подходы связаны с метриками RPO и RTO.

В этой статье разберем:

    • Что такое RTO и RPO и почему они важны
    • Как резервное копирование и репликация влияют на эти метрики
    • Как достичь целевых значений RTO и RPO

Что такое RTO и RPO

RTO (Recovery Time Objective, целевое время восстановления) – максимальное допустимое время простоя, в течение которого сервис или данные должны быть восстановлены. Например, если значение RTO равно четырем часам, это означает, что после аварии сервис должен вернуться в работу не позднее чем через 4 часа.

RPO (Recovery Point Objective, целевая точка восстановления) – временной «шаг назад» до актуальной копии данных, максимальный допустимый объем данных, которые организация может потерять при аварии (время между последней точкой восстановления и моментом инцидента). Например, если значение RPO равно одному часу, это означает, что при восстановлении данные должны быть актуальными на момент не более чем за 1 час до сбоя.

Взаимосвязь метрик RTO и RPO показана на следующей диаграмме.

scheme

Как резервное копирование и репликация влияют на RPO и RTO

      • Полное резервное копирование гарантирует надежное восстановление (низкое RTO), однако зачастую создает большие интервалы между точками восстановления и, соответственно, повышает RPO.
      • Инкрементное и дифференциальное резервное копирование повышает частоту резервного копирования, снижая RPO. Однако процесс восстановления из множества инкрементных копий может удлинять RTO.
      • Синхронная репликация обеспечивает RPO со значением, практически равным нулю, но может негативно сказываться на производительности и удорожает инфраструктуру.
      • Асинхронная репликация снижает нагрузку на основную систему, но может допускать минимальные потери данных при авариях (RPO в пределах нескольких секунд или минут).

Пример. В банке каждый вечер выполняется полное резервное копирование (RPO = 24 ч), но критически важные транзакции реплицируются каждый час (RPO = 1ч). Если произойдет сбой, будут потеряны данные лишь за последний час активной работы, а не за сутки.

фон фон фон фон
Кибер Бэкап
Резервное копирование и универсальное восстановление
Узнать больше

Как достичь целевых значений RTO и RPO

Для того чтобы достичь целевых значений метрик RTO и RPO, рекомендуем выполнить следующие действия:

1. Провести анализ критичности систем

        • Определите, какие сервисы требуют минимальных RTO и RPO (например, платежные системы), а какие могут восстанавливаться дольше (например, архивные данные).

2. Выбрать стратегию резервного копирования

      • Для обеспечения низкого значения RPO:

         

         

      • Увеличьте частоту резервного копирования: например, если RPO составляет 15 минут, делайте резервные копии каждые 15 минут.
      • Используйте синхронную или асинхронную репликацию.
      • Храните резервные копии в нескольких локациях (облако + локальное хранилище), применяйте правило 3-2-1.
      • Для обеспечения низкого значения RTO:

      • Используйте автоматическое аварийное переключение между площадками.
      • Разверните инфраструктуру высокой доступности.

3. Тестируйте возможность восстановления

      • Выполняйте регулярные тесты восстановления после сбоев (Disaster Recovery) для выявления слабых мест.

4. Оптимизируйте ИТ-архитектуру

      • Используйте облачные решения с географической избыточностью.
      • Внедрите отказоустойчивые кластеры.

5. Выполняйте мониторинг и используйте автоматизацию

      • Подключите специальные инструменты, такие как Zabbix или Prometheus, для предупреждения о сбоях.
      • Автоматизируйте восстановление: используйте скрипты и специализированные инструменты для автоматизации восстановления сервисов и данных.

Примеры стратегий под разные значения метрик RTO и RPO

scheme2

Вывод

RTO и RPO – это ключевые показатели отказоустойчивости бизнеса. Для обеспечения работоспособности вашей инфраструктуры придерживайтесь следующих рекомендаций:

      • Анализируйте критичность систем: не все сервисы требуют значения RTO, близкого к нулю.
      • Тестируйте возможность восстановления: бэкап окажется бесполезным, если из него нельзя восстановить данные.
      • Оптимизируйте стоимость: соблюдайте баланс между уровнем защиты и затратами.

Оптимальные значения RTO и RPO зависят от бизнес-требований и бюджета. Чем строже требования к доступности, тем дороже решение. Однако грамотная настройка резервного копирования и восстановления снижает риски и убытки при авариях.

sbscrIconLight.png
Подпишитесь на нашу рассылку Будьте в курсе всех новостей и событий Подписаться
Вы успешно подписались на рассылку Киберпротект!