В блог

Как проверить RTO/RPO

Алексей Федоров

Менеджер по продуктовому маркетингу

Полезные советы 03.06.2026 7 мин

Скопировать ссылку

Ссылка скопирована

В этой статье:

1. Анализ критичности и целевых показателей 2. Стратегия резервного копирования и репликации 3. Процедуры восстановления и автоматизация 4. Тестирование и мониторинг 5. Актуальность и непрерывное улучшение Итоговая проверка

Этот чек-лист поможет ИТ-специалистам и бизнес-руководителям оценить готовность инфраструктуры к сбоям и соответствие реальных процессов целевым показателям восстановления.

Если вы только знакомитесь с понятиями RTO и RPO или хотите освежить теорию, загляните в наши предыдущие статьи: «Метрики RTO и RPO: как обеспечить непрерывность бизнеса» и «Лучшие практики: RTO и RPO». А здесь — чек-лист для проверки их достижимости на практике.

1. Анализ критичности и целевых показателей

Прежде чем устанавливать целевые показатели восстановления, важно понять, какие системы, приложения и данные наиболее важны для бизнеса, а какие — второстепенны. Этот шаг предполагает детальную инвентаризацию ИТ-ландшафта и его привязку к бизнес-процессам.

Почему это важно

Нельзя защищать всё одинаково — это экономически нецелесообразно и технически сложно. Анализ критичности позволяет обоснованно назначать разные значения RTO и RPO для разных сервисов. Например, для платежного шлюза требуется почти нулевое время простоя (RTO) и минимальные потери данных (RPO), а для архива документов допустимы часы или даже дни. Без этого анализа вы рискуете переплатить за избыточную защиту второстепенных систем или, наоборот, оставить критичные сервисы без надежной защиты.

Чтобы оценить, насколько системно вы подошли к анализу критичности, ответьте на несколько контрольных вопросов:

Определены ли все критичные системы и данные?
Проведен ли анализ бизнес-процессов для классификации систем по степени важности?
Выделены ли системы с наивысшим приоритетом (онлайн-транзакции, CRM, платежные шлюзы)?
Установлены ли измеримые RTO и RPO для каждой группы систем? Например: «RTO = 4 часа, RPO = 1 час» для ERP; «RTO = 15 минут, RPO ≈ 0» для платежной системы.
Учитывается ли баланс между стоимостью защиты и строгостью метрик?
Не предъявляются ли избыточные требования (например, нулевое RTO) к архивным данным или тестовым средам?

2. Стратегия резервного копирования и репликации

После того как целевые RTO и RPO определены, нужно убедиться, что используемые технические средства (типы резервного копирования, механизмы репликации) позволяют их достичь. Этот шаг сводится к сверке текущих настроек с требованиями бизнеса.

Почему это важно

Разные технологии дают разный баланс между скоростью восстановления (RTO), объемом возможных потерь данных (RPO) и стоимостью.

Полные бэкапы дают хорошее RTO, но плохое RPO (данные теряются за сутки)
Инкрементные бэкапы улучшают RPO, но могут ухудшить RTO из-за долгой цепочки восстановления
Синхронная репликация дает RPO, близкое к нулю, но требует значительных ресурсов и бюджета
Асинхронная репликация — компромисс с потерями в секунды или минуты

Если стратегия не совпадает с заданными метриками, при реальном сбое вы в них гарантированно не уложитесь.

Чтобы понять, насколько ваша текущая стратегия соответствует целевым показателям, ответьте на несколько вопросов:

Соответствует ли частота резервного копирования целевому RPO? Если RPO = 15 минут, резервное копирование или репликация должны выполняться не реже чем каждые 15 минут.
Соответствуют ли выбранные методы защиты целевым метрикам? Для низкого RPO: используется синхронная или асинхронная репликация, а не только ночной полный бэкап. Для низкого RTO: настроено автоматическое аварийное переключение (failover) или применяются отказоустойчивые кластеры.
Соблюдается ли правило 3-2-1 (и его расширенная версия 3-2-1-1-0)? Три копии данных: оригинал плюс две резервных. Два разных типа носителей (диск, лента, облако). Одна копия размещена офлайн или вне основной площадки. Одна копия — неизменяемая (immutable), для защиты от вирусов-шифровальщиков. Ноль ошибок: настроена автоматическая проверка целостности каждой копии.

Кибер Бэкап

Российская система резервного копирования и восстановления данных с защитой от вирусов-шифровальщиков

Узнать больше

3. Процедуры восстановления и автоматизация

Этот шаг проверяет, насколько процесс возвращения систем к жизни зависит от ручных действий человека и как быстро он может быть запущен. Оцените наличие инструментов для автоматического переключения на резервную инфраструктуру.

Почему это важно

RTO — это время простоя. Каждая минута, потраченная на то, чтобы дежурный администратор прочитал инструкцию, нашел нужные бэкапы, вручную поднял виртуальные машины и перенастроил сеть — это минута простоя бизнеса. Автоматизация (оркестрация восстановления, failover-кластеры, скрипты переключения DNS) позволяет сократить RTO с часов до минут. Без нее даже при идеальных бэкапах вы почти наверняка превысите целевое RTO.

Проверьте, насколько ваш процесс восстановления готов к реальному инциденту:

Максимально ли автоматизирован процесс восстановления? Используются ли оркестрация, скрипты для запуска резервных ВМ, переключения DNS, настройки сети? Минимизировано ли ручное вмешательство, которое увеличивает RTO?
Есть ли документированный план аварийного восстановления (DRP)? Описаны ли роли, ответственные, контакты вендоров и точная последовательность действий? Доступен ли план в офлайн-режиме (при недоступности корпоративных систем)?

4. Тестирование и мониторинг

Проверьте, когда вы в последний раз действительно восстанавливали системы из резервных копий на запасной инфраструктуре, а не просто проверяли отчеты о создании бэкапов.

Почему это важно

Наличие резервной копии не гарантирует, что из нее можно восстановить работающий сервис в требуемое время. Тесты выявляют:

Устаревшие или неполные процедуры
Проблемы совместимости (например, новая версия приложения не восстанавливается на старую ОС)
Реальное фактическое время восстановления (которое может оказаться намного хуже целевого RTO)

Без регулярных тестов RTO и RPO остаются цифрами на бумаге, а первый реальный инцидент превращается в «проверку боем» с высокими шансами на провал.

Проверьте себя по вопросам:

Проводятся ли регулярные тесты восстановления? Тесты включают не только данные, но и приложения на альтернативной инфраструктуре.
Измеряется ли фактическое время восстановления и сравнивается с целевым RTO?
Настроен ли проактивный мониторинг? Отслеживаются ли доступность и производительность систем, успешность и целостность резервных копий?
Работают ли оповещения? Настроены ли уведомления (SMS, мессенджеры) для ИТ-команды о сбоях в работе системы резервного копирования?

5. Актуальность и непрерывное улучшение

Изучите план восстановления после сбоев (Disaster Recovery Plan, DRP). Убедитесь, что он существует в едином документе, доступен офлайн, содержит роли, контакты, последовательность действий и график регулярного пересмотра.

Почему это важно

В момент инцидента хаос и стресс — главные враги. Если план устарел (изменилась инфраструктура, уволились ответственные, сменились пароли), команда будет действовать наугад, теряя драгоценное время. Хорошая документация должна быть настолько понятной, чтобы по ней мог восстановить систему даже дежурный администратор, не участвовавший в ее создании. Регулярные пересмотры (например, ежегодно и после любых крупных изменений в ИТ) — единственный способ сохранить план рабочим.

Проверьте, не устарели ли ваши планы и метрики:

Документация и планы пересматриваются регулярно? Пересмотр проводится не реже одного раза в год, а также после любых значимых изменений в ИТ-инфраструктуре (миграция, обновление ПО, смена вендоров). Результаты тестов DRP используются для обновления планов.
Не потеряли ли актуальность целевые RTO и RPO? При изменении бизнес-процессов — запуск нового продукта, выход на другой рынок — метрики должны пересматриваться вместе с ростом требований к доступности и сохранности данных.

Итоговая проверка

Резюмируем: как понять, что ваши RTO и RPO — не просто цифры на бумаге?

RTO соблюдается, если:

Достигнут достаточный уровень автоматизации восстановления
Регулярные тесты подтверждают, что вы укладываетесь в целевые показатели
План действий документирован и актуален

RPO соблюдается, если:

Частота резервного копирования или репликации соответствует целевому окну (или превышает его)
Соблюдается правило 3-2-1, а в идеале — 3-2-1-1-0
Мониторинг подтверждает успешное создание копий без ошибок

Итоговая таблица для быстрой проверки