В блог

Дедупликация данных: простыми словами о технологии и сценариях использования

Статьи 18.03.2026 6 мин
Поделиться
Ссылка скопирована
картинка блога

Введение

Сейчас информации в компаниях становится все больше, и вопрос, где ее хранить, встает очень остро. Старые способы сжатия файлов уже не так хорошо помогают экономить место, особенно если данных много и они похожи друг на друга. Поэтому на первый план выходит дедупликация — технология, которая позволяет занимать меньше места на дисках и быстрее создавать резервные копии. В этой статье мы простым языком разберем принципы работы дедупликации, её отличия от сжатия, а также рассмотрим практические сценарии использования  технологии.

Почему без дедупликации не обойтись: проблема клонов

Чтобы понять ценность технологии дедупликации, представим офис на 400 сотрудников. Один специалист создал презентацию размером в 10 Мб и рассылает её 10 коллегам. При классическом подходе в резервную копию попадет 100 Мб, не считая копий на почтовом сервере. Полезной информации не стало больше, но появились её многочисленные клоны.

Масштаб проблемы:

  • На ПК каждого сотрудника от 50 до нескольких сотен Гб данных (операционная система, прикладное ПО).
  • Для полной резервной копии  данных офиса без оптимизации потребуется от 20 до 150 Тб.
  • С учетом всех копий объем может достигать 1 Пб.

Статистика показывает низкий процент уникальности данных:

  • Офисные ПК: ~50% уникальных данных.
  • Виртуальные машины: ~30%.
  • Файловые серверы: ~75%.

Вторая, не менее важная проблема — скорость передачи данных. При канале 100 Мбит/сек загрузка 1 Тб данных займет около суток. Для решения проблем избыточности и скорости используются два подхода: дедупликация и сжатие.

Что такое дедупликация данных простыми словами?

Дедупликация (Data Deduplication) — это метод оптимизации хранения, исключающий повторяющиеся блоки информации. Вместо сохранения сотен копий одного файла или блока, система хранит только одну физическую копию. Остальные «дубли» заменяются короткими ссылками-указателями на оригинал.

Как это работает: 4 этапа процесса

1) Сегментация. Поток данных разбивается на блоки. Используется фиксированный размер или более гибкий переменный (устойчив к изменениям внутри файла).
2) Хеширование. Для каждого блока вычисляется уникальный цифровой отпечаток (хэш-сумма), например, SHA-1 или MD5.
3) Индексирование. Система сверяет полученный хэш с индексом уже сохраненных блоков.
4) Оптимизация. Уникальный блок записывается в хранилище. Если блок уже существует, система сохраняет только ссылку на оригиналы.

scheme

Пример: вы сделали резервную копию базы данных. Завтра изменилось лишь 5% информации. Без дедупликации запишется 100% объема. С дедупликацией система сохранит только новые 5%, так как 95% блоков уже ей известны.

Основные виды дедупликации

Технологии классифицируются по уровню обработки, времени и месту выполнения. 

1. По уровню обработки данных

  • Файловая. Ищет полностью дублирующиеся файлы. Менее эффективна. Пример: файл report.xlsx в трех папках сохранится один раз + две ссылки.
  • Блочная. Работает на уровне частей файлов. Гораздо эффективнее. Пример: при изменении одной страницы в презентации сохранится только измененный блок.

2. По времени обработки

  • На лету. Обработка идет перед записью на диск. Экономия места мгновенная, но требуется высокая производительность CPU.
  • Постобработка. Данные сначала пишутся на диск, дедупликация запускается позже (в часы простоя). Требует временного дополнительного места.

3. По месту выполнения

  • На источнике. Очистка от дублей происходит на сервере или ПК до отправки в сеть. Это экономит сетевой трафик.
  • На целевом устройстве. «Сырые» данные передаются по сети, обработка происходит на сервере хранения.

Дедупликация и сжатие: в чем разница?

Важно понимать: это не конкуренты, а дополняющие друг друга технологии.

scheme2

Рекомендация

Для максимальной экономии используйте оба метода последовательно: сначала дедупликация, потом сжатие. Если сжать данные первыми, одинаковые блоки превратятся в разные битовые потоки, и дедупликация станет невозможной.

Практические сценарии для бизнеса

Когда критична дедупликация:

  • Ежедневные инкрементальные резервные копии виртуальных машин.
  • Файловые серверы с множеством копий документов.
  • Почтовые архивы с повторяющимися вложениями.

Когда эффективно сжатие:

  • Логи, текстовые конфиги, базы данных с повторяющимися паттернами.
  • Передача данных по каналам с низкой пропускной способностью.
  • Холодное хранение редко используемых архивов.

Поддержка дедупликации в Кибер Бэкапе

В системе резервного копирования Кибер Бэкап реализовано два подхода к устранению дубликатов:

1) Глобальная дедупликация

  • Выполняется на узле хранения (формат архива TIB 11).
  • Подходит для обработки больших объемов однотипных данных, получаемых с различных источников.
  • Требует мощного сервера (CPU, RAM) и уступает новому формату архива в гибкости.

2) Дедупликация на уровне архива (Рекомендуется)

  • Выполняется на источнике агентом (формат архива TIBX 12, по умолчанию).
  • Не требует отдельного производительного сервера.
  • Оптимальна для большинства задач.

Более подробно об Узле хранения рассказывали на вебинаре «Быстрый старт. Использование узла хранения», запись мероприятия доступна здесь.

Советы по эффективному использованию

  • Для дедупликации парка машин сначала сделайте резервную копию эталонной машины.
  • Для снижения пиковой нагрузки распределите резервное копирование разных машин по времени.
  • Защищайте паролем само хранилище, а не отдельные резервные копии.

Интеграция с СХД TATLIN.BACKUP

На рынке доступны специализированные отечественные СХД для хранения резервных копий, например, TATLIN.BACKUP от компании YADRO. Это аппаратная платформа с встроенными механизмами дедупликации и сжатия. Ключевая особенность — протокол T-BOOST. Специальный плагин на источнике выполняет дедупликацию, отправляя в хранилище только уникальные блоки.

  • Результат: ускорение записи до 3 раз, снижение нагрузки на сеть в 10 раз.
  • Важно: при использовании плагина T-BOOST в паре с Кибер Бэкапом в СРК необходимо отключать встроенную дедупликацию и сжатие.


Сценарии совместной работы:

1) Без T-BOOST: данные отправляются в СХД напрямую, сжатие происходит на стороне хранилища (экономия ресурсов защищаемого сервера).
2) Плагины T-BOOST на источнике: трафик сокращается на источнике (идеально для медленных каналов связи).
3) Плагины T-BOOST на узлах хранения Кибер Бэкапа: нагрузка ложится на промежуточный узел, разгружая защищаемые серверы.

Более подробно об интеграции Кибер Бэкапа с СХД YADRO TATLIN.BACKUP можно прочитать в статье
«Где и как хранить резервные копии: практическое руководство», технические детали описаны в статье в Базе знаний.

Заключение

Дедупликация данных — это стратегический инструмент для построения быстрой и экономичной инфраструктуры резервного копирования. Она позволяет радикально снизить затраты на хранение и ускорить передачу данных, особенно в средах с виртуализацией. Чтобы получить максимальный эффект, важно грамотно выбрать вид дедупликации и правильно сочетать её со сжатием. Практика использования связки Кибер Бэкап + СХД TATLIN.BACKUP в крупных компаниях доказывает: современный подход превращает резервное копирование из ресурсоемкой рутины в надежный и экономичный процесс защиты бизнеса.

sbscrIconLight.png
Подпишитесь на нашу рассылку Будьте в курсе всех новостей и событий Подписаться
Вы успешно подписались на рассылку Киберпротект!
Читать также