Дедупликация данных: простыми словами о технологии и сценариях использования
Введение
Сейчас информации в компаниях становится все больше, и вопрос, где ее хранить, встает очень остро. Старые способы сжатия файлов уже не так хорошо помогают экономить место, особенно если данных много и они похожи друг на друга. Поэтому на первый план выходит дедупликация — технология, которая позволяет занимать меньше места на дисках и быстрее создавать резервные копии. В этой статье мы простым языком разберем принципы работы дедупликации, её отличия от сжатия, а также рассмотрим практические сценарии использования технологии.
Почему без дедупликации не обойтись: проблема клонов
Чтобы понять ценность технологии дедупликации, представим офис на 400 сотрудников. Один специалист создал презентацию размером в 10 Мб и рассылает её 10 коллегам. При классическом подходе в резервную копию попадет 100 Мб, не считая копий на почтовом сервере. Полезной информации не стало больше, но появились её многочисленные клоны.
Масштаб проблемы:
- На ПК каждого сотрудника от 50 до нескольких сотен Гб данных (операционная система, прикладное ПО).
- Для полной резервной копии данных офиса без оптимизации потребуется от 20 до 150 Тб.
- С учетом всех копий объем может достигать 1 Пб.
Статистика показывает низкий процент уникальности данных:
- Офисные ПК: ~50% уникальных данных.
- Виртуальные машины: ~30%.
- Файловые серверы: ~75%.
Вторая, не менее важная проблема — скорость передачи данных. При канале 100 Мбит/сек загрузка 1 Тб данных займет около суток. Для решения проблем избыточности и скорости используются два подхода: дедупликация и сжатие.
Что такое дедупликация данных простыми словами?
Дедупликация (Data Deduplication) — это метод оптимизации хранения, исключающий повторяющиеся блоки информации. Вместо сохранения сотен копий одного файла или блока, система хранит только одну физическую копию. Остальные «дубли» заменяются короткими ссылками-указателями на оригинал.
Как это работает: 4 этапа процесса
1) Сегментация. Поток данных разбивается на блоки. Используется фиксированный размер или более гибкий переменный (устойчив к изменениям внутри файла).
2) Хеширование. Для каждого блока вычисляется уникальный цифровой отпечаток (хэш-сумма), например, SHA-1 или MD5.
3) Индексирование. Система сверяет полученный хэш с индексом уже сохраненных блоков.
4) Оптимизация. Уникальный блок записывается в хранилище. Если блок уже существует, система сохраняет только ссылку на оригиналы.

Пример: вы сделали резервную копию базы данных. Завтра изменилось лишь 5% информации. Без дедупликации запишется 100% объема. С дедупликацией система сохранит только новые 5%, так как 95% блоков уже ей известны.
Основные виды дедупликации
Технологии классифицируются по уровню обработки, времени и месту выполнения.
1. По уровню обработки данных
- Файловая. Ищет полностью дублирующиеся файлы. Менее эффективна. Пример: файл report.xlsx в трех папках сохранится один раз + две ссылки.
- Блочная. Работает на уровне частей файлов. Гораздо эффективнее. Пример: при изменении одной страницы в презентации сохранится только измененный блок.
2. По времени обработки
- На лету. Обработка идет перед записью на диск. Экономия места мгновенная, но требуется высокая производительность CPU.
- Постобработка. Данные сначала пишутся на диск, дедупликация запускается позже (в часы простоя). Требует временного дополнительного места.
3. По месту выполнения
- На источнике. Очистка от дублей происходит на сервере или ПК до отправки в сеть. Это экономит сетевой трафик.
- На целевом устройстве. «Сырые» данные передаются по сети, обработка происходит на сервере хранения.
Дедупликация и сжатие: в чем разница?
Важно понимать: это не конкуренты, а дополняющие друг друга технологии.

Рекомендация
Для максимальной экономии используйте оба метода последовательно: сначала дедупликация, потом сжатие. Если сжать данные первыми, одинаковые блоки превратятся в разные битовые потоки, и дедупликация станет невозможной.
Практические сценарии для бизнеса
Когда критична дедупликация:
- Ежедневные инкрементальные резервные копии виртуальных машин.
- Файловые серверы с множеством копий документов.
- Почтовые архивы с повторяющимися вложениями.
Когда эффективно сжатие:
- Логи, текстовые конфиги, базы данных с повторяющимися паттернами.
- Передача данных по каналам с низкой пропускной способностью.
- Холодное хранение редко используемых архивов.
Поддержка дедупликации в Кибер Бэкапе
В системе резервного копирования Кибер Бэкап реализовано два подхода к устранению дубликатов:
1) Глобальная дедупликация
- Выполняется на узле хранения (формат архива TIB 11).
- Подходит для обработки больших объемов однотипных данных, получаемых с различных источников.
- Требует мощного сервера (CPU, RAM) и уступает новому формату архива в гибкости.
2) Дедупликация на уровне архива (Рекомендуется)
- Выполняется на источнике агентом (формат архива TIBX 12, по умолчанию).
- Не требует отдельного производительного сервера.
- Оптимальна для большинства задач.
Более подробно об Узле хранения рассказывали на вебинаре «Быстрый старт. Использование узла хранения», запись мероприятия доступна здесь.
Советы по эффективному использованию
- Для дедупликации парка машин сначала сделайте резервную копию эталонной машины.
- Для снижения пиковой нагрузки распределите резервное копирование разных машин по времени.
- Защищайте паролем само хранилище, а не отдельные резервные копии.
Интеграция с СХД TATLIN.BACKUP
На рынке доступны специализированные отечественные СХД для хранения резервных копий, например, TATLIN.BACKUP от компании YADRO. Это аппаратная платформа с встроенными механизмами дедупликации и сжатия. Ключевая особенность — протокол T-BOOST. Специальный плагин на источнике выполняет дедупликацию, отправляя в хранилище только уникальные блоки.
- Результат: ускорение записи до 3 раз, снижение нагрузки на сеть в 10 раз.
- Важно: при использовании плагина T-BOOST в паре с Кибер Бэкапом в СРК необходимо отключать встроенную дедупликацию и сжатие.
Сценарии совместной работы:
1) Без T-BOOST: данные отправляются в СХД напрямую, сжатие происходит на стороне хранилища (экономия ресурсов защищаемого сервера).
2) Плагины T-BOOST на источнике: трафик сокращается на источнике (идеально для медленных каналов связи).
3) Плагины T-BOOST на узлах хранения Кибер Бэкапа: нагрузка ложится на промежуточный узел, разгружая защищаемые серверы.
Более подробно об интеграции Кибер Бэкапа с СХД YADRO TATLIN.BACKUP можно прочитать в статье
«Где и как хранить резервные копии: практическое руководство», технические детали описаны в статье в Базе знаний.
Заключение
Дедупликация данных — это стратегический инструмент для построения быстрой и экономичной инфраструктуры резервного копирования. Она позволяет радикально снизить затраты на хранение и ускорить передачу данных, особенно в средах с виртуализацией. Чтобы получить максимальный эффект, важно грамотно выбрать вид дедупликации и правильно сочетать её со сжатием. Практика использования связки Кибер Бэкап + СХД TATLIN.BACKUP в крупных компаниях доказывает: современный подход превращает резервное копирование из ресурсоемкой рутины в надежный и экономичный процесс защиты бизнеса.