В блог

Дедупликация данных: простыми словами о технологии и сценариях использования

Алексей Федоров

Менеджер по продуктовому маркетингу

Статьи 18.03.2026 6 мин

Скопировать ссылку

Ссылка скопирована

В этой статье:

Введение Почему без дедупликации не обойтись: проблема клонов Что такое дедупликация данных простыми словами? Основные виды дедупликации Дедупликация и сжатие: в чем разница? Практические сценарии для бизнеса Поддержка дедупликации в Кибер Бэкапе Интеграция с СХД TATLIN.BACKUP Заключение

Введение

Сейчас информации в компаниях становится все больше, и вопрос, где ее хранить, встает очень остро. Старые способы сжатия файлов уже не так хорошо помогают экономить место, особенно если данных много и они похожи друг на друга. Поэтому на первый план выходит дедупликация — технология, которая позволяет занимать меньше места на дисках и быстрее создавать резервные копии. В этой статье мы простым языком разберем принципы работы дедупликации, её отличия от сжатия, а также рассмотрим практические сценарии использования технологии.

Почему без дедупликации не обойтись: проблема клонов

Чтобы понять ценность технологии дедупликации, представим офис на 400 сотрудников. Один специалист создал презентацию размером в 10 Мб и рассылает её 10 коллегам. При классическом подходе в резервную копию попадет 100 Мб, не считая копий на почтовом сервере. Полезной информации не стало больше, но появились её многочисленные клоны.

Масштаб проблемы:

На ПК каждого сотрудника от 50 до нескольких сотен Гб данных (операционная система, прикладное ПО).
Для полной резервной копии данных офиса без оптимизации потребуется от 20 до 150 Тб.
С учетом всех копий объем может достигать 1 Пб.

Статистика показывает низкий процент уникальности данных:

Офисные ПК: ~50% уникальных данных.
Виртуальные машины: ~30%.
Файловые серверы: ~75%.

Вторая, не менее важная проблема — скорость передачи данных. При канале 100 Мбит/сек загрузка 1 Тб данных займет около суток. Для решения проблем избыточности и скорости используются два подхода: дедупликация и сжатие.

Что такое дедупликация данных простыми словами?

Дедупликация (Data Deduplication) — это метод оптимизации хранения, исключающий повторяющиеся блоки информации. Вместо сохранения сотен копий одного файла или блока, система хранит только одну физическую копию. Остальные «дубли» заменяются короткими ссылками-указателями на оригинал.

Как это работает: 4 этапа процесса

1) Сегментация. Поток данных разбивается на блоки. Используется фиксированный размер или более гибкий переменный (устойчив к изменениям внутри файла).
2) Хеширование. Для каждого блока вычисляется уникальный цифровой отпечаток (хэш-сумма), например, SHA-1 или MD5.
3) Индексирование. Система сверяет полученный хэш с индексом уже сохраненных блоков.
4) Оптимизация. Уникальный блок записывается в хранилище. Если блок уже существует, система сохраняет только ссылку на оригиналы.

scheme

Пример: вы сделали резервную копию базы данных. Завтра изменилось лишь 5% информации. Без дедупликации запишется 100% объема. С дедупликацией система сохранит только новые 5%, так как 95% блоков уже ей известны.

Основные виды дедупликации

Технологии классифицируются по уровню обработки, времени и месту выполнения.

1. По уровню обработки данных

Файловая. Ищет полностью дублирующиеся файлы. Менее эффективна. Пример: файл report.xlsx в трех папках сохранится один раз + две ссылки.
Блочная. Работает на уровне частей файлов. Гораздо эффективнее. Пример: при изменении одной страницы в презентации сохранится только измененный блок.

2. По времени обработки

На лету. Обработка идет перед записью на диск. Экономия места мгновенная, но требуется высокая производительность CPU.
Постобработка. Данные сначала пишутся на диск, дедупликация запускается позже (в часы простоя). Требует временного дополнительного места.

3. По месту выполнения

На источнике. Очистка от дублей происходит на сервере или ПК до отправки в сеть. Это экономит сетевой трафик.
На целевом устройстве. «Сырые» данные передаются по сети, обработка происходит на сервере хранения.

Дедупликация и сжатие: в чем разница?

Важно понимать: это не конкуренты, а дополняющие друг друга технологии.

scheme

Рекомендация

Для максимальной экономии используйте оба метода последовательно: сначала дедупликация, потом сжатие. Если сжать данные первыми, одинаковые блоки превратятся в разные битовые потоки, и дедупликация станет невозможной.

Практические сценарии для бизнеса

Когда критична дедупликация:

Ежедневные инкрементальные резервные копии виртуальных машин.
Файловые серверы с множеством копий документов.
Почтовые архивы с повторяющимися вложениями.

Когда эффективно сжатие:

Логи, текстовые конфиги, базы данных с повторяющимися паттернами.
Передача данных по каналам с низкой пропускной способностью.
Холодное хранение редко используемых архивов.

Поддержка дедупликации в Кибер Бэкапе

В системе резервного копирования Кибер Бэкап реализовано два подхода к устранению дубликатов:

1) Глобальная дедупликация

Выполняется на узле хранения (формат архива TIB 11).
Подходит для обработки больших объемов однотипных данных, получаемых с различных источников.
Требует мощного сервера (CPU, RAM) и уступает новому формату архива в гибкости.

2) Дедупликация на уровне архива (Рекомендуется)

Выполняется на источнике агентом (формат архива TIBX 12, по умолчанию).
Не требует отдельного производительного сервера.
Оптимальна для большинства задач.

Более подробно об Узле хранения рассказывали на вебинаре «Быстрый старт. Использование узла хранения», запись мероприятия доступна здесь.

Советы по эффективному использованию

Для дедупликации парка машин сначала сделайте резервную копию эталонной машины.
Для снижения пиковой нагрузки распределите резервное копирование разных машин по времени.
Защищайте паролем само хранилище, а не отдельные резервные копии.

Кибер Бэкап

Резервное копирование и восстановление данных

Узнать больше

Интеграция с СХД TATLIN.BACKUP

На рынке доступны специализированные отечественные СХД для хранения резервных копий, например, TATLIN.BACKUP от компании YADRO. Это аппаратная платформа с встроенными механизмами дедупликации и сжатия. Ключевая особенность — протокол T-BOOST. Специальный плагин на источнике выполняет дедупликацию, отправляя в хранилище только уникальные блоки.

Результат: ускорение записи до 3 раз, снижение нагрузки на сеть в 10 раз.
Важно: при использовании плагина T-BOOST в паре с Кибер Бэкапом в СРК необходимо отключать встроенную дедупликацию и сжатие.

Сценарии совместной работы:

1) Без T-BOOST: данные отправляются в СХД напрямую, сжатие происходит на стороне хранилища (экономия ресурсов защищаемого сервера).
2) Плагины T-BOOST на источнике: трафик сокращается на источнике (идеально для медленных каналов связи).
3) Плагины T-BOOST на узлах хранения Кибер Бэкапа: нагрузка ложится на промежуточный узел, разгружая защищаемые серверы.

Более подробно об интеграции Кибер Бэкапа с СХД YADRO TATLIN.BACKUP можно прочитать в статье
«Где и как хранить резервные копии: практическое руководство», технические детали описаны в статье в Базе знаний.

Заключение

Дедупликация данных — это стратегический инструмент для построения быстрой и экономичной инфраструктуры резервного копирования. Она позволяет радикально снизить затраты на хранение и ускорить передачу данных, особенно в средах с виртуализацией. Чтобы получить максимальный эффект, важно грамотно выбрать вид дедупликации и правильно сочетать её со сжатием. Практика использования связки Кибер Бэкап + СХД TATLIN.BACKUP в крупных компаниях доказывает: современный подход превращает резервное копирование из ресурсоемкой рутины в надежный и экономичный процесс защиты бизнеса.

Вебинар
20.08.2026 11:00

Быстрый старт. Защита платформ виртуализации Получите практические навыки по защите платформ виртуализации на базе oVirt в Кибер Бэкапе Зарегистрироваться