понедельник, 17 ноября 2008 г.

Дедупликация данных


Технология дедупликации данных сейчас стала активно применяться в продуктах и устройствах, связанных с хранением, резервным копированием и передачей данных по каналам глобальных сетей.
Этот механизм позволяет значительно сократить место на дорогостоящих дисковых массивах, занимаемое данными или сузить полосу пропускания, занимаемую передаваемыми данными.
В случае устройств хранения этот механизм востребован на рынке дисковых библиотек - специализированных дисковых массивов, на которых хранятся резервные копии продуктивных данных. Это такие устройства, как:
  • EMC DL3D 1500, DL3D 3000;
  • Sepaton S2100-ES2;
  • HP D2D2500, D2D4000, VLS6000, VLS9000;
  • IBM TS7650G, Data ONTAP;
  • Hitachi Virtual Tape Library Appliance 1000E, 1000L, 500M
  • и др.
В понятии дедупликации интересно обратить внимание на технологии, с помощью которых добиваются удаления дубликатов данных и условий применения этих технологий.

Когда говорится о степени сжатия данных и сокращении пространства хранения необходимо учитывать какой тип данных будет сохранятся. Первая полная резервная копия позволяет сократить объем занимаемого пространства на накопителе благодаря дедупликации в 2 - 4 раза. Дальнейшие инкрементальные копии возможно дедуплицировать в 6 - 7 раз. И только дальнейшие полные резервные копии возможно сократить в 50 - 60 раз.

Не следует путать технологии "Single-Instance Storage (SIS)" и "Deduplication". SIS является механизмом сокращения количества данных, но не является дедубликацией. SIS работает на файловом уровне и позволяет не сохранять дубликаты файлов, в хранилище уникальный файл сохраняетя один раз, далее сохраняются ссылки на него.

Следует различать технологии "Block-level deduplication" и "Variable segment deduplication". Если блоки данных не изменились, но переместились внутри структуры файла, то в случае технологии Variable segment deduplication остается возможность дедуплицировать измененный файл. Если применяется первая технология, анализирующая фиксированные блоки данных, измененный файл будет рассматриваться как новый и его блоки будут сохраняться дополнительно.

На скорости восстановления и резервного копирования может оказать существенное значение фрагментация данных - чем она выше, тем больше времени будет тратиться на указанные операции. Это надо учитывать при планировании систем.

Эта полезная информация почерпнута с ресурса www.SearchStorageChannel.com.

Комментариев нет: