Рубрикатор |
Статьи | ИКС № 03 2013 |
Надежда ПРИВЕЗЕНЦЕВА | 12 марта 2013 |
Системы хранения для «больших данных»
«Большие данные» становятся все больше, говорят аналитики. И эта тема обусловливает интерес к иным механизмам и архитектурам хранения.
Системы, растущие вместе с данными
Масштабируемость – одно из важнейших требований к корпоративной СХД. В связи с направлением big data внимание экспертов привлекают технологии горизонтально масштабируемых систем, известных как scale-out NAS.
Scale-out NAS представляют собой кластеры, состоящие из энного количества равноправных узлов, число которых можно легко наращивать и которые можно администрировать как единое целое. Отчасти это похоже на решение для виртуализации СХД, создаваемое с помощью специального устройства-виртуализатора – то же объединение множества систем хранения в единый пул с общим интерфейсом управления. Но есть и ряд существенных отличий.
Все узлы в кластерной NAS – от одного вендора, как правило, однотипные и одинаково сконфигурированные. В каждом узле содержатся и дисковая емкость, и кэш, и вычислительная мощность. Все узлы соединяются между собой выделенной высокопроизводительной сетью, обычно на основе Infiniband. А главное, такие кластеры изначально проектируются с единой файловой системой (ФС).
Традиционно для хранения файловых данных использовались NAS-системы, построенные в классической архитектуре: два контроллера, дисковые полки, RAID-группы и множество относительно небольших файловых систем. При необходимости работы с единым файловым хранилищем несколько таких систем могут объединяться в единое логическое пространство имен – с помощью распределенной файловой системы Microsoft DFS либо с использованием проприетарных вендорских технологий. Как поясняет Сергей Золотарев (ЕМС), снаружи такое хранилище выглядит как одна ФС, но внутри остается набором независимых файлеров. Каждый каталог располагается только на одном из них, расположением каталогов, как правило, необходимо управлять вручную с учетом заполнения различных файловых систем и производительности. Администрируется такая система обычно тоже как набор независимых СХД со своими интерфейсами управления.
В отличие от такого рода решений scale-out NAS имеют по-настоящему единую ФС. Записываемые в нее данные равномерно распределяются между всеми узлами кластера в автоматическом режиме. Ярким примером такой системы является EMC Isilon: ее операционная среда OneFS объединяет в себе функциональность файловой системы, RAID-контроллера и менеджера томов.
По мнению Равиля Сафиуллина (IBM), именно ФС является ключевым компонентом решения для организации файлового доступа, определяющим его характеристики и возможности. Поэтому при создании такого решения выбирать следует скорее файловую систему, нежели модели устройств. Системы IBM базируются на параллельной ФС IBM GPFS, изначально создававшейся для применения в составе вычислительных кластеров, оперирующих большими объемами информации. За счет нее достигается функциональная совместимость различных устройств кластера и возможность поддержания единого рабочего пространства данных.
Одно из ключевых преимуществ scale-out NAS – простая масштабируемость с точки зрения как емкости, так и производительности, причем осуществляемая без остановки доступа пользователей к данным. Например, кластер EMC Isilon может содержать три узла в минимальной конфигурации и 144 в максимальной – это 20 Пбайт емкости в единой файловой системе. В отличие от традиционных систем, наращивание емкости которых упирается в производительность контроллеров, добавление нового узла в кластер увеличивает не только емкость системы, но и ее производительность.
Достоинство scale-out NAS и в том, что их высокая масштабируемость не оказывает пагубного влияния на характеристики производительности, отмечает Андрей Новиков из Hitachi Data Systems, подчеркивая, что такие возможности присущи семейству решений Hitachi Network Attached Storage (HNAS). СХД семейства HNAS строятся на базе гибридной архитектуры – совместного использования процессоров общего назначения и программируемых логических интегральных схем (FPGA) для обработки низкоуровневых операций. Это дает возможность масштабировать систему до восьми узлов с совокупной емкостью до 16 Пбайт при сохранении очень высокой производительности.
Впрочем, к вопросу масштабирования СХД производители подходят по-разному, не все считают, что построение кластера из однотипных, специально предназначенных для этого узлов – оптимальный путь для заказчика, имеющего дело с постоянно растущими объемами данных. Например, Роман Ройфман (NetApp) считает, что должна быть возможность использовать в одной системе разнородные узлы разных поколений, добавлять ресурсы более старших или более новых систем. Одновременно он обращает внимание на то, что кластерная система должна обладать всеми возможностями и сервисами, присущими NAS-системе enterprise-уровня, такими как дедупликация, создание мгновенных копий, механизмы эффективного хранения (многоуровневого хранения на различных типах дисковых устройств).
Системы NetApp FAS и V-Series для унифицированного хранения данных легко масштабируются благодаря операционной системе Data ONTAP. Она позволяет расширить СХД, состоящую из пары контроллеров, до нескольких пар контроллеров и масштабировать дисковое пространство до десятков петабайт. При этом вся система будет управляться как единый логический пул ресурсов и единое пространство имен. В одном кластере могут сосуществовать системы разных поколений. Версия ONTAP 8.1 в сочетании с технологией Cluster-Mode (это один из режимов работы Data ONTAP, поддерживающий интерконнект узлов в кластере) позволяет создать кластер из 24 узлов (12 пар высокой доступности) для файлового доступа или четырех-узловой кластер для блочного доступа. В кластере выделяются один или несколько логических контейнеров (Vserver), содержащих ресурсы СХД, а также настройки безопасности (права доступа и пр.). При масштабировании контейнеры могут «растягиваться», вмещая больше файлов и данных.
Янис Кириакидес (Oracle) полагает, что scale-out NAS – не всегда оптимальный выбор для хранения «больших данных» и что сбрасывать со счетов традиционные системы хранения было бы неверно. Подход с использованием scale-out NAS оправдывает себя в тех случаях, когда разнотипные данные сильно смешаны, и требует высокой производительности в целом равномерно, без выраженных «горячих» и «холодных» участков. Однако стоимость хранения оказывается достаточно высокой: по сути, добавляя новые узлы в кластер, мы добавляем в инфраструктуру новые серверы со своими вычислительными ресурсами и памятью, а также с потребляемой мощностью и выделяемым теплом. В традиционной системе можно ограничиться расширением дискового пространства путем добавления полки с дисками – дополнительные затраты минимальны. Традиционную СХД Oracle ZFS Storage Appliance специалист Oracle считает вполне достойной альтернативой scale-out NAS. Например, старшая в семействе система ZFS Storage 7420 доступна как в единичной, так и в кластерной конфигурации и масштабироваться может почти до 2,6 Пбайт. Для повышения эффективности хранения в Oracle ZFS Storage Appliance предусмотрены технологии компрессии и дедупликации на уровне блоков данных.
Контент, объекты или файлы?
Основную долю массива big data составляют неструктурированные данные (контент). Привычный вариант их хранения – в виде файлов. Однако файловое хранение имеет свои недостатки, один из наиболее очевидных связан с многообразием файловых форматов. Практически каждое приложение генерирует свой формат файлов, приложения со временем устаревают и уходят с рынка, с ними уходят и соответствующие форматы, и при долговременном хранении файлов (с учетом требований законодательства это могут быть десятки лет) вполне может оказаться, что в какой-то момент владелец данных часть из них просто не сможет прочесть.
Альтернативный подход к хранению данных – системы хранения с адресацией по содержанию (Con-tent Addressable Storage, CAS) и объектные системы хранения (Object Storage). Архитектурно они похожи, как правило, и те и другие обходятся без файловой системы. Но, как поясняет Александр Зейников (LSI), разрабатывались они для разных целей. Решения Object Storage ставят своей главной задачей обеспечение максимальной производительности (отсюда их применение в высокопроизводительных вычислениях), а CAS-системы рассчитаны на максимизацию надежности хранения (поэтому их основное применение – онлайн-архив).
Комментируя различия CAS и Object Storage, Антон Банчуков (Dell) отмечает следующее: технология контентной адресации подразумевает, что для поиска данных используется не адрес их расположения на носителе или в системе хранения, а специально вычисленная хэш-функция, которая уникальным образом идентифицирует документ. С одной стороны, это позволяет получать быстрый доступ к конкретному документу или его содержанию, а с другой – быть уверенным в том, что документ не был изменен с момента последнего доступа к нему. Для архивов это очень важно. Объектное же хранение напоминает классическую ФС, но с той разницей, что если в файловой системе хранение происходит на уровне небольших блоков фиксированного размера, то Object Storage оперирует значительно более крупными единицами хранения информации – объектами. В их состав наряду с данными входят метаданные, которые могут содержать дополнительную информацию о хранимом содержимом: например, если речь идет о медицинском снимке, метаданные могут включать время его создания, информацию об аппарате, на котором он был сделан, имя врача, имя пациента, условия доступа к документу. Это позволяет применять к документам политику хранения (скажем, запрещать удаление документов «младше» пяти лет). При объектном хранении комбинируются преимущества обычных файлов с точки зрения скорости поиска и доступа с применением процедур, относящихся к типу документа. Сама компания Dell предлагает платформу объектной системы хранения данных Dell DX – ее базовая конфигурация состоит из одного сервера DX6000 и двух узлов хранения данных DX одинакового типа.
В основном эксперты сходятся на том, что системы Object Storage более перспективны, нежели CAS. Последние не приспособлены к работе с изменяющимися данными, поэтому если речь идет о решении для активных данных, а не об архивной платформе, CAS будет неэффективна. Объектные системы этого недостатка лишены. Кроме того, традиционные CAS-системы ориентированы прежде всего на локальное хранение, в то время как объектные системы могут иметь распределенную архитектуру и использоваться для облачного хранения. Да и объемы данных, которыми могут оперировать CAS, исчисляются максимум сотнями терабайт, в то время как разработчики объектных систем хранения уже замахиваются на эксабайты. Поэтому, по мнению Р. Ройфмана, CAS – это ушедшая с рынка технология, не нашедшая должного применения. Он напоминает и о том, что системы CAS предлагали собственный API, с которым должно было работать ПО архивирования (хотя попытка создать единый стандарт CAS API была). Объектные же системы хранения опираются на «понятные» облачным приложениям RESTful-сервисы, а процесс их стандартизации в SNIA идет полным ходом, поэтому есть реальный шанс получить работающую экосистему, открытую для различных производителей.
Впрочем, С. Золотарев замечает, что технологии CAS и Object Storage не исключают, а взаимно дополняют друг друга. Примерами решений, где обе технологии сочетаются, может служить классическая CAS-система EMC Centera, хранящая данные в виде объектов, или объектная система EMC Atmos, в которой, в числе прочего, применяется адресация по содержанию. Кстати, Atmos изначально разрабатывалась как облачная платформа. Этот продукт позволяет строить географически распределенные системы с единым адресным пространством, с использованием политик адаптивного управления данными на основе метаданных, что позволяет автоматизировать процедуры хранения, распределения и управления информацией.
К семейству объектных СХД относятся и уже упомянутые системы HNAS, а также Hitachi Content Platform (HCP). Как указывает А. Новиков, в этих системах работа с метаданными хранящихся объектов происходит независимо от самих данных. Это позволяет избежать трудностей при использовании и хранении динамически изменяемых неструктурированных данных даже при очень больших объемах хранения. Эффективно работать с информацией в зависимости от ее типа, перемещать и извлекать данные исходя из их востребованности и динамики использования помогает продукт Hitachi Data Discovery Suite, с которым HCP и HNAS тесно интегрированы. Кроме того, механизмы интеллектуальной кэш-памяти на платформе HNAS позволяют кэшировать метаданные объектов, тем самым ускоряя работу с объектами в разы.
Высокомасштабируемую платформу для доступа к объектным данным и файлам недавно анонсировала компания HP. Ее система StoreAll Storage позиционируется как удобная основа для проектов big data и облачного хранения. Объектный режим, который реализован в новой версии операционной системы HP StoreAll OS v6.2 для StoreAll REST API, разрешает хранение файлов и объектов на одной платформе, а технология StoreAll Express Query обеспечивает быстрый поиск по метаданным. Как утверждают в НР, такой поиск происходит в 100 тысяч раз быстрее, чем при прежних методах поиска по файловой системе.
SSD: быстрее и экономнее
В современных системах хранения широко используются твердотельные, или флеш-накопители (SSD). В контексте big data интерес к ним еще более возрастает. Преимущество SSD – высокие скорости чтения, записи, поиска данных: они могут на порядки превышать аналогичные показатели для традиционных жестких дисков (HDD). На рынке уже появились модели систем хранения, полностью построенные на SSD: например, компания НР в прошлом году выпустила all-SSD-версию массива P10000 из семейства HP 3PAR. Но есть у технологии SSD и свои сдерживающие факторы.
Один из таких факторов – цена. Стоимость хранения гигабайта данных на SSD пока еще не может сравниться с таковой для HDD, не говоря уже о магнитных лентах. «Действительно, стоимость SSD достаточно высока по сравнению с традиционными дисками, – соглашается Я. Кириакидес, – но в ряде случаев такие инвестиции оправданы». Системы хранения данных можно сравнить с автомобилями: есть «грузовики», которые неспешно «перевозят» большие объемы при низкой стоимости на единицу «груза» (диски SATA или NL-SAS); есть «легковые машины», они менее вместительны, но более быстры (SAS либо FC); наконец, есть «спортивные болиды» (SSD). Экономичного варианта использования SSD вполне можно добиться, если не пытаться «возить картошку на Ferrari».
Системы all-SSD (иначе, all-flash array, AFA) – на данном этапе решения нишевые. По мнению Александра Яковлева (Fujitsu), для ряда задач действительно экономически обоснованно приобретение небольшого по емкости массива из дисков SSD, который будет довольно дорогим, но покажет огромную производительность. В то же время существуют гибридные решения, сочетающие жесткие диски и флеш-накопители. Они позволяют реализовать автоматическое многоуровневое хранение данных: «горячие» данные автоматически перемещаются на наиболее быстрые носители, а менее востребованные мигрируют на недорогие и медленные. При таком подходе высокая стоимость SSD становится не так заметна.
Использование флеш-накопителей в гибридных системах возможно на нескольких уровнях, напоминает Р. Ройфман: 1) на уровне серверов для кэширования дисковых массивов (примером могут служить решения NetApp FlashAccel или Fusion-io directCache); 2) на уровне контроллеров СХД с использованием специальных кэширующих модулей (весьма успешный пример – FlashCache); 3) на уровне объединения HDD и SSD в единый пул (например, технология FlashPool). Все эти методы позволяют получить высокую производительность, не неся чрезмерных затрат на полную замену HDD на SSD. Для достижения наилучшего результата методы можно комбинировать друг с другом.
А. Банчуков обращает внимание на такой механизм снижения стоимости хранения данных, как их дедупликация и сжатие. Для неструктурированной информации (файлов пользователей, текстовых документов, изображений и пр.) экономия может достигать десятков раз (т. е. в десять раз уменьшается физически занимаемое место). В подобном случае применение SSD вполне обоснованно, даже если это массив all-SSD. Если нет возможности сжимать данные (например, в случае потока видеофайлов, которые и так сжаты), применяют подход многоуровневого хранения.
Другим методом повышения экономичности СХД, в том числе на базе SSD, является технология выделения емкости по требованию – Thin Provisioning. В результате явления под названием over provisioning, когда емкость СХД резервируется за каким-либо приложением, но реально не используется, многие старые СХД хранят более чем на половине емкости пустые блоки, напоминает С. Золотарев. При этом пустые блоки нигде больше нельзя использовать. При помощи Thin Provisioning вся выделяемая емкость будет гарантированно использоваться, а все пустые блоки будут свободны для перераспределения между любыми серверами в корпоративной инфраструктуре.
Шагом к усилению позиций твердотельных дисков на рынке систем хранения стал переход многих производителей SSD с достаточно дорогой технологии SLC (single-level cell) на более дешевую технологию MLC (multi-level cell). При этом, однако, диски MLC считаются менее надежными, у них больше время доступа к данным и меньше количество циклов перезаписи.
Как правило, производители СХД используют диски только одного типа. По мнению Я. Кириакидеса, это приводит либо к чрезвычайно высокой стоимости хранения, либо к недостаточной надежности. Но гибридный подход применим и здесь: компания Oracle в своих системах ZFS SA использует SLC-диски для кэширования операций записи (поскольку данные часто изменяются, и требуется обеспечить большое количество циклов перезаписи), а для кэширования операций чтения – MLC-диски большего объема.
Компания Hitachi использует именно MLC. Однако, как отмечает А. Новиков, разработка новых контроллеров для твердотельных накопителей и создание системы внутреннего дублирования ячеек, при котором часть из них изначально не используется, но динамически включается в работу при необходимости (например, при выходе из строя рабочей ячейки), позволяет успешно справляться с обозначенными проблемами.
Что касается наращивания производительности систем на базе SSD, то на данном этапе вопрос упирается не в сами SSD, а в другие компоненты и механизмы систем хранения. С. Золотарев считает, что основные ограничения в наращивании производительности СХД сейчас накладывает процессорная мощность контроллеров хранения традиционных двухконтроллерных СХД. По его словам, можно использовать хоть 16-ядерные контроллеры с SMP-архитектурой, но и они в конце концов станут узким местом. Очевидно, что наращивание количества ядер по традиционной схеме будет лишь временным решением. Назрела необходимость в новой архитектуре СХД, оптимизированной для использования твердотельных дисков. В компании ЕМС такой архитектурой считают scale-out – подход, позволяющий добавлять не ядра в контроллеры, а новые контроллеры для повышения производительности системы.
Однако производители контроллеров тоже не сидят сложа руки. Компания HDS выпустила для своей системы Virtual Storage Platform (VSP) специализированный модуль Hitachi Accelerated Flash, оптимизированный для монтажа в стойку. Он включает флеш-память (в начале было доступно 1,6 Тбайт, теперь речь идет о 3,2, а затем и о 6,4 Тбайт) и контроллер собственной разработки Hitachi. В контроллере реализован ряд новых возможностей, например сжатие информации в ходе записи, что помимо ускорения операции записи повышает срок службы флеш-памяти. Заявляется, что по сравнению с обычными SSD емкостью 400 Гбайт этот модуль позволяет в четыре раза увеличить производительность и на 46% снизить стоимость хранения данных.
Компания LSI выпустила в прошлом году RAID-контроллеры и хост-адаптеры с шиной PCI Express 3.0. Они могут использоваться как с жесткими дисками, так и с твердотельными накопителями, демонстрируя очень высокую производительность. Как сообщает А. Зейников, такие контроллеры (например, PCI-E 3.0 LSI MegaRAID 9271) способны обслужить до 500 тыс. IOPS. Между тем производительность серверных устройств SSD составляет на данный момент порядка 30–50 тыс. IOPS. Таким образом, можно построить массив с использованием до 16 SSD на контроллер без потери производительности.
Помимо традиционной связки контроллер – SSD на рынке появились устройства в формате SSD-карт, вставляемых непосредственно в PCI-слот сервера (например, Nytro WarpDrive). Они позволяют добиваться высоких показателей IOPS без дополнительного конфигурирования и тюнинга устройства. Среди преимуществ таких решений – максимальное приближение устройства хранения к процессору и минимизация задержек привносимых RAID-контроллерами, сетевыми протоколами и пр.
Не ограничиваться рассмотрением SSD в форм-факторе традиционных HDD призывает и Р. Сафиуллин. Недавно IBM приобрела компанию Texas Memory Systems, в портфеле которой имеются интересные разработки в области дизайна и организации ячеек памяти, алгоритмов записи/чтения данных и пр. Теперь «Голубой гигант» намерен представить под собственным брендом готовые решения уровня предприятия на базе твердотельных накопителей, которые обеспечат десятки терабайт доступного пространства с очень малым временем доступа к данным.
Флеш-технология – лишь один из вариантов реализации твердотельной памяти. Сейчас специалисты все чаще говорят о новом виде твердотельных накопителей, построенных на технологии памяти на базе фазового перехода (Phase Change Memory, PCM). Преимуществами PCM-накопителей являются не только значительно более высокое быстродействие самого носителя, но и отсутствие эффекта «выгорания», с которым приходится бороться разработчикам флеш-дисков. С. Золотарев полагает, что развитие технологий solid state-памяти (например, в сторону PCM) будет одним из направлений совершенствования накопителей, наряду с ростом емкости SSD и все более широким применением методов оптимизации использования твердотельных накопителей.
Технологический прогресс достиг сегодня такого уровня развития, что бизнесу стоит только «загадать желание». И, естественно, соотнести желания со своими возможностями, постаравшись выбрать экономически обоснованное решение. Несмотря на то что технологии постепенно дешевеют и делаются более доступными, хранение больших объемов данных требует значительных ресурсов. А значит, продуманная политика хранения не менее важна, чем современные технологии.