Рубрикатор |
Статьи | ИКС № 01-02 2015 |
Евгения ВОЛЫНКИНА  | 02 марта 2015 |
СХД: профессиональный тюнинг
Идеальной СХД на все случаи жизни не существует, но для каждой задачи можно выбрать оптимальную систему хранения. Она может быть с SSD- или с HDD-дисками, многоуровневой или программно определяемой, но главное – она должна экономически эффективно решать стоящие перед организацией задачи.
Участники рынка сходятся во мнении, что тенденции развития систем хранения данных меняются небыстро и глобальные подвижки происходят на протяжении как минимум пяти лет. Что же происходило в мире СХД за последние годы?
Уверенная поступь SSD
Прежде всего, достаточно широко распространились твердотельные флеш-накопители, позволяющие резко повысить производительность систем хранения. Несколько лет назад цены на них были фактически заградительными, но сегодня это уже не так: в прошлом году специалисты отмечали достижение психологического рубежа $1 за 1 Гбайт емкости, в нынешнем году можно увидеть SSD-диски стоимостью $0,5 за 1 Гбайт (хотя, конечно же, самые высокопроизводительные из стремительных SSD-дисков стоят в разы дороже). Так что теперь флеш-накопители доступны и SMB-заказчикам. Кроме того, фактически общей практикой стали не all-flash-массивы, а гибридные многоуровневые системы, где SSD-диски, используемые только для часто запрашиваемых данных, составляют относительно небольшую часть общей емкости хранения и, соответственно, не оказывают критического влияния на цену всего решения. Емкость выпускаемых SSD-накопителей с каждым годом увеличивается и достигает уже 3,2 Тбайт. Причем, как отмечает Евгений Красиков (ЕМС в России и СНГ), благодаря снижению цены доля SSD-дисков в гибридных решениях растет: вместо трехуровневых пулов часто используются двухуровневые – из SSD-накопителей и традиционных жестких дисков SAS.
«Флеш-накопители сейчас являются наиболее экономически оправданным способом радикального повышения транзакционной производительности СХД и приведения инфраструктуры хранения в соответствие с потребностями современных процессоров и ПО», – считает Денис Тужилкин (IBM в России и СНГ). Практически все производители добавили в современные СХД технологии автоматической миграции блоков данных между различными типами дисков в соответствии с нагрузкой, поэтому твердотельные и флеш-накопители смогли заменить быстрые механические диски, прежде всего со скоростью вращения 15 тыс. об/мин, в качестве предпочтительного носителя для высокопроизводительного хранения данных. Основное применение флеш-накопителей связано с транзакционными нагрузками и базами данных, которые хотя и относительно невелики в общем объеме, но представляют наибольшую ценность, и ускорение их обработки хорошо заметно на уровне не только ИТ-департаментов, но, что наиболее важно, бизнес-подразделений и руководства. Внедрение и широкое распространение твердотельных дисков и флеш-памяти происходит либо путем адаптации их к СХД существующих архитектур, либо как отдельных устройств нового типа – Storage Class Memory, в которых реализованы преимущества флеш-памяти и ОЗУ DRAM.
Тем не менее, по мнению IBM, при современном уровне развития технологий из-за той же высокой стоимости хранения широкого распространения существующих флеш-носителей корпоративного класса за пределы высокопроизводительных транзакционных систем ожидать не приходится. В ближайшее время временным решением могут стать эксперименты с применением в системах хранения среднего и младшего классов более дешевой NAND MLC-памяти.
Флеш-технологии уже сегодня оказывают серьезное влияние на конфигурацию и работу дата-центров, позволяя сделать так, чтобы задачи, требующие высокой производительности, выполнялись настолько быстро, насколько это необходимо. Тем не менее, как отмечает Роман Волков (NetApp в России и СНГ), заказчик не должен забывать о своих целях и, самое главное, цене их достижения. Нет никакого смысла размещать данные на высокопроизводительном флеш-носителе, если в этом нет необходимости. То есть все опять упирается в эффективное управление жизненным циклом данных. Хотя флеш-носители все еще стоят дороже, чем вращающиеся диски, многоуровневое хранение в конечном счете позволяет сэкономить деньги (так как при использовании SSD для кэширования требуется меньше дисков SAS, а для нижних уровней хранения могут использоваться более медленные и более дешевые средства). Даже классические варианты рабочих нагрузок, такие, как VDI, получают благодаря флеш-накопителям новый импульс, а прирост производительности за счет использования флеш-технологий – это эффективный способ компенсации пиковых всплесков загрузки ресурсов.
В итоге флеш-память уже присутствует в подавляющем большинстве «быстрых» СХД и часто используется как средство хранения «горячих» данных и метаданных. Однако Александр Буравлев («Аквариус») констатирует, что этот вид памяти пока слабо представлен в СХД общего назначения и в хранилищах «холодных» данных. Разработчики преодолели проблемы флеш-памяти, которые были связаны с ограниченным количеством циклов перезаписи, и на рынке появилось много предложений твердотельных накопителей, которые могут работать в серверных приложениях в течение трех-пяти лет. Это сравнимо или выше рекомендованных сроков использования вращающихся дисков, т.е. замена SSD-накопителя будет произведена раньше, чем он реально выйдет из строя. Однако проблемой SSD-дисков остается их относительно высокая чувствительность к радиационному фону, что даже в естественных условиях приводит к появлению ошибок памяти, с которыми нужно бороться на программном уровне.
В общем, разработчикам SSD-дисков еще есть над чем поработать, а пока вендоры активно продвигают эту технологию на рынок. Михаил Орленко (Dell в России, Казахстане и среднеазиатских странах СНГ) отмечает появление в портфеле Dell в 2014 г. нового продукта из семейства систем хранения Dell Storage SC 4020, который по своей цене относится к категории систем начального уровня, но при этом отличается функционалом, ранее присутствовавшим только в СХД уровня high-end, в частности возможностью его использования в all-flash конфигурациях. Одним из наиболее интересных и перспективных применений твердотельных накопителей Dell считает технологию Dell Fluid Cache, которая соединяет преимущества многоуровневого хранения с показателями производительности ресурсов хранения, измеряемыми сотнями тысяч и даже миллионами операций ввода-вывода в секунду при минимальных затратах. Технология Dell Fluid Cache объединяет массивы Dell Storage линейки SC и серверные флеш-накопители в единую систему хранения, в которой наиболее востребованные данные размещаются максимально близко к приложениям. В СХД, реализуемой по технологии Dell Fluid Cache, установленные в стандартных серверах Dell PowerEdge PCIe накопители Express Flash с горячей заменой являются «нулевым» уровнем хранения всей системы, а для обеспечения мгновенного доступа к этому уровню все используемые серверы объединены высокоскоростной сетью с крайне низкой латентностью.
Свой подход к построению СХД с флеш-дисками у компании НР. Алексей Поляков (HP в России) подчеркивает, что компании удалось в системе хранения среднего уровня HP 3Par преодолеть проблемы, связанные с высокой ценой таких накопителей и неприспособленностью традиционных СХД к эффективной работе с флеш-дисками. Благодаря многоконтроллерной архитектуре такие массивы не уступают в производительности специализированным all-flash массивам, хотя стоят значительно дешевле. А использование дополнительных сопроцессоров ASIC позволяет дедуплицировать данные без снижения производительности, что делает хранение на флеш-носителях не дороже, чем на обычных высокоскоростных HDD-дисках.
Системы хранения в ИТ-ландшафте
Массовое внедрение SSD-дисков, конечно, важная тенденция рынка СХД, но отнюдь не единственная. Например, Д. Тужилкин (IBM) отмечает также увеличение масштабируемости и модульности современных систем хранения, интеграцию новых технологий и устройств с существующей инфраструктурой хранения и, что особенно ценно в нынешнее время, повышение экономической эффективности хранения данных. Правда, экономическая эффективность хранения подавляющим большинством заказчиков по-прежнему оценивается как неудовлетворительная. Связано это с появлением новых источников и типов данных, для которых традиционные транзакционные системы хранения оказываются недоступно дорогими. Поэтому усилия разработчиков направлены на создание следующего поколения нелинейно масштабируемых систем хранения, которые смогут хранить в десятки раз больше данных, оставаясь в рамках существующих ИТ-бюджетов. Эта задача сейчас решается одновременно несколькими способами:
- путем разделения программных и аппаратных компонентов СХД, что в перспективе даст возможность формировать кластеры из практически любых доступных и подходящих аппаратных ресурсов;
- за счет обогащения первичных данных служебной информацией и интеллектуализации уровня СХД, что позволит обеспечить логическую целостность данных на протяжении длительного времени (вплоть до десятилетий) и организовать полностью автоматическое и экономически эффективное управление их хранением;
- с помощью открытых интерфейсов взаимодействия систем для прозрачной интеграции СХД новых поколений в существующую инфраструктуру и для быстрой адаптации новых технологий, как только их применение становится целесообразным.
При этом проблема несоответствия производительности СХД возможностям современных процессоров и требованиям ПО, по мнению Д. Тужилкина, уже успешно решена, так что технические параметры масштабируемости и возможности интеграции систем хранения в целом соответствуют создаваемым объемам данных, даже для крупнейших хранилищ.
К списку основных трендов развития современных СХД Евгений Красиков (ЕМС) добавляет смещение фокуса с физических характеристик СХД к их месту в ИТ-ландшафте, т.е. заказчики и производители уделяют все больше внимания не характеристикам одной отдельно взятой системы хранения, а возможностям эффективного и автоматизированного управления всем имеющимся пулом ресурсов. Это связано прежде всего с увеличением объемов данных – ЦОДы с десятками различных систем хранения уже не редкость. При таком масштабе управлять данными вручную на уровне каждой СХД просто невозможно, поэтому средства мониторинга и управления делаются особенно популярными. Кроме того, многие заказчики строят частное облако и переходят к сервисной модели, которая диктует необходимость объединения ресурсов в общий пул, автоматизированного управления и развитой интеграции с облачными стеками. Александр Яковлев (Fujitsu в России и СНГ) также считает, что основным двигателем технологий хранения последних лет стало внедрение облачных технологий массой заказчиков самого разного уровня и с разными начальными требованиями. Это сформировало спрос на решения, которые позволяют экономически эффективно организовать действительно гибкий доступ к ресурсам хранения с различными уровнями SLA и разной пропускной способностью и одновременно обеспечить простое администрирование этих ресурсов.
Экономическая подоплека спроса в полной мере проявила себя в 2014 г., и следует ожидать, что в нынешнем году тенденция снижения уровня запрашиваемых СХД хотя бы на одну ступень по сравнению с заказами двух-трехгодичной давности усугубится. Однако дело тут не только в ценах. Например, Fujitsu объясняет успех на рынке своих новых СХД начального и среднего уровня Eternus DX200 и DX600 в том числе и тем, что они имеют достаточно высокую производительность для систем такой ценовой категории, а кроме того, в них поддерживается возможность последующего апгрейда до более старшей модели простой заменой контроллеров.
СХД и Big Data
Аналитики и вендоры не первый год говорят о стремительном (в геометрической прогрессии, экспоненциальном и т.д.) росте объемов генерируемых человечеством данных. И пусть все эти данные хранятся во множестве СХД, тем не менее объемы систем хранения постоянно растут. Правда, линейно масштабировать терабайтные СХД до петабайтного уровня с сохранением той же доступности данных не получится: как отмечает Р. Волков (NetApp), ключевыми проблемами при работе с очень большими объемами данных являются их эффективное использование и выборка полезной информации, что требует специальных решений и специальных технологий, позволяющих хранить и управлять миллионами и миллиардами файлов. Традиционные файловые системы с таким количеством файлов работают неэффективно, и поэтому для больших объемов, как правило, используют объектные СУБД, в числе которых можно упомянуть, например, систему объектно-ориентированного хранения NetApp StorageGRID Webscale. Казалось бы, вместо единой СХД для больших объемов данных можно взять несколько систем меньших размеров. Но таких систем, на самом деле, должно быть не просто несколько, а несколько десятков – и тогда, как предупреждает Е. Красиков, возникнут проблемы с управлением ими и распределением данных между ними. Создание единой системы – сложная техническая задача, включающая в себя проблемы кластеризации, распределение данных по узлам или площадкам, репликацию этих данных и т.д.
Системы для работы с «большими данными» уже есть в арсенале многих крупных производителей. Например, компания НР разработала специальные программно-аппаратные комплексы для работы с Big Data – HP Converged Systems. Как объяснил А. Поляков (HP), для каждого заказчика в зависимости от его потребностей можно подбирать наиболее подходящую конфигурацию этой модели, которую потом в случае необходимости можно модернизировать. Система включает в себя серверы, СХД (HP 3Par StoreServ или StoreVirtual LeftHand), сетевое оборудование, ПО управления и виртуализации. Она собирается на заводе, доставляется на площадку клиента, где ее остается только инсталлировать.
IBM решает проблемы хранения «больших данных» исходя из того, что эти объемы возникают не сразу, а накапливаются за многие годы. То есть хранимые данные состоят из относительно небольшой оперативной части и значительно превосходящего ее по объему архива. Часто используемые данные можно хранить на дисках, а архив – на лентах, но перемещение сверхбольших данных из ленточного архива на диски зачастую экономически неэффективно и требует слишком больших затрат, поэтому IBM ведет работы в направлениях интеграции существующих ленточных приводов и библиотек в кластеры для сверхбольших данных и аппаратной «интеллектуализации» ленточных приводов. Интеграция существующих сверхбольших архивов происходит, прежде всего, на уровне ПО, в частности путем логического объединения кластерных дисковых и ленточных файловых систем GPFS и LTFS EE. А вот добавление интеллекта к ленточным приводам, по мнению специалистов IBM, приведет к появлению нового класса устройств, которые пока носят внутреннее название Deep Archive Devices. Сейчас для ряда научных проектов по изучению космоса в лабораториях IBM разрабатываются прототипы ленточных приводов емкостью от 1 Пбайт, которые не только позволят гарантированно хранить и обеспечивать доступ к данным в течение как минимум 50 лет, но и самостоятельно анализировать их, проводить сравнения и осуществлять поиск по заданным параметрам. Появления общедоступных коммерческих устройств на базе этих технологий можно ожидать в течение следующих пяти лет.
Кстати, технологиями обработки Big Data занимаются и в России: как сообщил М. Орленко (Dell), в 2014 г. компания Dell в дополнение к партнерству с ведущими мировыми организациями, занимающимися обработкой «больших данных», такими, как CERN и Кембриджский университет, заключила партнерское соглашение с Институтом системного программирования РАН, первым результатом которого стал запуск совместной лаборатории Big Data Open Lab. Первоочередной миссией лаборатории в РФ стали формирование экспертного сообщества и поиск решений для практических задач из области обработки и хранения «больших данных».
От «железа» к ПО
Одной из серьезных проблем СХД, предназначенных для сверхбольших объемов данных, является цена. Причем важна не только и не столько стоимость оборудования при закупке, сколько эффективность его использования и стоимость дальнейшей эксплуатации, предупреждает Е. Красиков. Экономика эксплуатации действительно больших систем отличается от привычной, вопросы эффективности выходят на первый план, многие стандартные подходы не работают, и поэтому в подобных проектах часто используются программно определяемые СХД – Software-Defined Storage (SDS). Это системы, в которых устанавливается недорогое массовое оборудование (x86-серверы), а вся ценность заключается в управляющем ПО. Такая модель больших облачных хранилищ и при построении, и при эксплуатации обходится провайдерам дешевле «тяжелого» оборудования.
Р. Волков полагает, что концепция SDS сделала для систем хранения то же, что виртуализация в свое время сделала для серверов, т.е. разрушила физические барьеры, которые привязывают данные к конкретному оборудованию. И следующим этапом в ее распространении будет перебрасывание мостика между публичными и частными облаками: SDS, которую можно развернуть на различных аппаратных платформах и которая обладает богатыми возможностями автоматизации, расширится до облака и позволит выстроить структуру данных, охватывающую и локальное размещение, и публичные облака. SDS станет средством, которое открывает для приложений однородный доступ к данным во всех облаках и упрощает управление данными при перемещении существующих приложений в облако.
Программно определяемые СХД выпускают многие вендоры, причем не первый год. Например, SDS-системы Dell Nexenta уже доступны на российском рынке, а в ближайшем будущем ожидается выход СХД Dell XC Series, основанной на программном коде компании Nutanix. NetApp предлагает программное решение Cloud ONTAP, позволяющее снизить затраты на перемещение данных в публичное облако и из него, а также на хранение активных данных в публичном облаке в течение длительного времени. У EMC есть продукты ViPR Services для построения программных систем хранения как с блочным, так и с объектным или файловым доступом. Компания Fujitsu, для того чтобы снизить возможные риски со стороны заказчиков, вместе со своей программно определяемой СХД предлагает целый комплекс услуг – от начального сайзинга до последующей установки, настройки и поддержки данного оборудования. НР заявляет, что за прошедшие пять лет реализовала порядка 200 тыс. лицензий на программно определяемые СХД, которые, по словам А. Полякова, заказчики ценят за их гибкость, управляемость и более низкую по сравнению с аппаратными СХД цену. По этой причине изначально SDS от НР приобретали в основном SMB-компании, покупающие обычно лицензии на четырех- или 10-терабайтные системы, а сейчас к ним добавились сервис-провайдеры. Специально для последних НР выпустила 50-терабайтные лицензии, позволяющие создавать масштабируемые кластерные хранилища под облачные сервисы, а под услуги BaaS (Backup as a Service) предлагаются лицензии на виртуальные ленточные библиотеки (VTL).
IBM при разработке своих SDS-систем использует открытые и стандартные интерфейсы и протоколы, которые дают возможность разделить программные и аппаратные компоненты инфраструктуры и систем хранения. Компания объясняет это тем, что жесткая привязка функциональности и емкости к определенной модели СХД, отсутствие совместимости между устройствами разных поколений и от разных производителей, сложность ручного управления и оптимизации ресурсов, затраты, растущие пропорционально объемам, – все то, с чем приходилось смиряться раньше, уже неприемлемо для большинства заказчиков. Для достижения нового уровня стоимости и эффективности необходимы серьезные изменения в подходах к проектированию систем хранения. Поэтому IBM отказалась от необходимости смены «железа» даже при радикальном обновлении функциональности ПО. Как отмечает Д. Тужилкин, в СХД от IBM относительно независимый программный слой позволяет клиентам успешно создавать и эксплуатировать кластерные системы хранения, состоящие из узлов разных аппаратных поколений. Следующим шагом в развитии программно определяемого подхода к проектированию будет перенос в ПО всей функциональности СХД и максимальное абстрагирование от аппаратных ресурсов, вплоть до того, что официально будут поддерживаться устройства хранения сторонних производителей. Конечно, пока SDS-системы не смогут заменить традиционные системы там, где требуется максимальная производительность для структурированных данных, но их основная задача – предложить заказчикам экономически эффективный и простой способ хранения новых типов информации. Поэтому в течение некоторого времени, возможно, весьма длительного, разные типы систем хранения будут существовать вместе. Основные объемы данных будут перемещаться в программно определяемую среду, и традиционные СХД, вероятно, станут ценным, но все-таки нишевым сегментом в общем объеме отрасли. В общем, программно определяемые системы хранения превращаются в один из наиболее массовых и быстрорастущих сегментов рынка систем хранения данных.
Как видим, прогресс в таком консервативном секторе, каким считаются СХД, идет, и заметен он не только в масштабе пятилетки, но и на более коротких дистанциях.