Рубрикатор |
Статьи |
Николай НОСОВ  | 27 ноября 2020 |
Надежность ЦОДа. Техника и люди
Автоматизация, архитектура, повышение квалификации сотрудников... Каждый ЦОД выбирает свой путь повышения надежности, зависящий от бизнес-модели и стоящих задач. Но при любом подходе важно снизить вероятность ошибки, связанной с человеческим фактором.
Автоматизированные системы все чаще заменяют людей. Компьютеры обыгрывают лучших игроков в шахматы, го и даже в покер. Робот-грузовик, в котором не предусмотрена кабина для водителя, едет по подмосковной дороге, камеры на дорогах заменяют гаишников, запускаются полностью автоматические магазины. Дойдет ли очередь до ЦОДов? Можно ли в них обойтись без людей? Эти вопросы поднимались в дискуссиях на проведенном «ИКС-Медиа» форуме «ЦОД 24 х 7. Инструкция по выживанию».
Дискуссия «Надежность. Эксплуатация» с участием Сергея Лебедева (Сбербанк России), Сергея Кобзева (Московская биржа) и Сергея Рассказова (DataSpace). Модератор – Алексей Солодовников (Uptime Institute)
«Бесчеловечный» ЦОД
Автоматизация процессов эксплуатации, повышение надежности работы за счет архитектурных решений снижают требования к численности эксплуатационного персонала дата-центра. Некоторые компании уже думают о выводе персонала из ЦОДа, о ЦОДе без людей, или, говоря словами управляющего директора российского отделения Uptime Institute Алексея Солодовникова, о «бесчеловечном ЦОДе». «Это уже реальность. Есть ЦОДы, которые работают без обслуживающего персонала более 40 лет. В 1977 году запустили космический аппарат «Вояджер», и с тех пор он летает. По сути – это ЦОД, электроустановка с компьютерной начинкой», – подтвердил генеральный директор DataSpace Сергей Рассказов.
Надежность ЦОДа определяется топологией, используемыми техническими решениями и работой службы эксплуатации, которая может совершить и неверное действие. Можно сколько угодно вкладываться в системы безопасности автомобиля, но нельзя остановить человека, захотевшего отправить его в пропасть или просто заснувшего за рулем. Человек остается слабым звеном, которому свойственны ошибки.
Не все компании обладают бюджетом NASA, да и космический аппарат – объект специфический. Тем не менее и в классических ЦОДах автоматизируется все больше работ, выполняемых обычно службами эксплуатации. Тенденцию к уменьшению участия человека в обеспечении бесперебойности функционирования ЦОДов усилила эпидемия СOVID-19.
Инженерные системы становятся все более надежными и умными. Изменяются и требования к сотрудникам служб эксплуатации. На них возлагается все меньше работ, требующих быстрой реакции, все больше таких действий перекладывается на автоматику. «В пандемию у эксплуатационного персонала ЦОДов расширился круг обязанностей. Многие перешли на дистанционную работу, и дежурные инженеры стали заниматься монтажом и демонтажом, коммутацией оборудования, мониторингом работы информационных систем. Мы поняли, что надо развивать компетенцию людей и брать на себя новые задачи», – пояснил начальник управления развития и эксплуатации ЦОД Московской биржи Сергей Кобзев.
Не стоит забывать, что и элементы автоматики могут выйти из строя. «Только путем автоматизации вряд ли удастся решить проблему надежности. Чем сложнее система автоматизации, тем больше точек отказа», – напомнил Сергей Рассказов.
Ставка на топологию
Дискуссия «Надежность. Технологии» с участием Алексея Солдатова (DataPro), Кирилла Шадского (DataLine/ «РТК-ЦОД») и Константина Королева (АНО КС ЦОД). Модератор – Александр Мартынюк («Ди Си Квадрат»)
В новом дата-центре DataPro, первом в России соответствующем уровню надежности Tier IV, дважды отключалась на 7 ч система городского электроснабжения в то время, когда с коронавирусом слегла половина смены. По объекту бродил одинокий дежурный, но ничего делать не пришлось. Все работало, никаких проблем не возникло. «В ЦОДе Tier III я бы так спокойно не спал, пришлось бы бегать смотреть, включилось ли кондиционирование», – поделился недавними воспоминаниями генеральный директор DataPro Алексей Солдатов. При этом в ЦОДе нет единой системы, принимающей решения. Компания убрала автоматизацию верхнего уровня, надежность поддерживается за счет топологии и неуправляемых систем автоматики среднего и низкого уровня.
«Самое сложное в реализации концепции Tier IV – физическое разделение линий. Для их прокладки и обслуживания требуется много места», – указал Алексей Солдатов. С точки зрения энергетики тут нет ничего нового, по такому принципу энергетические линии ЦОДов строятся уже десяток лет. Отличие ЦОДа DataPro – в топологии системы охлаждения, разработанной в рамках проведенных компанией НИОКР. «Себестоимость наших ЦОДов Tier IV не в разы, а лишь на несколько процентов выше, чем у Tier III», – заявил Алексей Солдатов. По этой причине он поставил под сомнение будущее ЦОДов Tier III: «Зачем строить за большие деньги [Tier III], когда за них можно построить Tier IV». Сертификат Tier IV Uptime Institute на ЦОД компания планирует получить в ближайшее время.
Начальник отдела управления внешними ЦОДами компании DataLine (в составе «РТК-ЦОД») Кирилл Шадский согласился, что при правильном подходе ЦОД Тier IV обходится ненамного дороже, чем ЦОД Tier III. Но он подчеркнул, что всегда надо искать оптимальный вариант. Эффект Tier IV проявляется на больших масштабах. Бывают ситуации, когда использование концепции Tier IV экономически не оправдано. Прежде всего в региональных ЦОДах, в которых число запускаемых стоек значительно уступает столичным: в регионах счет идет на сотни, тогда как в Москве типовой «квант» наращивания емкости – 500 стоек.
Компания DataLine тоже строит ЦОД Tier IV. Разработка концепции нового ЦОДа началась весной, сейчас залит бетон и подходит к концу проектирование инженерных систем. Летом 2021 года планируется запуск первой очереди – двух машзалов по 250 стоек. Общая емкость ЦОДа составит 2 тыс. стоек.
Стандарт Uptime Institute допускает наличие единой точки отказа в ЦОДах уровня Tier III. Конечно, в грамотно построенных ЦОДах Tier III их нет, но только выбирая ЦОД, сертифицированный согласно Tier IV, клиент может быть уверен, что с таким недостатком не столкнется. Помимо обязательного отсутствия единой точки отказа и отмеченного Алексеем Солдатовым разделения трасс, эксперт выделил в качестве отличия Tier IV от Tier III бесшовное (бесперебойное) кондиционирование.
Ушло время, когда ЦОД строили как большое офисное здание, где «много холода и электричества». Важную роль стала играть топология ЦОДа, архитектура инженерных решений, обеспечивающая надежную работу объекта. «С точки зрения проектирования не так важно, какое используется оборудование. Любое самое надежное оборудование раньше или позже сломается. Задача проектирования – разработка целостного решения», – указал Константин Королев, директор по развитию отраслевых инициатив АНО КС ЦОД.
Рецепты бесперебойности
Для обеспечения бесперебойной работы необязательно тратить ресурсы и площадь на резервирование систем, вписываться в строгие требования сертификации, гарантирующие надежность. Исполнительный директор управления сопровождения ЦОДов Сбербанка России Сергей Лебедев считает, что, возможно, со временем мы придем к ЦОДам без персонала, но не за счет повышения надежности объекта. «Это будет смена парадигмы: резервироваться будет не инженерная система в ЦОДе, а сами ЦОДы. И остановка одного ЦОДа не скажется на работе ИТ-инфраструктуры в целом».
Но это дело будущего, сегодня же важно обучать и тренировать службу эксплуатации. «Без надежной службы эксплуатации не бывает надежного ЦОДа. Если вовремя не проводить техническое обслуживание, аварийность ЦОДа возрастает в разы. Это не значит, что если у нас из ЦОДа уйдет служба эксплуатации, то он сразу сломается. Какое-то время проработает. Но не очень долго. В любом случае обученный персонал службы эксплуатации снижает риски возникновения аварийных ситуаций. Для меня это очевидно», – продолжает Сергей Лебедев.
«Бесчеловечные» ЦОДы уже есть. Контейнерные ЦОДы запускают в космос. В сентябре 2020 года Microsoft отчиталась об успешном проведении эксперимента по созданию автономного дата-центра – герметичной капсулы с 12 стойками, проработавшей два года на морском дне. Да и обычные контейнерные ЦОДы не требуют постоянного присутствия человека.
Но полностью отказаться от персонала в крупном ЦОДе пока невозможно. Должны быть смены, контролирующие состояние оборудования и реагирующие на штатные и нештатные ситуации. Хотя и сейчас можно оптимизировать число сотрудников и перевести на удаленный режим многих специалистов. Или даже передать функции мониторинга на аутсорсинг. Например, оператор центра предиктивной аналитики компании Vertiv отслеживает тысячи локаций и в случае проблем в дата-центре предлагает клиентам перезапустить оборудование, установить новое программное обеспечение, а предвидя возможный выход из строя того или иного узла – заменить его.
Без постоянного присутствующего на объекте эксплуатационного персонала пока трудно представить крупный дата-центр. Но грамотный выбор топологии, технических решений и использование систем автоматизации позволяют снизить зависимость от человеческого фактора.
Обсуждение тем, связанных с созданием и эксплуатацией дата-центров, развитием бизнеса провайдеров облачных сервисов и услуг colocation, а также вопросов подготовки кадров для отрасли продолжится 10 декабря на крупнейшей ежегодной конференции «ЦОД», которая в этом году пройдет в формате онлайн. Ознакомиться с программой и зарегистрироваться можно на сайте www.dcforum.ru
.
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!