Rambler's Top100
Статьи ИКС № 01-02 2014
Заурбек АЛЕХИН  Дмитрий БАСИСТЫЙ  27 января 2014

Жизненный цикл дата-центра. В поисках рецептов вечной молодости. Ч. 2

В жизни дата-центра в некоторый момент наступает состояние наилучшего функционирования, когда он уже работает в полную силу, но еще не показывает признаков упадка. Как удержать его в этой фазе максимально долго?

Заурбек АЛЕХИН, независимый консультант 
 Дмитрий БАСИСТЫЙ, независимый консультант
Сценарии развития и причины деградации параметров ЦОДа

Итак, спустя некоторое время после завершения строительства, при условии наличия доброй воли и желания заинтересованных сторон, ЦОД оказывается в состоянии наилучшего функционирования. В некотором смысле это, как мы уже говорили ранее, идеальное состояние. И как минимум одна из заинтересованных сторон хотела бы, чтобы данное состояние сохранялось как можно дольше. Однако практика показывает, что в общем случае такое счастье невозможно без дополнительных усилий.

Износ оборудования

Для начала поймем, чем именно вызвана постоянная тенденция к ухудшению состояния объекта. Поскольку речь идет о технологической сфере, основная причина ухудшения состояния – это износ оборудования.

Известно, что любое оборудование имеет некоторый ресурс полезного использования, после исчерпания которого производитель не гарантирует не только работоспособность, но часто и безопасность его применения. Соответственно, после того как ресурс оборудования будет исчерпан, ЦОД однозначно станет неработоспособным.

В действительности ситуация несколько хуже, поскольку СНФ предполагает не просто принципиальную работоспособность объекта, но и сохранение параметров функционирования в определенных пределах. Это означает, что предельно допустимый для сохранения СНФ износ оборудования в ЦОДе наступит намного раньше, чем будет полностью выработан ресурс этого оборудования.

Какие меры можно предпринять, чтобы удержать объект на заданном уровне СНФ? Это восстановление потребительских свойств оборудования (частичный или капитальный ремонт) либо замена оборудования – на аналогичное или более современное.

Если проводить эти мероприятия для определенной технологической системы экономически нецелесо-образно, придется зафиксировать невозможность удержания ЦОДа в заданных пределах значений параметров СНФ и готовиться к завершающей, самой печальной стадии его жизненного цикла – утилизации и выводу из эксплуатации.

Перегрузка мощностей

Традиционная причина ухудшения состояния ЦОДа – нарушение работоспособности отдельных его систем из-за регулярной их перегрузки. Действительно, велик соблазн установить дополнительную ИТ-нагрузку без модернизации инженерных систем, а порой – даже без должной перенастройки всего, что обеспечивает надежное функционирование целевых ИТ-систем. Особенно велик такой соблазн у владельцев и менеджеров дата-центров, не имеющих непосредственного отношения к эксплуатации, но наделенных распорядительными функциями в иерархии управления организацией. В экстремальных случаях это приводит к авариям и выявляется довольно быстро.

К о г д а   д о с т и г а е т с я   с о с т о я н и е 
н а и л у ч ш е г о   ф у н к ц и о н и р о в а н и я

Как мы уже упоминали в первой части статьи (см. «ИКС» №12’2013, с. 78), это происходит далеко не сразу – как правило, после наступления следующих событий:

  • Объект построен
  • Укомплектована персоналом служба эксплуатации
  • Определена модель обслуживания
  • Определены основные рабочие процессы
  • Проведено развертывание ИТ-нагрузки
  • Получен опыт устранения отказов
  • Проведена отладка рабочих процессов
  • Проведены модернизация/улучшение/уточнение модели обслуживания
  • Достигнуты оптимальные режимы работы оборудо-вания.
  • Произошла незначительная деградация оборудования (стали появляться отказы)

Общая продолжительность периода перехода в СНФ, по нашей оценке, может составить 1–2 года с момента фактического завершения строительства дата-центра. 

Однако далеко не всегда это так, поскольку критичные системы ЦОДа, как правило, имеют некоторый запас прочности и способны выдерживать повышенную нагрузку достаточно долго. Поэтому внешне все будет вполне благополучно, инициаторы сверхнагрузки будут бодро рапортовать о своей суперэффективной инициативе, а возражавшие (как правило, из команды эксплуатации ЦОДа) – с горечью ждать того момента, когда их аргументы в пользу необходимости соблюдать проектные ограничения найдут подтверждение в виде конкретных отказов и сбоев.

А вот итог, скорее всего, будет плачевным, поскольку износ оборудования систем ЦОДа при экстремальной нагрузке будет в разы превышать плановый, и через некоторое время выяснится, что дата-центр уже не может функционировать не только с повышенной, но и с нормальной, рабочей нагрузкой… Понятно, что говорить о «состоянии наилучшего функционирования» уже не придется, оно однозначно останется в прошлом.

Мораль: фиксация параметров, безопасных для функционирования систем ЦОДа, во время их комплексных испытаний – хорошая практика. Такие параметры должны стать неотъемлемой частью паспорта объекта – основного эксплуатационного документа дата-центра.

Деградация уровня обслуживания

Постепенное снижение значений технических параметров ЦОДа за счет той или иной формы износа оборудования – вещь понятная и принимаемая сообществом в целом. В то же время существует фактор, способный оказывать не меньшее влияние на оценку состояния ЦОДа, который по ряду своих характеристик даже похож на упомянутые выше, но имеет принципиально иную природу.

Помимо работы оборудования качественное функционирование ЦОДа существенно зависит от того, насколько хорошо исполняет свои обязанности персонал службы эксплуатации. Не секрет, что пока рассуждения о полностью автоматически функционирующих ЦОДах в нашей стране воспринимаются скорее как фантастика (пусть и научная). Иначе говоря, уже многие понимают, что в принципе такое возможно, но вот в то, что это реализуемо в условиях отечественной действительности, веры пока не много. Поэтому персонал остается таким же необходимым и обязательным элементом дата-центра, как система холодоснабжения или любая другая инженерная система ЦОДа.

По понятным соображениям разговоры об «износе» такого типа «оборудования» выглядят несколько странными. Однако оказывается, что похожие (с некоторыми допущениями) процессы происходят и с людьми. При этом «износу» подвержены не собственно ресурсы (вопросы важности физического здоровья и безопасности работы персонала нет даже смысла обсуждать, это аксиома), а процессы и процедуры, этим персоналом исполняемые. Мы имеем в виду постепенно развивающееся в эксплуатационной команде ЦОДа снижение уровня ответственности, проявление разного рода халатности при исполнении служебных обязанностей. Конечно, при надлежащем управлении обслуживанием систем ЦОДа такие проявления редки, но в нашей «традиционной» модели эксплуатации дата-центров эти отклонения встречаются повсеместно.

Ну а к чему могут привести некачественно выполненная настройка, ошибка при переключении оборудования, невнимательность при контроле рабочих параметров, каждый вполне может себе представить: деградация параметров важных инженерных систем, отказы и сбои в работе оборудования, сбои в работе целевых ИТ-систем и т.д., и т.п.

Изменение внешних факторов

Наконец, стоит обратить внимание и еще на одну группу причин, способных вывести объект за пределы состояния наилучшего функционирования. Речь идет о внешнем воздействии.

Мы не будем здесь говорить о разного рода катаклизмах, включая природные, техногенные, политические: они известны, давно отнесены к форс-мажорным обстоятельствам, активно исследуются. Но внешнее влияние не ограничивается только этими событиями. Не менее разрушительными могут оказаться, например, изменения в законодательстве по охране природы, в системе налогообложения, в конкурентной среде… Все это способно отрицательно повлиять на оценку состояния объекта. Например, изменение требований по допустимому уровню шума может привести к тому, что невозможно будет использовать уже установленные системы холодоснабжения и системы гарантированного электроснабжения, а значит, объект не сможет функционировать в проектных режимах.

Что дальше?

Мы упомянули лишь некоторые (на наш взгляд – основные) факторы, влияющие на состояние объекта и оценку его соответствия СНФ. Хотя в действительности их намного больше, методы оценки и реагирования на них будут аналогичными. Приведенные примеры демонстрируют как естественную тенденцию к деградации объекта и выходу его из состояния наилучшего функционирования, так и разнородность причин, обусловливающих эту тенденцию. Далее мы обсудим возможные способы ее преодоления или, по крайней мере, существенного замедления процесса деградации.

Как обеспечить дата-центру вечную молодость?

«Заморозить» СНФ невозможно…

Несмотря на огромные усилия, ученым пока не удалось придумать, как обеспечить человеку вечную молодость, – и это в условиях практически безграничного, с лихвой обеспеченного деньгами спроса. Надеемся, что только пока… Но тщетность усилий наталкивает на мысль о принципиальной невозможности решения проблемы.

Ситуация в мире дата-центров в целом такая же. Любая техника ломается, и со временем частота отказов оборудования ЦОДа возрастает. Из-за большого числа разнообразных зависимостей и влияний «заморозить» объект в состоянии наилучшего функционирования по объективным причинам не представляется возможным.

Сложно определить, что окажется в той или иной ситуации решающим фактором, вызвавшим изменение параметра и выход его за границы допустимых значений. Это могут быть особенности конфигурации нагрузки, изменение климата, особые требования клиентов, неисправность какого-либо блока – да что угодно. Даже учесть все варианты воздействий невозможно, а уж предвидеть их и предусмотреть меры противодействия – тем более.

Но, может быть, попробовать?

Таким образом, приходится смириться с тем, что будучи предоставлен сам себе, без должного внимания и ухода, ЦОД будет постепенно деградировать и через некоторое время выйдет из состояния наилучшего функционирования. В то же время мы уже говорили, что есть силы, заинтересованные в том, чтобы объект находился в этом состоянии как можно дольше. К счастью, существуют различные методы, позволяющие продлить период нахождения в СНФ. Остановимся на некоторых из них.

Надежное устранение отказов. Часто при оценке качества функционирования ЦОДа одним из значимых факторов является наличие отказов инженерных систем и их влияние на работоспособность ИТ-нагрузки. Как известно, современные дата-центры проектируются таким образом, чтобы кратковременный отказ того или иного оборудования инженерной инфраструктуры не приводил к отрицательным последствиям для ИТ-оборудования, а в идеале – даже не был заметен.

Понятно, что это возможно только при условии, что появившийся отказ будет быстро и эффективно устранен. Именно правильная организация устранения отказов является одним из важнейших способов повышения качества функционирования ЦОДа. Существует ряд стандартных процедур, которые должны быть выполнены в случае отказа: выявление отказа, его идентификация, аварийное переключение нагрузки, обнаружение сбойного компонента, определение способа устранения отказа, выполнение работ по устранению отказа, полное восстановление нормального функционирования инженерных систем, переключение нагрузки в штатное состояние.

Для большей надежности в устранении отказов одновременно с перечисленными операционными процедурами должен быть организован контроль за их исполнением. В совокупности умение быстро и эффективно реализовать перечисленные мероприятия позволяет существенно уменьшить время устранения отказа, тем самым сделав его практически незаметным для потребителей услуг ЦОДа (если только количество отказов не будет слишком велико и ресурсов службы эксплуатации хватит для их устранения).

Концепция ТОиР по плану и по текущему состоянию. ГОСТ 18322-78 «Система технического обслуживания и ремонта техники. Термины и определения» дает следующее определение для системы технического обслуживания и ремонта (ТОиР): «совокупность взаимосвязанных средств, документации технического обслуживания и ремонта и исполнителей, необходимых для поддержания и восстановления качества изделий, входящих в эту систему».

Помимо умения быстро устранять отказы в реальности очень важно, чтобы количество отказов не было слишком велико. Основными причинами отказов оборудования являются брак и износ. Как правило, пока оборудование относительно новое, б'ольшая часть отказов связана с браком. По понятным соображениям со временем доля дефектов в причинах отказов падает, а доля износа – растет. Для того чтобы износ систем не превышал допустимые пределы, применяются методы и процедуры технического обслуживания и ремонта. В их основе лежат оценки нормативов износа оборудования в зависимости от нагрузки и иных условий функционирования. При достижении некоторого критичного коэффициента износа проводится плановый ремонт оборудования, с заменой изношенных элементов. Кроме того, для увеличения срока работы периодически проводится обслуживание оборудования, которое включает, в числе прочего, контроль его состояния, регламентные регулировки и настройки, замену расходуемых материалов и т.п.

В том случае, если организация способна эффективно оценивать реальное состояние и уровень износа отдельного конкретного оборудования, для повышения эффективности применяют подход, называемый «ремонт по текущему состоянию»: ремонт проводится исходя не из плановых нормативов, а из фактического состояния оборудования.

После проведения ремонта ресурс оборудования будет восстановлен, и вероятность его отказа будет почти такой же, как у нового оборудования. «Почти» – потому что в ходе ремонта обычно заменяют только отдельные детали, а не оборудование в целом, соответственно, оставшиеся старые детали все же имеют некоторый износ, в отличие от полностью нового оборудования. Таким образом удается поддерживать количество отказов в допустимых пределах.

Разработка и внедрение операционной модели эксплуатации. Своевременное устранение отказов, а также регулярное обслуживание и ремонт оборудования, безусловно, наиболее важны для обеспечения состояния наилучшего функционирования технологической составляющей дата-центра. Но существуют и иные значимые компоненты, в том числе качественное ресурсное обеспечение, наличие документации и ее полнота, адекватное финансирование и т.д.

Если абстрагироваться от частностей, получается, что мы говорим об организации обслуживания ЦОДа в целом или, в принятых сейчас терминах, об операционной модели обслуживания дата-центра. Эта тема в последнее время все активнее обсуждается в кругах специалистов отрасли ЦОДов. Ряд известных компаний даже предложили собственные рекомендации: чему стоит уделить при этом первоочередное внимание, как правильно всё организовать и как убедиться, что всё построено надлежащим образом. В рамках нашей статьи, к сожалению, нет возможности проанализировать этот подход*, позволяющий продлить состояние наилучшего функционирования.

Нужно бежать со всех ног, чтобы только оставаться на месте

…А чтобы куда-то попасть, надо бежать в два раза быстрее – это философское утверждение Черной королевы из известного произведения Льюиса Кэрролла можно перенести и на основную стадию жизненного цикла ЦОДа, стадию эксплуатации. Деградация ЦОДа и выход его из состояния наилучшего функционирования (в том виде, как оно определено в нашей статье) неизбежны, если не прикладывать усилия для компенсации потерь, неизбежно возникающих у любого дата-центра: «нужно бежать». В этом случае удастся добиться стабильного соответствия параметров функционирования ЦОДа заданным их значениям на протяжении требуемого времени. Если же в ходе эксплуатации ЦОДа понадобится достичь новых, более высоких показателей – иного состояния наилучшего функционирования, то просто «бежать» уже будет недостаточно: «надо бежать в два раза быстрее».

Итак, основные выводы:

  • Состояние наилучшего функционирования дата-центра не является стабильным, постепенно происходит деградация отдельных показателей, что в итоге приводит к выходу дата-центра из СНФ.
  • Полностью избежать выхода из СНФ не удается, но вот оттянуть этот момент – возможно. Но достигается это только путем регулярного проведения различных рекомендованных мероприятий и, соответственно, определенных материальных затрат.
  • Насколько долго удастся «заморозить» СНФ, зависит от полноты принятых мер и качества их исполнения. При определенных условиях речь может – теоретически – идти о десятках лет. 

________________

* Подробнее об этом можно прочитать, например, в следующих статьях и материалах: 1. В. Woolley, M. Hagan. Tiered Infrastructure Maintenance Standards (TIMS) for Mission-Critical Environments Sustainability, http://www.leetechnologies.com/index.php/resources-and-insights/whitepapers-tims. 2. Uptime Institute LLC. Data Center Site Infrastructure Tier Standard: Operational Sustainability, http://www.uptimeinstitute.com/publications. 3. 3. Алехин, Д. Басистый. Классификация подходов к организации эксплуатации инженерной инфраструктуры ЦОД. ЦОДы.РФ, №5’2013.

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!