разрабатываются принципиально новые схемные решения, в том числе предусматривающие резервирование;
Рубрикатор |
Статьи | ИКС № 06-07 2014 |
Заурбек АЛЕХИН  | 16 июня 2014 |
Если бы ЦОД был самолетом…
Требования, предъявляемые обычно к центрам обработки данных, не уникальны. Сходными требованиями оперируют, например, в гражданской авиации. Попробуем сопоставить ЦОД с самолетом и понять, насколько наработки в области авиации применимы к созданию и эксплуатации дата-центров.
Основное требование к ЦОДу (точнее, к его инженерной инфраструктуре) сводится к тому, что объект должен обеспечивать работу размещенного в нем ИТ-оборудования и сохранность данных. Для этого основные инженерные системы (в том числе электроснабжение и охлаждение) должны бесперебойно функционировать сами и поддерживать надежное функционирование предоставляемых ЦОДом услуг.
Как обстоит дело с соблюдением подобных требований в других областях? Какие методы используются? Как анализируется текущее состояние и обеспечивается эксплуатация? Ответы на эти вопросы могут помочь взглянуть на проблемные точки строительства и эксплуатации дата-центров со стороны и в итоге повысить надежность работы этих сложных объектов.
ЦОД и самолет: построение аналогий
Предназначение. Итак, будем сравнивать ЦОД с гражданским самолетом. Самолет предназначен для перевозки пассажиров из точки А в точку Б. При этом пассажиров следует удобно разместить, создать комфортные климатические условия, включая подачу чистого воздуха, предоставить воду, питание и т.д. И, безусловно, обеспечить безопасность перелета.
Инженерная инфраструктура дата-центра (включая машинный зал) предназначена для размещения ИТ-оборудования, предоставления электропитания, поддержания необходимых климатических условий (по крайней мере температуры и влажности). Конечно, полного совпадения нет, но если рассматривать ИТ-оборудование как пассажиров, а самолет – как инфраструктурный объект, определенные аналогии прослеживаются.
Ограничения по массе, объему, нагрузке. Фюзеляж всякого самолета имеет ограничения как по объему, так и по прочности. Количество кресел, а значит, и пассажиров строго ограничено. Кроме того, жестко лимитируется общая полезная нагрузка (вес). Причина простая: иначе не взлетит.
Если говорить о ЦОДе, то его машинные залы всегда ограничены по площади, фальшпол рассчитан на определенный вес размещаемого на нем оборудования, все инженерные системы имеют ограничения по мощности и другим характеристикам (это наиболее актуально для электроснабжения и охлаждения). Так что в данном аспекте аналогия с самолетом очевидна.
Четкие правила доступа. Чтобы попасть на борт самолета, необходимо не только предварительно купить билет, но и своевременно прибыть в аэропорт, пройти регистрацию, предполетный досмотр и посадку в самолет. Кроме того, каждый пассажир должен соблюдать правила авиаперевозок. Как, впрочем, и сама авиакомпания.
Наличие ограничений по безопасности в ЦОДе тоже не удивляет. Более того, здесь это одно из наиболее важных требований. В ЦОД никого просто так не пускают, для размещения техники необходимо согласовать и подписать договор, изучить и соблюдать правила допуска в помещения, установки, демонтажа и перемещения оборудования и т.д. Оговариваются и периоды посещений объекта. То есть в этой части совпадение почти полное.
Несколько классов обслуживания. «Экономический», «бизнес», «первый» – это наиболее часто используемые названия классов авиаобслуживания. Хотя фантазии у маркетологов авиакомпаний достаточно для того, чтобы увеличить количество этих классов в разы, но нам для понимания достаточно будет этих трех.
Что такое классы обслуживания, чем они различаются и что дают пассажиру? В действительности речь идет о различном объеме дополнительных удобств и/или услуг. Не более того. Следует помнить, что основная задача пассажирского самолета – перемещение пассажира из точки А в точку Б. И само перемещение независимо от класса обслуживания происходит совершенно одинаково: все пассажиры за одно и то же время будут перемещены из одного аэропорта в другой. За что же платят любители повышенных классов? За комфорт в ходе полета, индивидуальное обслуживание, дополнительные удобства, за более приятное окружение, за несколько большую безопасность, ну и, безусловно, за престиж.
А что же ЦОД? Как выглядит бизнес-класс по-цодовски с точки зрения потребителя его услуг? Примерно так же. Это может быть отдельный модуль или зал («первый класс») или выгородка в общем зале («бизнес-класс») или стойка в ряду ей подобных («эконом-класс»). Еще можно расширить для клиента допустимый временной диапазон для посещения и работы на объекте, предоставить выделенного менеджера для сопровождения. Все это принято именовать VIP-сервисом. Суть особо не меняется, и ЦОД успешно вписывается в предложенную модель.
Наличие службы летной эксплуатации (экипаж). Чтобы самолет взлетел, экипаж просто необходим. Кто-то должен вывести самолет на полосу, поднять в воздух, осуществлять контроль и корректировку маршрута в ходе полета и, конечно, совершить посадку. Кроме того, кто-то должен выполнять большое число незаметных для пассажиров операций в ходе полета, включая контроль различных параметров, их регулирование, связь с диспетчерами, реагирование на ситуацию в салоне и т.д.
ЦОДы пока тоже без дежурного персонала работать не могут. Конечно, мера ответственности, требования, да и напряженность работы дежурной смены ЦОДа отличаются от задач экипажа самолета, но в целом картина похожая: у ЦОДа есть свой экипаж, и он несет ответственность за «полет».
Постоянный контроль критичных систем. Самолет – очень сложный объект, содержащий большое количество разных систем, функционирование многих из которых критично для безопасности полета. Поэтому в ходе полета следует контролировать состояние систем и при необходимости принимать меры. Именно этим объясняется такое количество разнообразных приборов на самолетах прошлых поколений. В настоящее время приборов стало меньше, хотя количество контролируемых параметров возросло. Просто изменился способ визуализации, и значения параметров стали выводить на мониторы в более компактном и консолидированном виде.
ЦОД – тоже сложная система и тоже имеет свой обязательный набор параметров, подлежащих постоянному контролю. У любого современного ЦОДа есть тот или иной вариант системы мониторинга, во многих работают развитые, передовые системы управления. Назначение этих систем вполне соответствует летным аналогам – контроль параметров для своевременного реагирования в случае достижения или превышения пороговых, предельно допустимых значений.
Сопровождение и обслуживание в полете («экипаж салона»). Бортпроводники – неотъемлемая часть гражданской авиации. Многие считают, что их основная функция – создание максимального комфорта пассажирам. В действительности же их ключевая задача – обеспечение выполнения пассажирами правил техники безопасности и оказание им помощи в случае любых чрезвычайных происшествий. А обслуживание – задача скорее вторичная, хотя и более заметная.
Вот с «бортпроводниками» в ЦОДах, честно говоря, не очень. Кстати, может быть, и напрасно – нам всем стоит подумать на эту тему. Тем не менее основная функция – контроль соблюдения внутренних правил объекта как собственным персоналом, так и представителями заказчиков и сервисных подрядчиков – силами дежурной смены все же реализуется.
Техническое обслуживание и плановый ремонт. ТОиР – важнейший элемент эксплуатации воздушных судов. Всякий самолет в обязательном порядке проходит предполетную подготовку перед каждым рейсом. Кроме того, широкий спектр профилактических и ремонтных мероприятий осуществляется в соответствии с графиком технического обслуживания в течение всего времени использования воздушного судна.
Оборудование инженерной инфраструктуры ЦОДа тоже подлежит регулярному техническому обслуживанию. Так что особой новизны в постановке задачи нет. В том, что касается реализации, дело обстоит несколько хуже. Конечно, то или иное обслуживание наиболее критичных систем проводится, но насколько оно соответствует требованиям и рекомендациям, не всегда очевидно. Особенно если учесть, что и сами рекомендации присутствуют в актуальном виде далеко не всегда – нормативные документы по этой теме отсутствуют.
Взлет и посадка. Для исполнения своего основного предназначения самолет должен покинуть пункт вылета и каким-то образом прибыть в пункт назначения. Взлет и посадка – наиболее важные этапы всего процесса, несущие в себе огромные риски. Более того, поднявшись на борт самолета, все пассажиры и экипаж фактически соглашаются с тем, что через какое-то время придется совершать посадку. И изменить это обстоятельство уже будет нельзя ни при каких условиях.
В сфере ЦОДов прямой аналогии взлету и посадке нет. Можно, конечно, искусственно довести модель до более или менее полного соответствия. Но для целей нашей статьи это не только не обязательно, но даже вредно. Поэтому оставим ситуацию как есть.
Резюме. Итак, нам удалось обозначить широкий набор соответствий и даже прямых совпадений между самолетом и дата-центром.
Нам также удалось найти по крайней мере одно существенное различие, связанное с необходимостью принятия определенного решения, которое несет в себе заметные риски, – это решение о взлете. Тем не менее, несмотря на определенный фатализм такого решения, редко кто из пассажиров всерьез над ним задумывается. Почему? Ответ очевиден: потому что все уверены в том, что взлетевший самолет сможет сесть и успешно выполнить свою миссию по перемещению пассажиров из точки А в точку Б.
Конечно, катастрофы с самолетами случаются. Но в целом безопасность авиаперевозок настолько высока, что мы, особенно не задумываясь, выбираем этот вид транспорта для путешествий. Почему?
О надежности самолетов
Как указывается в энциклопедии по авиации, «надежность авиационной техники – это свойство летательного аппарата в целом и (или) его частей (конструкции, бортового оборудования, двигателей и др.) выполнять заданные функции, сохраняя значения эксплуатационных показателей в установленных пределах, соответствующих режимам и условиям использования, технического обслуживания, ремонта, хранения и транспортировки» (Авиация: Энциклопедия М.: Большая Российская энциклопедия, 1994).
То есть самолет надежен настолько, что пассажиры могут не бояться за свою безопасность. На его надежность оказывает влияние как уровень надежности отдельных частей, так и особенности формирования из них единого изделия. При этом одна из особенностей состоит в том, что, несмотря на возможные отказы отдельных элементов, работоспособность всего изделия должна сохраняться на допустимом уровне. Для этого компоненты, потенциально подверженные отказам, резервируются.
Поскольку обеспечить полную безотказность всех деталей невозможно, происходящие отказы должны быть легко выявляемы и контролируемы, в первую очередь экипажем. Для наиболее опасных отказов предусматриваются способы предотвращения их отрицательного воздействия, включая изменение параметров работы отдельных агрегатов либо активацию аварийных систем.
Все происходящее на борту самолета регистрируется при помощи систем сбора полетной информации. И, наконец, обеспечивается эксплуатационная технологичность, т.е. создаются все условия для установления причин неисправностей, их устранения и предупреждения проявления.
Уровень надежности летательного аппарата и отдельных его компонентов оценивается рядом количественных показателей, характеризующих безотказность, долговечность и сохраняемость (cохраняемость – свойство изделия, устройства, сооружения непрерывно сохранять (в заданных пределах) значения установленных для них показателей качества во время и после хранения и при транспортировке; сохраняемость – одна из составных частей надежности). Помимо этого применяются комплексные показатели, отражающие готовность к вылету, регулярность и безопасность полетов, совершенство технического обслуживания.
С целью обеспечения надежности авиационной техники было создано целое научное направление. В качестве базы были применены количественные методы расчета и анализа, а также инженерные методы обеспечения надежности при создании и испытании изделий. В дальнейшем были сформированы комплексные программы обеспечения надежности, опирающиеся на научные методы проектирования, испытаний и эксплуатационной оценки надежности. Это позволило глубоко исследовать причины появления неисправностей и разработать технологии создания изделий с заданным и контролируемым уровнем надежности.
Управление надежностью осуществляется на всех стадиях жизненного цикла самолета. Так, на стадии проектирования:
-
-
выбираются оптимальные для последующего надежного функционирования рабочие режимы и условия работы;
-
применяются специально создаваемые материалы с необходимыми характеристиками;
-
формируются механизмы контроля при производстве и эксплуатации, способные обеспечить как диагностику, так и прогнозирование технического состояния.
На стадии производства используются передовые технологии и эффективные методы контроля.
Проведение специальных, ориентированных на проверку уровня надежности, испытаний как отдельных систем, так и построенного летательного аппарата в целом – еще одна важная стадия жизненного цикла.
На стадии эксплуатации:
-
отслеживаются условия и режимы работы;
-
обязательно выполняются предусмотренные профилактические работы;
-
обеспечивается эксплуатационный контроль работоспособности;
-
постоянно проводится анализ и устранение причин выявляемых отказов.
Как это все работает
Конечно, ключевой момент – наличие научных методов и обоснований. Но не менее важны и другие компоненты.
В первую очередь должно быть обеспечено исполнение установленных требований и рекомендаций. Для этих целей сформирована нормативная база надзорных органов (в настоящее время это Госавианадзор), а также система отраслевых и государственных стандартов. Так, только действующих отраслевых авиационных стандартов в настоящее время более 8000 (!).
Отдельно следует обратить внимание на эксплуатационные документы, которые в обязательном порядке разрабатываются и поддерживаются в актуальном состоянии для каждого самолета. Причем, как по летной, так и по технической эксплуатации.
Следующий элемент – инфраструктура для осуществления проектирования, разработки, изготовления и испытания авиационной техники. Сложно переоценить ее масштабы, особенно если учесть, что в современном пассажирском самолете количество деталей достигает нескольких миллионов.
Далее – эксплуатационная инфраструктура. Она тоже огромна. Всего в мире насчитывается более 40 тыс. аэропортов и отдельных взлетно-посадочных полос. Многие аэропорты осуществляют разнообразное техническое обслуживание.
И, наконец, люди. Практика показывает, что люди – наименее надежный и предсказуемый элемент. Для обеспечения надлежащего его уровня в нашей стране имеется не только Единый квалификационный справочник персонала организаций воздушного транспорта, но и целостная система подготовки и переподготовки таких специалистов.
Все перечисленное связано в единую комплексную систему, результатом функционирования которой и является возможность пользоваться авиационным транспортом, не опасаясь за свою жизнь.
А что если… Счастье возможно
Из сказанного выше следует, что в настоящее время в нашей стране существует и эффективно работает некая модель, которая обеспечивает высокий уровень надежности функционирования весьма сложной системы (самолета). При этом сколько-нибудь серьезных споров о целесообразности исполнения требований, сформулированных в рамках данной модели, не слышно.
В то же время надежность функционирования ЦОДов до сих пор под вопросом. Более того, говорить здесь о каком угодно варианте уверенности вообще пока не приходится. Мы в самом начале пути.
Закономерен вопрос: может быть, стоит воспользоваться наработками, имеющимися в авиационной отрасли, и применить их для отрасли ЦОДов? Результаты будут не только полезными, но и наконец-то дадут ответ на постоянно возникающие вопросы о реальной надежности создаваемых и/или уже существующих объектов.
Таким образом можно будет обеспечить полную прозрачность всего жизненного цикла ЦОДа и наличие подтвержденных научными расчетами значений параметров объекта, включая оценку его безотказности, ремонтопригодности, готовности и надежности. Также станет возможным осознанно управлять этими параметрами в соответствии с обоснованными потребностями и имеющимися возможностями конкретного потребителя услуг или владельца объекта.
Какой ценой можно достичь этого счастья?
Конечно, задача не простая, и определенные усилия приложить придется. Наиболее серьезного напряжения потребует создание научной основы эксплуатации ЦОДа, включая создание полноценной модели ЦОДа, описывающей все его элементы и взаимодействия, для проведения дальнейших расчетов и вычислений. Однако основные техники можно будет не изобретать с нуля, а воспользоваться уже готовыми из практики других отраслей. Так, многие системы ЦОДа и происходящие в них процессы имеют те или иные аналоги в летательных аппаратах. А ввиду всеобъемлющего характера обеспечения надежности можно не сомневаться в наличии соответствующих научных разработок по ним.
Следующим шагом будет формирование собственной нормативной базы. Конечно, речь не идет о тысячах документов, но сегодня фактически нет ни одного. Это уж точно неприемлемо. С большой вероятностью удастся использовать уже имеющиеся документы, и не только из области авиастроения. Основные усилия придется направить на изучение имеющейся нормативной базы и определение ее применимости к ЦОДам.
Далее, предстоит сформировать условия, при которых использование созданных нормативных документов будет необходимым для участников отрасли. Вероятно, это наиболее сложный элемент. Но его удастся пройти легко в случае, если научные разработки будут качественными и смогут обеспечить необходимый уровень надежности, поскольку иметь уверенность в стабильности функционирования ЦОДа заинтересованы практически все потребители его услуг.
На фоне уже существующей модели обслуживания ЦОДов и снабжения их оборудованием создание системы поставщиков, готовых гарантировать качество услуг и надежность своей продукции в соответствии с жесткими требованиями и нормативами, не должно вызвать особых сложностей. Конечно, это потребует определенных усилий от всех участников и, вероятно, приведет к росту стоимости их продукции, но совокупный положительный эффект оправдает затраты как поставщиков, так и потребителей соответствующей продукции и услуг.
Последнее по счету, но не по важности – решение кадрового вопроса. Задача сложная, поскольку сегодня отсутствует система подготовки персонала для ЦОДов, но понятная и вполне реализуемая.
* * *
Изложенный выше подход и план сложны и не предполагают быстрого получения результата. Слишком уж многое предстоит сделать. Но поставленная цель тоже не сиюминутная, а ее достижение будет представлять ценность еще долгие годы.
Дорогу осилит идущий…