Рубрикатор |
Статьи | ИКС № 2 2023 |
Александр КОНЯЕВ Николай ЛУКИН | 21 марта 2023 |
Мониторинг инженерных систем ЦОДа: что, зачем и как
Цель мониторинга – оперативно выявлять неполадки в работе инженерной инфраструктуры, обеспечивая бесперебойную работу всего дата-центра. Без мониторинга невозможно предоставить требуемый современному бизнесу уровень доступности оборудования и надежности сервисов.
Центр обработки данных – это сложный технологический организм, который состоит из множества элементов и инженерных систем. Все его узлы функционируют и взаимодействуют между собой, чтобы обеспечивать бесперебойного работу серверного и телекоммуникационного оборудования. Размещая на своих площадях ИТ-инфраструктуру клиента, оператор дата-центра должен сделать максимум для того, чтобы все системы жизнеобеспечения машинного зала – кондиционирования, вентиляции, пожаротушения и т.д. − работали безупречно. Поэтому, построив высокотехнологичный объект, он должен поддерживать его в идеальном состоянии и избегать сбоев и аварий.
Чтобы иметь уверенность в том, что все системы ЦОДа работают в штатном режиме, нужен постоянный контроль, мониторинг его инженерных систем. С помощью системы мониторинга ведется наблюдение за всеми технологическими процессами и компонентами, которые входят в состав ЦОДа, оценивается их состояние и прогнозируются нештатные ситуации. Система фиксирует любое, даже самое незначительное отклонение от нормы (например, повышение температуры в машинном зале) и сигнализирует об этом. Своевременно полученный сигнал позволяет принять меры и не допустить изменения показателей до критичных – аварийных – значений.
Когда надо задумываться о мониторинге?
Было бы ошибкой считать, что целесообразность внедрения системы мониторинга зависит от каких-либо параметров ЦОДа, например, его мощности или количества стоек. Мониторинг инженерных систем необходим любому дата-центру, и позаботиться о нем нужно еще на этапе проектирования. После запуска объекта внедрить систему будет очень сложно, по меньшей мере понадобится приостанавливать работу ЦОДа, что в принципе недопустимо.
В систему мониторинга поступает информация от сотен объектов дата-центра: трансформаторов, счетчиков электроэнергии, ИБП и других компонентов инженерной инфраструктуры. Это большая, сложная система, и все ее элементы − датчики, котроллеры, анализаторы тока и т.п. – следует подобрать на этапе проектирования ЦОДа, спланировать их расположение, решить, по каким протоколам обмена данными они будут работать, оценить совместимость и т.д. Таким образом, один из этапов проектирования дата-центра – проектирование его системы мониторинга.
Центр мониторинга ЦОДа
Проектная документация
Документация по проектированию системы мониторинга должна содержать следующие разделы:
- список оборудования;
- архитектура системы (схема расстановки оборудования и расположения датчиков, схема подключения контроллеров к сети и т.п.);
- список всех отслеживаемых параметров с заданными (нормальными) значениями;
- пороговые значения отслеживаемых параметров (для определения предаварийных и аварийных ситуаций).
Пороговые значения определяются в первую очередь ГОСТами, опытом эксплуатации тех или иных систем, а также параметрами SLA. Например, согласно отраслевым нормативам, уровень напряжения не должен превышать 220 В ± 10%. Однако в соответствии с предоставляемыми ЦОДами IXcellerate SLA такой разброс значений недопустим: мы должны обеспечивать клиентам «чистое» напряжение в 220 В, ни на один вольт больше и ни на один вольт меньше.
Обычно предусматриваются два вида аварийных оповещений – предупреждения об отклонении от нормы и сообщения о критическом уровне отклонения. Первая ситуация расценивается как предаварийная, вторая – как чрезвычайная. Так, снижение температуры в машинном зале на два градуса с 23℃ до 21℃ будет идентифицировано как предупреждение (предаварийная ситуация), а если температура опустится ниже 20℃ – сработает сигнал аварии, которая требует немедленной ликвидации.
Исполнительная документация
Помимо технологического проекта следует разработать также регламенты и инструкции для персонала. В этих документах фиксируется план действий на случай отклонения показателей от нормы. Дежурный инженер должен четко знать, что делать в случае предаварийной или аварийной ситуации, чтобы локализовать неполадки и не допустить коллапса.
Обязательная составляющая системы мониторинга ЦОДа – это аварийные карты, которые готовятся профильными инженерами. Каждую карту заполняет отдельный специалист, поскольку план действий в случае пожара отличается от плана действий в случае протечки кондиционера.
Объединяя технологии и регламенты, мы получаем высокоэффективный механизм управления инженерной инфраструктурой ЦОДа.
Что отслеживает система мониторинга
Мониторинг в ЦОДе охватывает важнейшие инженерные системы:
- электроснабжение (контролируются напряжение в ИБП, сила и частота тока, уровень топлива в баке ДГУ);
- холодоснабжение (температура в помещениях, давление хладагента, отсутствие протечек);
- вентиляция и кондиционирование воздуха (температура на входе и выходе из кондиционера, скорость вращения вентиляторов);
- пожарная сигнализация (возгорание, уровень задымления).
Мониторинг работы ДГУ
Аварии в дата-центре могут происходить не только из-за сбоев оборудования, но и по вине людей, поэтому отдельная функция системы мониторинга – обеспечение безопасности. Основная задача системы – не допустить несанкционированного доступа в помещения ЦОДа. Для этого внутри объекта устанавливаются охранные извещатели (датчики). Система показывает, через какую дверь вошел человек, фиксирует номер его идентификационной карты, отслеживает маршрут. В случае несанкционированного открытия двери или окна, разбития стекла или движения внутри помещения срабатывает тревожная сигнализация. На пульт охраны передается оповещение, дежурный по видеокамерам производит осмотр и при необходимости следует к источнику тревоги, возможно, предварительно заблокировав двери.
Принципы работы системы мониторинга
Система отслеживает, как функционирует подконтрольное оборудование, и фиксирует возникающие ошибки. Количество наблюдаемых параметров может исчисляться десятками и даже сотнями. Например, в первой очереди ЦОДа MOS5 в Южном кампусе IXcellerate установлено 16 ИБП, и для каждого из них контролируется несколько десятков параметров.
Оборудование. Для снятия первичной информации используются датчики, которые передают полученные данные на контроллеры. Далее вся информация аккумулируется в системе и через единый интерфейс выводится на экраны в центре мониторинга ЦОДа. Дежурные инженеры отслеживают показатели круглосуточно.
Датчик температуры
Детализация данных. На мониторах отражаются все важные параметры. Специалист видит картину целиком и при необходимости открывает отдельные вкладки – углубляется в детали. Например, отслеживая уровень напряжения в системе, он может просмотреть параметры по каждому вводу в отдельности.
Частота обновления. Частоту «опросов» контролируемого оборудования можно настроить. Будет ли система снимать показания раз в секунду или раз в минуту, зависит от уровня критичности того или иного параметра. Например, в дата-центрах IXcellerate показатели температуры и напряжения отслеживаются не реже одного раза в секунду. Чем чаще поступают данные, тем лучше, поскольку скачок напряжения или температуры может произойти внезапно и пропустить его ни в коем случае нельзя.
Визуализация. Для удобства отслеживания и наглядности все контролируемые системы и их параметры визуализируются виде схем и карт. Как будут выглядеть показатели на экране, определяется заранее. Каждый дата-центр может настроить визуализацию в соответствии со своими потребностями и предпочтениями. В процессе разработки вида экранов специалисты анализируют, насколько та или иная визуальная подача информации приятна для глаз, и подбирают подходящие и интуитивно понятные варианты. Так, система автоматической пожарной сигнализации не только оповещает о задымлении, но и показывает место срабатывания датчика, чтобы дежурный сразу увидел на плане, где появилось возгорание.
Оповещения. В случае аварийных ситуаций система мониторинга выводит данные на экран (в заданном визуальном формате) и рассылает всем ответственным лицам оповещения с расшифровкой аварии (в формате SMS и e-mail).
Сбор статистики. Все данные, поступающие в систему, агрегируются, архивируются и хранятся на отдельном сервере не менее одного года. Это дает возможность анализировать, как вела себя каждая система в определенный промежуток времени − как держался заряд на батареях, какую температуру поддерживал кондиционер, как часто происходили сбои и т.д. На основе этих данных можно скорректировать работу того или иного прибора.
Резервирование. Для сбора и хранения данных, поступающих в систему мониторинга, используется отдельное серверное и сетевое оборудование. Для организации резервирования потребуются как минимум два сервера, чтобы при выходе из строя одного из них мониторинг продолжил работать на втором. Сами мониторы в центре мониторинга также должны быть подключены к бесперебойному питанию с резервом.
* * *
Центр обработки данных, не оснащенный системой мониторинга, не может обеспечивать уровень доступности оборудования и надежности сервисов, который требуется современному бизнесу. Помимо этого, постоянный контроль работы инфраструктуры помогает увеличить ее сохранность и срок службы за счет достижения оптимальных параметров эксплуатации и своевременной реакции на любые сбои.
Александр Коняев, главный инженер Южного кампуса, IXcellerate
Николай Лукин, руководитель направления слаботочных систем,
IXcellerate
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!