Рубрикатор |
Статьи | ИКС № 08-09 2014 |
Алексей СОЛОДОВНИКОВ Александр МИРОНЕНКО | 02 сентября 2014 |
Operational Sustainability: как это делается
Известная в индустрии дата-центров организация Uptime Institute относительно недавно ввела новый вид сертификации ЦОДов – Tier Certification of Operational Sustainability – для обладателей сертификатов Uptime на проект и готовую площадку и на услугу аудита системы эксплуатации для всех остальных дата-центров.
Стандарт Uptime Institute на эксплуатационную устойчивость дата-центров Tier Standard: Operational Sustainability в отличие от первого стандарта Uptime на проектирование и строительство ЦОДов был разработан по просьбам профессионального сообщества владельцев и операторов дата-центров Uptime Institute Network и при их активном участии. Именно они, в том числе крупнейшие мировые игроки на рынке дата-центров, обкатывали на себе процедуру аудита системы эксплуатации, получая при этом, кстати, массу замечаний по поводу собственного умения эксплуатировать ЦОДы. Стандарт был официально опубликован в 2010 г., и за прошедшие четыре года сертификаты получили девять дата-центров. Может показаться, что это мало, однако мы так не считаем. Четыре года – не очень большой срок для того, чтобы целая отрасль осознала положения этого стандарта, обсудила их и сформировала понимание нужности (или ненужности) предложенной сертификации. В конце концов, относительно массовый характер сертификация проектов и готовых площадок (Tier Design и Tier Facility) приняла лишь через 13 лет после публикации соответствующего стандарта. Стоит еще учесть, что сама процедура сертификации занимает довольно много времени.
Во время первого посещения дата-центра эксперты Uptime проверяют соответствие работы службы эксплуатации дата-центра всем положениям стандарта Tier Standard: Operational Sustainability, фиксируют все недостатки и вручают их список владельцу ЦОДа (как показывает практика, замечания есть всегда, даже в очень серьезных дата-центрах). Претендент может начинать «работу над ошибками», а сколько она продлится, зависит от него самого (обычно на это уходит несколько месяцев). Когда он решает, что готов, то приглашает специалистов Uptime к себе в ЦОД во второй раз. По результатам этого посещения и выносится решение о сертификации и уровне сертификата – Gold, Silver или Bronze.
Человеческий фактор
Что же требует от претендентов на сертификат стандарт Operational Sustainability? Самый важный его раздел касается человеческого фактора, на который приходится большая часть сбоев в дата-центрах. Эксперты Uptime проверяют, хватает ли в ЦОДе обслуживающего персонала, не перерабатывают ли сотрудники службы эксплуатации (это повышает риск нештатных ситуаций). Информация берется из штатного расписания, графика дежурства смен. Кроме того, дата-центр обязан подтвердить квалификацию своего персонала: в личных делах в отделе кадров должны быть и копии дипломов, и сертификаты об обучении на разных курсах, и должностные инструкции.
Следующим по важности является раздел стандарта, описывающий эксплуатацию оборудования: все системы должны обслуживаться в соответствии с процедурами, определенными их производителями. Если отследить регулярность их исполнения в небольшом ЦОДе можно с помощью простых средств (Excel и пр.), то в больших ЦОДах при наличии огромного количества разнородного оборудования это возможно сделать только с помощью специального ПО MMS (Maintenance Management System), которое позволяет вносить в базу все данные об оборудовании со сроками регламентных работ, график их выполнения (работы должны быть спланированы так, чтобы не снижать уровень отказоустойчивости дата-центра), информацию о наличии необходимого для этого обслуживания ЗИПа, SLA с производителем оборудования, данные об отказах того или иного оборудования и т.п.
Специальный раздел стандарта посвящен тренингам персонала службы эксплуатации, поэтому руководство дата-центра должно быть готово предоставить информацию о том, какие тренинги и как регулярно проходят специалисты ЦОДа, их учебные программы и материалы. Демонстрации действий персонала в условиях учебной тревоги эксперты Uptime обычно не требуют, но могут попросить специалистов службы эксплуатации рассказать и показать, не нажимая кнопки, что они будут делать в той или иной ситуации.
Документируй все
Следующий важный раздел стандарта касается документирования всех процедур, четко определяющих действия персонала во всех возможных ситуациях, которые могут возникнуть в дата-центре, чтобы даже в отсутствие ключевого сотрудника, отвечающего, например, за ИБП, любой другой человек мог выполнить все необходимые операции для быстрой ликвидации аварийной ситуации. Составление такой документации требует огромной рутинной работы, потому что оборудования в ЦОДе очень много и ситуаций, которые могут возникнуть, тоже немало. Кроме того, она должна своевременно обновляться в соответствии с теми изменениями, которые постоянно происходят в ЦОДе (добавление и замена оборудования, изменение схем электропитания или холодоснабжения и т.п.). Uptime не предписывает жестко, в каком виде (бумажном или цифровом) и где именно должна храниться эта документация, но хорошей практикой является наличие отдельного хранилища, откуда ее нельзя выносить, а можно только изучать и копировать.
Отдельная проблема – это маркировка всего оборудования ЦОДа: на каждом щите и каждом рубильнике должно быть четкое уникальное обозначение, которое его однозначно идентифицирует. Кроме того, в помещениях дата-центра должны висеть схемы расположенных там систем и находиться инструкции к имеющемуся оборудованию. Важно также отслеживать ситуацию с изменением нагрузки дата-центра в процессе его эксплуатации, ведь в ЦОДе периодически устанавливают новое оборудование, модернизируют или убирают старое. Стандарт не требует наличия для этого полноценной DCIM-системы, но в дата-центре, как правило, должно быть ПО, с помощью которого можно осуществлять мониторинг нагрузки отдельных PDU, шкафов, зон машинного зала и т.д.
И последний по значению раздел – это условия размещения дата-центра (близость военных баз, вулканов, рек, аэропортов и прочих потенциально опасных объектов) и особенности конструкции его здания.
Полученные данные проверок, список которых отнюдь не ограничен перечисленными выше пунктами, эксперты Uptime с использованием специально разработанных весовых коэффициентов трансформируют в баллы, сумма которых и определяет уровень эксплуатационной устойчивости дата-центра.
Процедура аудита системы эксплуатации, которая обходится заказчикам существенно дешевле сертификации, проходит по тому же стандарту Tier Standard: Operational Sustainability за исключением оценки местоположения ЦОДа и конструктивных особенностей здания. Кроме того, аудит не предполагает возможности «исправления ошибок», и уже после первого визита комиссии экспертов заказчик получает подробный отчет, который официально называется Management and Operations (M&O) Stamp of Approval, где указаны все недочеты и рекомендации по их исправлению, которыми заказчик может воспользоваться, а может их и проигнорировать. Пока эта процедура не столь популярна, как сертификация (Uptime Institute все же исторически ассоциируется именно с последней), но цель у нее та же – повысить эксплуатационную устойчивость дата-центра.