Рубрикатор | ![]() |
![]() |
Статьи | ![]() |
ИКС № 07-08 2016 | ![]() |
![]() |
Сергей ЛЕБЕДЕВ | 06 сентября 2016 |
Сертификация на операционную устойчивость: как это было
Наиболее горячие (после PUE) дискуссии на отраслевых конференциях вызывает вопрос: надо проходить сертификацию Uptime Institute или не надо? Я не собираюсь агитировать за или против, но могу поделиться опытом, как именно проходит сертификация.
![]() |
Справка ИКС В настоящее время Uptime Institute предлагает три вида сертификации дата-центра. Это сертификация проектной документации (Design Documents), сертификация построенного объекта (Constructed Facility) и сертификация на операционную устойчивость (Operational Sustainability). Последняя, по сути, это аттестация службы эксплуатации центра обработки данных, его инженеров и выстроенных в нем процессов. |
4 декабря 2015 г. Uptime Institute сообщил о получении ЦОДом Сбербанка «Южный порт» сертификата уровня Gold по направлению «Операционная устойчивость». Это заключительный этап сертификаций, которые проводит данная организация для центров обработки данных. В 2011 г. на уровень Tier III был сертифицирован проект инженерных решений ЦОДа «Южный порт» (в то время общепринятым было другое его название – МегаЦОД), в 2012 г. была проведена сертификация объекта (Facility), и в 2015 г. завершена сертификация на операционную, или, как указано на сайте Uptime Institute, эксплуатационную устойчивость.
Формально третий этап сертификации начался в феврале 2015 г. и закончился в ноябре того же года. На самом же деле подготовка к нему велась задолго до официального старта, и к моменту нашей первой встречи с экспертами Uptime Institute был выполнен большой объем работ. Откровенно говоря, некоторое время нам казалось, что сертификат Gold мы получим с ходу: в команде эксплуатации ЦОДа были далеко не новички в вопросах управления дата-центром. Мы имели четкое представление о том, как надо эксплуатировать такой объект, и большой опыт в этой сфере. Кроме того, возможности Сбербанка в части организации правильной, технически грамотной эксплуатации существенно превышают возможности среднестатистической компании, управляющей коммерческим ЦОДом. Но и в банке, как, впрочем, и в любой другой компании, есть свои нюансы и ограничения, связанные прежде всего с особенностями работы самого банка.
26 замечаний
Материалы по сертификации есть в открытом доступе, Uptime Institute не делает из них тайны, и в принципе каждый желающий может обратиться к первоисточнику и выстроить все свои процессы в соответствии с требованиями этой организации. Мы так и начинали.
На первом этапе подготовки к сертификации на операционную устойчивость, еще в феврале 2015 г., эксперты Uptime Institute в течение пяти рабочих дней, находясь непосредственно на объекте ЦОД «Южный порт», изучали, каким образом выстроена работа службы эксплуатации, анализировали текущее состояние дел и на основе собственноручно полученной информации рекомендовали нам, что может и должно быть улучшено, чтобы в конце года сертификация объекта могла быть выполнена на уровне Gold.
Группа экспертов Uptime Institute состояла из трех человек: двух инженеров «большого» Uptime, Райана Орра (Ryan Orr) и Скотта Киллиана (Scott Killian), и управляющего директора Uptime в России Алексея Солодовникова . Впоследствии С. Киллиана заменил Александр Мироненко . Руководителем группы был Р. Орр.
Основной упор эксперты делали на количество персонала (достаточно ли его) и на его обученность. Также много внимания уделялось управлению обслуживанием, политикам объекта и наличию документации.
В качестве примера приведу несколько замечаний от Uptime Institute, которые мы получили на первом этапе подготовки и над которыми потом работали:
Разработать методологию учета фактических переработок инженеров по обслуживанию и эксплуатации. По мере снижения потребности в поддержке новых проектов и ремонтного обслуживания этот учет позволит обосновывать штатное расписание.
По каждому виду упреждающего обслуживания необходимо создать программу анализа тенденций. Начать можно с данных термографических обследований, проведенных с момента пуска ЦОДа.
Разработать MOP* по каждому отдельному виду работ. Сотрудничать с поставщиками ответственного оборудования с целью разработки и представления ими качественных MOP, эффективно используемых на объекте. Если те или иные работы по обслуживанию выполняются инженерами Сбербанка, для них также необходимо разработать MOP.
Необходимо разработать программу обучения и ввести ее в действие немедленно после подготовки учебных материалов, упомянутых в Приложении III. После подготовки учебных материалов должна быть составлена таблица контроля прохождения первоначального и повторного обучения.
В библиотеку документации следует включить описания последовательностей автоматических операций, MOP и SOP**. Необходимо обеспечить доступ к документации собственному персоналу, представителям поставщиков, проектировщиков и т.д. и добиться ее использования.
Всего было 26 замечаний.
Гора технической документации
Для устранения полученных замечаний мы создали рабочую группу. Внутри группы распределили вопросы, решили, кто за что отвечает, установили ответственных сотрудников и сроки устранения. Совещания рабочей группы проводили раз в две недели. На этих совещаниях решали наиболее сложные вопросы и обновляли текущий статус задач.
Больше всего времени потребовало составление технической документации. Была выполнена колоссальная работа. Разработано 1472 регламента проведения работ (MOP) на каждую единицу инженерного оборудования и на каждый вид обслуживания (ежемесячное, квартальное, полугодовое, годовое), 1142 бланка отключения/включения оборудования (SOP), 60 бланков аварийных переключений (EOP, Emergency Operating Procedure), 670 бланков нормального состояния (SCP, Site Configuration Policies). Работа проводилась совместно с инженерами подрядных организаций и с компаниями – производителями инженерного оборудования. Для написания данных документов мы выделяли ведущего инженера по каждому направлению, например ведущего инженера по ДГУ, и привлекали инженеров подрядных организаций, которые проводят у нас техническое обслуживание. Таким образом, регламенты создавались совместными усилиями.
При составлении технической документации мы сразу столкнулись с проблемой выбора: делать один универсальный документ для однотипных единиц оборудования или разработать свой собственный MOP для каждой отдельной единицы. Да, он во многом будет похож на MOP аналогичного оборудования, но будут и отличия. Вопрос выбора модели представления документации вовсе не такой праздный, как может показаться на первый взгляд. Например, есть однотипные источники бесперебойного питания. Можно сделать одну универсальную инструкцию по работам в рамках годового технического обслуживания, допустим, на 20 ИБП, заменив отличающиеся элементы (скажем, номер входного автомата на ИБП или номер помещения, где стоит оборудование) пробелами, пустыми квадратиками или чем-то еще. Или можно сделать 20 инструкций для каждого ИБП в отдельности и в каждой инструкции четко, уже без всяких пробелов прописать, что где находится и какой именно рубильник нужно отключить. Разница в подходе: в первом случае количество документов невелико, но есть место для творчества. Во втором случае все строго зарегламентировано, но появляется множество однотипных документов.
Мы для себя решили этот вопрос однозначно: для каждой единицы оборудования, для каждого типа сервисного обслуживания – свой отдельный документ. Да, мы затратили массу сил, но тем самым уменьшили вероятность ошибки при проведении регламентных работ.
После разработки MOP мы получили еще один приятный «бонус». В MOP мы сразу указали: какие потребуются инструменты и запасные части для выполнения работ, с кем эти работы необходимо предварительно согласовать, на какие системы они могут оказать влияние, какие нужно предпринять меры по охране труда, какие подготовительные работы необходимо провести и какая для этого понадобится документация.
Кроме того, если работы выполняет сотрудник подрядной организации, а наш инженер только сопровождает их, то у нашего инженера уже есть на руках документ, в котором четко указано, что, в какой последовательности и как надо сделать, чтобы работы были выполнены качественно и в полном объеме. Тем самым мы избавляемся от влияния пресловутого человеческого фактора, от того, что один сервисный инженер делает работу так, через полгода другой инженер – по-другому, и не поймешь, как правильно.
В ходе составления документации инструкции переписывались, в них вносились изменения, добавления, и несколько раз весь объем документов приходилось переделывать. Но все-таки эту долгую и кропотливую работу нужно было сделать только один раз, а дальше уже пожинать ее плоды.
Эксперты Uptime Institute приезжали к нам еще дважды, в июле и в октябре, для того чтобы проконтролировать ход устранения недоработок и ответить на возникавшие вопросы.
Град въедливых вопросов
Собственно сертификация ЦОДа «Южный порт» на операционную устойчивость проходила в течение трех дней с 17 по 19 ноября. Нужно было предъявить экспертам Uptime Institute всю необходимую документацию, а главное – продемонстрировать, что вся работа службы эксплуатации в ЦОДе построена в соответствии с заявленными политиками и задокументированными процессами. Важно было доказать, что бумаги не лежат мертвым грузом в архиве, а реально работают, и есть определенная история, по которой можно понять, как в действительности живет ЦОД.
Эксперты Uptime Institute прекрасно знают, как докопаться до истины и разрушить «потемкинские деревни». Они применяют тактику «распутывания клубка ниток», когда последовательными вопросами в беседе с несколькими сотрудниками разбирается обычная рабочая или аварийная ситуация с поднятием необходимых и оформленных должным образом документов. В результате становилось понятно, как в действительности выстроена работа службы эксплуатации. Например, задавался вопрос: «Кто осуществляет допуск сотрудника подрядной организации к проведению работ?». Ответ: «Инженер дежурной смены». И далее шел разговор с сотрудником дежурной смены, выяснялось, как подрядчик попадает на объект, какие документы он должен предоставить, проводится ли вводный инструктаж, кто его проводит, где это фиксируется и т.д. По цепочке раскручивалась вся реальная картина наличия процедур и их соблюдения при проведении работ. В частности, у нас был случай, когда согласно графику технического обслуживания были запланированы работы на холодильных машинах и они пересекались по времени с обучением персонала. Эксперты Uptime проверили, были ли работы в этот день отменены (перенесены на другой день) и нашло ли это отражение в соответствующих документах. У нас это было сделано.
* * *
Вот так в ЦОДе Сбербанка «Южный порт» проходила сертификация на операционную устойчивость. Конечно, выполнить подобный объем работ в одиночку невозможно. Сертификация на уровень Gold – в первую очередь награда наших сотрудников. Это признание авторитетной международной организацией профессионального отношения к делу всего коллектива. И того, что «нам не достаточно быть первыми, мы должны быть лучшими».
_________________________________________________
*MOP (Method of Procedure) – регламент (способ) проведения работ.
**SOP (Standard Operating Procedure) – стандартная эксплуатационная процедура.