Рубрикатор | ![]() |
![]() |
Все новости | ![]() |
Новости компаний | ![]() |
![]() |
Об инциденте с энергоснабжением дата-центра Яндекса
08 апреля 2025 |
Яндекс опубликовал итоги предварительного расследования инцидента, который произошёл в воскресенье, 30 марта и затронул один из дата-центров компании - в результате аварии оказались обесточены обе линии, питающие ЦОД. Это повлияло на работу Yandex Cloud и ряда сервисов Яндекса.
Пострадавший дата-центр подключён к национальным электросетям через ближайшую опорную подстанцию 220 кВ. Питание от подстанции в ЦОД подаётся по двум независимым линиям на 110 кВ. Чтобы питать весь дата-центр, достаточно одной линии. Схема с двумя линиями страхует объект от перебоев с электричеством.
Днем 30 марта, в 12:25, на опорной подстанции случилась авария, в результате которой оказались обесточены обе линии, питающие ЦОД. За 15-летнюю историю эксплуатации объекта такое произошло впервые. Более того, насколько известно Яндексу, авария такого масштаба — первая в истории подстанции, а она существует с 1960 года.
До 15:30, когда подача питания была восстановлена, единственным источником электроэнергии в дата-центре были дизель-генераторы. Благодаря им удалось сохранить работоспособность критических элементов инфраструктуры дата-центра, в том числе центров управления сетями и сервисов безопасности. Это позволило полностью восстановить работу объекта уже к полуночи. Если бы не альтернативные источники питания, восстановительные работы после аварии такого масштаба заняли бы несколько дней.
После выхода ЦОДа из строя нагрузка была распределена между остальными дата-центрами Яндекса. Глобального сбоя не случилось, поскольку все сервисы Яндекса функционируют по схеме «минус один ЦОД»: они сохраняют работоспособность, даже если один из дата-центров компании полностью выходит из строя. Но, пока система перестраивалась, некоторые пользователи в течение короткого времени могли наблюдать небольшие неполадки в работе ряда сервисов Яндекса.
В дата-центре также находится ru-central1-b — одна из трех зон доступности платформы Yandex Cloud. Приложения клиентов Yandex Cloud, развернутые только в ru-central1-b, оставались недоступными все время, пока шли восстановительные работы. Приложения, развернутые сразу в нескольких зонах доступности, могли быть недоступными или работать с неполадками, пока нагрузка перераспределялась между другими дата-центрами.
События 30 марта показали, что двойной отказ питания в дата-центре — хоть и крайне редкая, но все же возможная ситуация. Яндекс произведет переоценку рисков, связанных с энергоснабжением ЦОДа, и примет меры, которые позволят минимизировать последствия подобных отказов.
Риск двойного отказа будет заложен в регламенты проведения «учений» — регулярных мероприятий, на которых команда эксплуатации ЦОДа отрабатывает действия на случай нештатных ситуаций.
В системы управления дата-центром будут внесены доработки, которые позволят ускорить его «холодный старт» — возвращение в строй после отказа питания.
Yandex Cloud рассматривает возможность внедрить в своих модулях дополнительное резервирование, в том числе с использованием дизель-генераторов в качестве запасного источника питания. Кроме того, Yandex Cloud продолжит пополнять библиотеку архитектурных решений и развивать инструменты мультизональной отказоустойчивости.
Источник: Яндекс
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
Оставить свой комментарий:
Комментарии по материалу
Данный материал еще не комментировался.