Rambler's Top100
Все новости Новости компаний

Об инциденте с энергоснабжением дата-центра Яндекса

08 апреля 2025

Яндекс опубликовал итоги предварительного расследования инцидента, который произошёл в воскресенье, 30 марта и затронул один из дата-центров компании -  в результате аварии оказались обесточены обе линии, питающие ЦОД. Это повлияло на работу Yandex Cloud и ряда сервисов Яндекса.

Пострадавший дата-центр подключён к национальным электросетям через ближайшую опорную подстанцию 220 кВ. Питание от подстанции в ЦОД подаётся по двум независимым линиям на 110 кВ. Чтобы питать весь дата-центр, достаточно одной линии. Схема с двумя линиями страхует объект от перебоев с электричеством. 

Днем 30 марта, в 12:25, на опорной подстанции случилась авария, в результате которой оказались обесточены обе линии, питающие ЦОД. За 15-летнюю историю эксплуатации объекта такое произошло впервые. Более того, насколько известно Яндексу, авария такого масштаба — первая в истории подстанции, а она существует с 1960 года.

До 15:30, когда подача питания была восстановлена, единственным источником электроэнергии в дата-центре были дизель-генераторы. Благодаря им удалось сохранить работоспособность критических элементов инфраструктуры дата-центра, в том числе центров управления сетями и сервисов безопасности. Это позволило полностью восстановить работу объекта уже к полуночи. Если бы не альтернативные источники питания, восстановительные работы после аварии такого масштаба заняли бы несколько дней.

После выхода ЦОДа из строя нагрузка была распределена между остальными дата-центрами Яндекса. Глобального сбоя не случилось, поскольку все сервисы Яндекса функционируют по схеме «минус один ЦОД»: они сохраняют работоспособность, даже если один из дата-центров компании полностью выходит из строя.  Но, пока система перестраивалась, некоторые пользователи в течение короткого времени могли наблюдать небольшие неполадки в работе ряда сервисов Яндекса.

В дата-центре также находится ru-central1-b — одна из трех зон доступности платформы Yandex Cloud. Приложения клиентов Yandex Cloud, развернутые только в ru-central1-b, оставались недоступными все время, пока шли восстановительные работы. Приложения, развернутые сразу в нескольких зонах доступности, могли быть недоступными или работать с неполадками, пока нагрузка перераспределялась между другими дата-центрами.

События 30 марта показали, что двойной отказ питания в дата-центре — хоть и крайне редкая, но все же возможная ситуация. Яндекс произведет переоценку рисков, связанных с энергоснабжением ЦОДа, и примет меры, которые позволят минимизировать последствия подобных отказов.

Риск двойного отказа будет заложен в регламенты проведения «учений» — регулярных мероприятий, на которых команда эксплуатации ЦОДа отрабатывает действия на случай нештатных ситуаций.

В системы управления дата-центром будут внесены доработки, которые позволят ускорить его «холодный старт» — возвращение в строй после отказа питания.  

Yandex Cloud рассматривает возможность внедрить в своих модулях дополнительное резервирование, в том числе с использованием дизель-генераторов в качестве запасного источника питания. Кроме того, Yandex Cloud продолжит пополнять библиотеку архитектурных решений и развивать инструменты мультизональной отказоустойчивости. 

Источник: Яндекс

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!

Оставить свой комментарий:

Для комментирования необходимо авторизоваться!

Комментарии по материалу

Данный материал еще не комментировался.

Продолжение использования сайта пользователем интерпретируется как согласие на обработку фрагментов персональных данных (таких, как cookies) для целей корректной работы сайта.

Согласен