Rambler's Top100
Статьи
Николай НОСОВ  29 января 2024

Облачные библиотекари и российский рынок DBaaS

Использование единой платформы для работы с данными становится необходимостью, и популярность облачных баз данных на российском рынке растет. В условиях санкций ставка делается на решения open source.

От наскальных рисунков до библиотек

Развитие человечества невозможно без технологий хранения информации, обеспечивающих передачу знаний, опыта, норм поведения и морали. Поверхности скал с рисунками бушменов, глиняные таблички с клинописью шумеров, папирусные свитки Александрийской библиотеки, переписываемые тибетскими монахами манускрипты, печатные научные журналы – все это сменяющие друг друга носители информации. Проблема поиска нужных данных возникла еще до информационной эры. Путем простого перебора трудно найти книгу даже в шкафу, не говоря о библиотеке. Лучше упорядочить книги, например, по фамилии автора, чтобы у каждой было место на конкретной полке, в конкретном шкафу, в конкретном зале, а искать по каталогу с карточками, на которых указано физическое расположение объекта поиска. И уже по такой карточке книгу найдет и выдаст специально обученный человек – библиотекарь, который также отвечает за расстановку книг в нужном порядке и ведение каталога.

Компьютерная революция перенесла информацию в цифру. Объемы данных колоссально увеличились и продолжают расти, на «новой нефти» строятся бизнесы компаний и экономики стран. Цифровые записи надо собирать в базах данных (БД), хранить, предоставлять для дальнейшего анализа. Ими надо управлять, и для этого на смену библиотекарям пришли системы управления базами данных (СУБД). 

СУБД позволяет «ставить книгу на полку», создавать для нее «карточку», проводить поиск, выдавать и «отправлять в макулатуру». Говоря современным языком: размещать, перемещать, читать и удалять данные. Как правило, СУБД – это сложное программное обеспечение, включающее языки запросов, описания и обработки данных. В состав решений входят системы управления транзакциями, резервного копирования и восстановления.

Модели организации данных

СУБД можно классифицировать по используемой в них модели организации данных (табл. 1). Самая простая – иерархическая. Например: страна – область – город. Запись о стране в такой системе называется родительской. При этом область в стране может быть только одна, а городов в ней много.

Таблица 1. Классификация СУБД по типу организации данных

 Модель Организация данных Примеры СУБД
 Иерархическая Данные организованы в виде иерархии, где каждый элемент имеет родительский элемент и может иметь один или нескольких дочерних элементов IMS (Information Management System) от IBM
 Сетевая (Network Database) Каждая запись может иметь несколько родительских записей и несколько дочерних записей, что позволяет представлять сложные связи между данными IDMS
 Реляционная Данные организованы в виде набора взаимосвязанных таблиц MySQL, Oracle Database, MSSQL, PostgreSQL, Clickhouse, Greenplum
 «Ключ – значение» (Key – Value) Данные хранятся в виде пар «ключ – значение» Redis
 Объектно ориентированная Данные представлены в виде объектов Db4o,Versant
 Документоориентированная Для хранения и обработки документов в форматах, например, JSON или XML Elasticsearch, MongoDB
 Графовая Данные представлены в виде графа, где каждый элемент представляет собой узел, а связи между элементами – ребра Amazon Neptune, Neo4j
Развитием иерархической модели стала модель сетевая, в которой родительских записей несколько. Скажем, с человеком связан не только адрес проживания, но и другие родительские записи – профессия, возрастная группа. А у книги есть не только автор, но и жанр: компьютерные технологии, путеводители, беллетристика. Примером СУБД с такой организацией данных может служить разработанная еще в 1970-х гг. Integrated Database Management System (IDMS).

В реляционных БД данные хранятся в таблицах с определенными связями между ними. Например, у таблицы с жильцами дома есть связи с таблицами профессий и возрастных групп. Реляционные БД делятся на базы с хранением по строкам (PostgreSQL) и по столбцам (ClickHouse, Vertica). Колоночные (с хранением по столбцам) базы лучше подходят для аналитических операций, в то время как для транзакционных нагрузок предпочтительнее базы, ориентированные на строки. СУБД различаются и по области применения. Например, CУБД Greenplum (основанная на PostgreSQL) предназначена для параллельной обработки и работы с Big Data. 

Среди других моделей организации данных стоит выделить: документоориентированные, объектно ориентированные, графовые, «ключ – значение». В модели «ключ – значение» данные хранятся в виде пар, где ключи являются строками, а значения могут быть строками, списками или множествами. По ключу производится получение, установка, обновление и удаление элементов. Модель обеспечивает высокую производительность, что важно для приложений, использующих кэширование, очереди сообщений и аналитику в реальном времени.

На российском рынке наиболее популярна реляционная модель. По данным исследования, проведенного в конце 2023 г. аналитическим агентством iKS-Consulting, чаще всего применяются следующие СУБД: PostgreSQL (ее используют 22,4% опрошенных), MSSQL (18,8%), MySQL (17,1%) и Oracle Database (15,3%).
 
Источник: iKS-Consulting
Рис. 1. Использование различных СУБД в России, 2023 г.

Заметно использование СУБД документоориентированных моделей: Elasticsearch (12,9%) и MongoDB (10%). Данные хранятся в форматах JSON (Elasticsearch) и BJSON (MongoDB). CУБД Redis (модель «ключ – значение») эксплуатируют 7,6% опрошенных. 

Специфической системой управления данными является распределенный брокер сообщений Kafka (11,2%). В используемой потоковой модели (она же publish – subscribe, т.е. «публикация – подписка») данные отправляются в «топики» (topics), откуда могут быть прочитаны несколькими «подписчиками» (subscribers). Каждый подписчик может читать данные из топика независимо от других подписчиков, что обеспечивает масштабируемость и отказоустойчивость системы.

DBaaS: плюсы и минусы

Накопление данных и управление ими – большой труд, зачастую непрофильный. Неудивительно, что его давно стали отдавать на аутсорсинг – сначала в монастыри и библиотеки, а в цифровой век – в облако, где в базах данных собираются данные, управление которыми осуществляется по модели DBaaS (Database as a Service). 

Использование DBaaS имеет преимущества, свойственные всем облачным сервисам:
  • Упрощение управления базой данных. Задачи установки, настройки и обслуживания перекладываются на поставщика услуг, что дает организациям возможность сосредоточиться на основной деятельности, не тратя время и ресурсы на управление БД.
  • Масштабируемость и гибкость. DBaaS позволяет легко увеличивать или уменьшать ресурсы БД в зависимости от потребностей, экономя на инфраструктуре для пиковых нагрузок.
  • Автоматическое обновление. Провайдеры анализируют обновления СУБД и производят их установку, гарантируя организациям доступ к новейшим функциям.
«База данных – фундамент для любых приложений. Услуга DBaaS позволяет разворачивать базу за считанные минуты, экономя заказчику время, средства и ресурсы. Клиент быстро получает готовые экземпляры базы данных с известной производительностью и надежностью, и при этом ему не требуется большая команда специалистов», – отмечает Владимир Шульга, заместитель генерального директора и руководитель блока продуктовой разработки Cloud.ru.

Однако идеальных решений на все случаи жизни не существует. Некоторые характеристики DBaaS могут обернуться как достоинствами, так и недостатками (табл. 2).

Таблица 2. Характеристики DBaaS

 Характеристика Плюсы Минусы
 Стоимость владения Экономия средств в краткосрочной перспективе. Не нужны инвестиции в инфраструктуру, оборудование и лицензии на ПО. Организации снижают накладные расходы на ИТ, перекладывая рутинные задачи сопровождения БД на поставщика услуг. Оплачиваются только используемые ресурсы БД Долгосрочные затраты. По мере увеличения размера и времени использования базы данных затраты, связанные с DBaaS, могут значительно возрасти. Организации должны тщательно анализировать свои модели использования и ценообразование, предлагаемое поставщиком. Часто при длительном использовании сервиса on-premise-решение становится экономически более выгодным
 Доступность и надежность, контролируемость  Поставщики DBaaS обеспечивают высокую доступность благодаря использованию надежных дата-центров, автоматического резервного копирования, аварийного восстановления и сервисов репликации  Отсутствие контроля над базовой инфраструктурой и конфигурацией БД может быть недостатком для организаций, которым нужна кастомизированная настройка или которые предъявляют строгие требования к безопасности. Также компании зависят от поставщика услуг в обслуживании и управлении БД, что может быть критичным при простоях провайдера или проблемах с качеством обслуживания
 Производительность Поставщики DBaaS часто оптимизируют свою инфраструктуру и конфигурации баз данных для обеспечения высокой производительности Облачный сервис может уступать по производительности БД на выделенной инфраструктуре. Общий характер базовой инфраструктуры может приводить к колебаниям производительности, особенно в периоды пикового использования
 Безопасность данных Облачные провайдеры, как правило, имеют более квалифицированных специалистов по информационной безопасности, чем заказчики, и могут повысить защищенность решений Хранение конфиденциальных данных в облачной системе вызывает опасения по поводу безопасности и конфиденциальности. Организациям необходимо тщательно оценить меры безопасности, применяемые поставщиком услуг, и проверить выполнение требований регуляторов

Кроме того, при использовании облачных решений заказчики могут столкнуться с трудностями при переносе своих данных и приложений к другому поставщику DBaaS или на собственную площадку.

DBaaS и импортозамещение

Уход западных вендоров, перенос систем в отечественные облака и появление новых, недостаточно проверенных решений породили проблемы, специфичные для российского рынка. Это прежде всего выбор оставшихся на рынке поставщиков сервисных услуг и решений, а также интеграция облачных СУБД в уже имеющиеся у заказчика системы. «Для эффективного развития рынка DBaaS нужна стандартизация подходов к работе с управляемыми сервисами. Это касается, в частности, вопросов информационной безопасности, для которых облачные платформы разрабатывают собственные рекомендации и стандарты. Компании стали использовать новые продукты и, следовательно, чаще сталкиваются с разрозненностью технологического стека. Бизнесу нужны новые интеграции между сервисами и экспертиза для их настройки», – подчеркнул Всеволод Грабельников, руководитель по развитию группы сервисов платформы данных компании «Яндекс».

Уход западных вендоров повысил спрос на облачные базы данных российских провайдеров. Так, Александр Гришин, менеджер DBaaS-продуктов компании Selectel сообщил: «В марте 2022 г. количество пользователей облачных баз данных Selectel увеличилось на 25% по сравнению с февралем 2022 г. и на 250% – по сравнению с мартом 2021-го. А по итогам 2022 г. выручка Selectel в сегменте DBaaS выросла более чем втрое».

Подстегивает спрос на DBaaS-сервисы и усиливающийся в течение последних лет тренд к переходу с проприетарного ПО на open source-решения, например переход с СУБД Oracle или MSSQL на PostgreSQL или с Elasticsearch на Opensearch. В ответ на запросы рынка провайдеры DBaaS расширяют свой портфель решений за счет СУБД с открытым исходным кодом.

Чаще всего российские CУБД основаны на open source-СУБД PostgreSQL. Это, в частности, внесенные в Единый реестр российских программ для ЭВМ и баз данных (ЕРРП) Postgres Pro, ADPG, Jatoba, «Квант-Гибрид», Proxima BD. На Greenplum основаны SDP AnalyticDB, Arenadata DB. Data Ocean.Analytical WareHouse (табл. 2). 

Таблица 3. Российские реляционные СУБД, включенные в ЕРРП

 Open sourсe-прототип СУБД Дата включения в ЕРРП, рег. номер Компания-разработчик
 PostgresSQL Postgres Pro 18.03.2016, № 104  «Постгрес Профессиональный»
 PostgresSQL Jatoba 20.09.2019, № 5749 «Газинформсервис»
 Greenplum Arenadata Analytical DB 07.04.2020, № 6481 «Аренадата Софтвер»
 PostgresSQL Proxima DB 07.10.2020, № 6986 «Орион»
 PostgresSQL Arenadata Postgres (ADPG) 07.06.2022, № 13849 «Аренадата Софтвер»
 Greenplum  SDP AnalyticDB 13.02.2023, № 16610 Сбербанк Росcии
 PostgresSQL «Квант-Гибрид» 09.08.2023, № 18509 «Квантом» («Концерн Гранит»)
 Greenplum Data Ocean.Analytical WareHouse 27.11.2023, № 20026 «ДатаБленд»

Источник: ЕРРП

Однако по модели DВaaS приведенные в таблице решения почти не предлагаются. Российские облачные провайдеры DВaaS, как правило, предоставляют проприетарные СУБД западных вендоров (Oracle Database, MSSQL), свои разработки (СlickHouse компании «Яндекс») или решения open source, самостоятельно обеспечивая их поддержку. Среди крупных российских облачных провайдеров проприетарное российское решение (Postgres Pro) удалось обнаружить только у VK.

Кому выгодно?

Сервис DВaaS интересен прежде всего компаниям, уже использующим облачные вычисления и хранящим данные в облаках. Например, в рамках сервиса Yandex Cloud с 2019 г. внешним пользователям доступна разработанная «Яндексом» открытая распределенная SQL-база данных YDB. Наличие этой СУБД помогло «Яндексу» с большим отрывом лидировать на российском рынке DBaaS (рис. 2).
 
Источник: iKS-Consulting
Рис. 2. Крупнейшие игроки рынка DBaaS в России в 2023П г., млн руб.

Активнее всего потребляют сервисы платформы данных «Яндекса» банки, ритейл и ИТ-компании. В основном это крупный и средний бизнес, который развивает аналитические системы и строит корпоративное хранилище данных в облаке. Например, на платформе Yandex Cloud компания «М.Видео» создала рекомендательную систему, а Hoff – масштабируемое хранилище данных для продуктовой и маркетинговой аналитики.

Также используют DBaaS в медицине, телекоме, промышленности, логистике и транспортной отрасли. Один из ключевых сценариев – создание единого корпоративного хранилища данных для разных задач: для подготовки отчетности, запуска продуктов и операционной деятельности компании. СУБД служит для поддержания отдельных приложений и сайтов, для аналитики в реальном времени. Кроме того, компании стали чаще обрабатывать данные в облаке для дальнейшего анализа с помощью технологий машинного обучения и искусственного интеллекта.

DBaaS – отличная возможность протестировать разные решения без значительных финансовых вложений, поэтому сервис пользуется спросом у разработчиков. «Основные пользователи DBaaS – компании, которые создают собственные продукты по микросервисной модели, а также те, кто выполняет разработку крупных систем на основе больших баз данных, таких как CRM, ERP и т.д. В первую очередь DBaaS используют для построения cloud native-решений», – указывает В. Шульга.

Прогнозы и перспективы

Спрос на качественную работу с данными в облаке – хранение, обработку, анализ и визуализацию – постоянно повышается. «Потребление сервисов платформы данных Yandex Cloud выросло вдвое, а число клиентов этой группы сервисов – в 1,2 раза», – констатирует В. Грабельников. Он считает, что построение единой платформы для работы с данными – главный долгосрочный тренд и ее наличие уже обязательно для решения аналитических задач. Это обусловлено, с одной стороны, усложнением задач, с другой – ростом числа аналитиков в командах. «Если команда использует один источник данных, но разные инструменты анализа, то неминуемы разнобой в конвейерах задач и задержки в выполнении бизнес-запросов», – предостерегает эксперт.

Этот же тренд отмечает и директор бизнес-юнита «КРОК Облачные сервисы» Сергей Зинкевич: «Раньше клиента интересовало только само облако: виртуальные машины, процессор, память. Теперь практически каждый клиент облака имеет список нужных DBaaS, так как понимает, что даже если сейчас он не будет его использовать, то в недалеком будущем обязательно к этому придет».

Сегодня в России сервис DBaaS предлагают все крупные облачные провайдеры. На рынке представлена широкая линейка облачных баз данных. После ухода зарубежных вендоров повышается спрос на open source-решения. По оценкам экспертов «Ростелекома», рынок DBaaS будет расти в среднем на 20–30% в год. Подтолкнуть к переходу на облачные базы данных может как недостаток высококвалифицированных ИТ-специалистов в штате, так и желание сократить нецелевые (не связанные с профильным бизнесом) капитальные затраты. Дальнейшее развитие пойдет по пути повышения качества, гибкости и скорости предоставления сервисов.

Пока сервисы DBaaS на российском рынке не слишком распространены – по данным iKS-Consulting, 63,9% опрошенных ими не пользуются. Но перспективы большие: аналитическое агентство прогнозирует рост рынка DBaaS в РФ примерно на 24–32% ежегодно в ближайшие несколько лет (рис. 3). Этому будет способствовать более широкое применение сложных операций (аналитики) и сопутствующих сервисов, таких как BI и ETL (Extract, Transform, Load), нужных при миграции данных из одного источника в другой. В числе других факторов роста – прекращение поддержки со стороны западных вендоров СУБД, дефицит кадров и никем не отмененные задачи цифровизации страны.
 
Источник: iKS-Consulting
Рис. 3. Прогноз рынка DBaaS в России 2023–2025П гг., млрд руб.

Данные стали ценным ресурсом, который может стимулировать инновации, улучшать процесс принятия решений и создавать новые возможности для бизнеса. Мир погружается в глобальную цифровую экосистему – экономику данных, и без облачных «библиотекарей» обойтись будет невозможно.
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!