Рубрикатор |
Статьи | ИКС № 01-02 2014 |
Виктор БУЛГАКОВ  | 27 января 2014 |
Big Data для расширения возможностей развития
Объем хранилища данных «ВымпелКома» – более 400 Тбайт, целый оркестр аналитических инструментов помогает бизнес-пользователям с ними работать, в каталоге корпоративных и персональных отчетов – свыше 3,5 тыс. видов. Какие преимущества дает здесь внедрение технологий Big Data? Об этом – Виктор БУЛГАКОВ, руководитель департамента управленческой информации «ВымпелКома».
– Телекоммуникационная отрасль в использовании «больших данных» находится на переднем крае. Ежедневно с коммутатора приходят миллиарды записей, и это только вершина айсберга. Базовые станции, сетевые элементы, платежные платформы генерируют огромный объем технических данных. Бытует мнение, что одному звонку соответствует всего одна запись с коммутатора. На самом деле во время коммутации маршрут звонка проходит через несколько коммутаторов: бывает через два или три, а бывает и через 15. Каждый факт коммутации регистрируется, и в итоге появляется 15 записей на один звонок клиента!
Сетевые элементы предоставляют большой объем данных, поэтому важно извлекать из него именно полезную информацию. Это отдельная наука, и здесь нам помогает Big Data. С ее помощью можно превратить данные из разнородных источников в готовую информацию для управления бизнесом и для удовлетворения клиентов.
– В вашем хранилище используется технология Hadoop. Но ведь многие считают, что ее «конек» – неструктурированные данные?
– Наша практика и опыт показывают, что область применимости Big Data значительно шире. Решения на базе Hadoop успешно справляются и с расчетными задачами на структурированных данных. Особенно показательны результаты в задачах, где требуется «грубая вычислительная сила». Для наглядности приведу пример проверки операций за день по 45 млн абонентов. В 2007 г. по традиционным технологиям такого рода расчет требовал до пяти суток. В настоящий момент решение той же задачи с еще большим количеством абонентов укладывается в три часа. Конечно, серверное оборудование развивается и позволяет проводить расчеты быстрее, но такой революционный скачок в скорости расчетов обеспечивают именно технологии Big Data.
В работе с неструктурированными данными Hadoop и NoSQL DataBase также выглядят очень привлекательно, об этом свидетельствует опыт Yandex, Mail.ru и других интернет-компаний. Таким образом, для телекоммуникационных компаний Big Data является полезным инструментом повышения эффективности.
– В последнее время поставщики хранилищ корпоративного уровня предлагают технологию обработки в оперативной памяти In-Memory. Почему вы не прибегли к ней?
– Да, все поставщики реляционных хранилищ двигаются в эту сторону для увеличения производительности и пропускной способности их решений. Нужно только помнить о важной особенности: построить решение, работающее online, непросто. Технологии обработки данных In-Memory эффективны, и особенно эффективны технологии типа In-Memory Data Grid (IMDG). Мы внимательно изучаем области применения и экономику этих решений. Разделив задачи на два сегмента – на bat-загрузки и online-задачи, – мы ясно видим возможности. Так, решения на базе Hadoop для bat-загрузки можно эффективно дополнить решениями In-Memory для решения online-задач.
– Решение на Hadoop интегрировано с большим корпоративным хранилищем данных на Oracle?
– Интеграция – ресурсоемкая задача. Получив позитивные результаты от использования Hadoop,ё мы запланировали более плотное взаимодействие с корпоративным хранилищем данных. Для интеграции мы собираемся использовать технологии Informatica Big Data Edition. Это упрощает ИТ-архитектуру, одновременно обеспечивая расширение возможностей, и снижает затраты на разработку и поддержку.
– Какую долю данных, собранных в хранилище на Hadoop, вы сразу используете?
– В наших проектах основной движущей силой являются потребности бизнеса. Сегодня в работе находятся более 40 кейсов, и под каждый из них мы подобрали необходимый набор источников данных. Мы это называем «фабрикой идей», это конвейер, где сценарии, требующие применения «больших данных», пекутся как пирожки. Из 44 бизнес-кейсов десять уже реализовано.
В отличие от работы с традиционными хранилищами данных, подключая источники к Big Data, мы стараемся сразу забрать максимальное количество информации. И что более интересно, на первых этапах процент использования собранных данных у нас близок к 100%. Скорее всего, это обусловлено ранними этапами развития и высокой заинтересованностью бизнеса.
– А как вы работаете с уже собранными в Hadoop из разных систем данными?
– Сейчас мы находимся на первых этапах проектов, поэтому с хранилищем Big Data работают только системные аналитики, а бизнес-аналитиков сознательно отгораживаем. В реляционном хранилище доступ к данным у нас четко регламентирован – и по колонкам, и по столбцам, и т.д., и т.п. А в Hadoop, где основной упор сделан на высокую производительность, разделение доступа к данным регламентировано в меньшей степени. А раз так, вопросы безопасности для нас сегодня на первом месте, поскольку в этой единой системе хранится вся детальная информация об абонентах. Первоначально необходимо отработать наиболее продуктивную методологию работы и организовать безопасный доступ к данным.
– Как вы планируете оценивать эффективность вашего решения Big Data?
– Финансовый блок провел оценку эффективности вложений в новую технологию на базе Hadoop, и эта оценка оказалась достаточно позитивной, чтобы стартовал целый портфель проектов.
– Итак, резюмируя: чем компании «ВымпелКом» полезна технология Big Data?
– Технология Big Data позволяет своевременно и объемно понимать потребности наших клиентов, что дает нам возможность заботиться о каждом из них. Технология Big Data позволяет маркетингу решать задачи нового поколения, как с точки зрения скорости, так и с точки зрения окупаемости. Инвестируя в технологии Big Data, мы получаем сразу два преимущества: быстроту и эффективность. Это хороший пример стратегии win-win, когда все нравится и бизнесу, и нам, ответственным за технологию, потому что с помощью новых инструментов мы создаем среду, помогающую быстро открывать для бизнеса новые возможности.