img
img
21 сентября 2022
21 сентября 2022
11 мин
170

Что такое Big Data

Рассказываем, как обрабатываются и хранятся большие данные.

img

Big data — это наборы данных, которые быстро генерируются и поступают из разных источников. В совокупности они создают огромный массив данных, которые можно использовать для анализа, прогнозов, статистики, принятия решений. 

Термин «большие данные» появился только в 2008 году, когда редактор журнала Nature Клиффорд Линч заявил, что объем информации в мире растет слишком быстро. До 2011 года big data использовали только в науке и статистике. С 2014 года сбором и анализом данных занялись ведущие вузы мира и IT-гиганты: IBM, Google, Microsoft. 

Что такое big data?

Большие данные — это огромный объем структурированной и неструктурированной информации. Также к big data относятся технологии, которые используют, чтобы собирать, обрабатывать данные и использовать их в работе.

К большим данным можно отнести поток сообщений из социальных сетей, датчики трафика, спутниковые снимки, стриминговые аудио- и видеопотоки, банковские транзакции, содержимое веб-страниц и мобильных приложений, телеметрию с автомобилей и мобильных устройств, данные финансового рынка. 

Технологические компании практически никогда не удаляют собранную информацию, так как завтра она может стоить в разы больше, чем вчера. И даже сегодня она уже приносит миллиардные прибыли многим компаниям. Первые версии системы хранения больших данных Hadoop даже не имели команды «Удалить данные»: такой функции не предполагали. 

Как пример — Facebook*. Компания использует информацию о поведении пользователей, чтобы рекомендовать новости, продукты внутри соцсети. Знания об аудитории повышают интерес пользователей и мотивируют посещать соцсеть как можно чаще. Как следствие — растет прибыль Facebook.

А гугл выдает результаты поиска не только на основе ключевых слов в поисковом запросе. Он также учитывает историю предыдущих запросов и интересы пользователя. 

За последние годы производительность вычислительных систем сильно выросла. Это видно на графике роста количества транзисторов за последние 50 лет. 

Транзистор — это полупроводниковый элемент. Из транзисторов собирают основные логические элементы, а на их основе создают различные комбинационные схемы и непосредственно процессоры. Чем больше транзисторов в процессоре — тем выше его производительность. 

Закон Мура: количество транзисторов, размещаемых на кристалле интегральной схемы, удваивается каждые два года 

Что такое транзистор и зачем он нужен

Закон Мура: количество транзисторов, размещаемых на кристалле интегральной схемы, удваивается каждые два года График: ourworldindata.org

Благодаря высокой производительности появилась возможность обрабатывать данные с такой же большой скоростью, с которой они поступают. 

Как работает дата-центр «Яндекса» в Финляндии

Видео: «Яндекс» на ютубе 

Характеристики больших данных 

Обычно big data описывают с помощью шести характеристик. 

Volume (объем). Нет четких критериев, при каком объеме данные можно назвать «большими». «Много данных» — это метрика, которая зависит от времени и мощностей. Например, 30 лет назад считалось, что на жесткий диск объемом 10 Мб помещается много данных. В 2022 году большой объем — это 100–150 Гб. 

На графике ниже видна динамика увеличения средней вместительности жестких дисков, по информации производителя Seagate.

Отчет производителя Seagate

Средняя емкость HDD с 2015 по 2022 год Скриншот: statista.com

Velocity (скорость). Эта характеристика описывает скорость накопления данных. Скорость накопления определяют два фактора: 

  1. Скорость накопления от одного источника данных. Например, социальная сеть сохраняет информацию о том, сколько раз один пользователь открывал страницу у себя на компьютере или в приложении на смартфоне. Информация может сохраняться десятки раз в день.

    Также могут собираться данные производственного оборудования, которое передает важные показатели о своем состоянии. Эта информация может генерироваться 10–100 раз в секунду!

  2. Количество источников данных. Например, социальная сеть имеет миллионы пользователей по всему миру. Если собирать информацию по каждому пользователю, скорость накопления будет — миллионы записей в секунду.

При этом производственного оборудования на одном заводе может быть несколько десятков штук. А итоговая скорость накопления данных будет до тысячи записей в секунду.

Variety (разнообразие). Данные могут отличаться как по контенту, так и по типу данных: структурированные, слабоструктурированные и неструктурированные. 

Чтобы построить систему управления big data и систему анализа данных, нужно понимать, какие используются типы данных:

  1. Структурированные — это строго организованные данные. Например, в Excel все работают со структурированными данными.
  2. Слабоструктурированные — обычно это так называемые интернет-данные. К ним относится информация, полученная из социальных сетей, или история посещения сайтов. Так, JSON и XML имеют формат слабоструктурированных данных.

    JSON (англ. JavaScript Object Notation) — текстовый формат обмена данными, основанный на JavaScript. Но при этом формат независим от JS и может использоваться в любом языке программирования.
    XML (англ. Extensible Markup Language) — расширяемый язык разметки. Также используется для хранения и передачи данных.
    Из-за простоты JSON используют чаще, но на базе XML можно строить более сложные структуры данных.

  3. Неструктурированные — данные произвольной формы и не имеющие заранее определенной формы. Например, файлы, каждый из которых уникален сам по себе. При этом их хранение нужно как-то организовать.  

Veracity (достоверность). Достоверность — это когда данные «правильные» и непротиворечивые. То есть им можно верить и их можно анализировать и использовать, чтобы принимать бизнес-решения. 

Высокие требования к достоверности обычно предъявляют в финансовых организациях. Одно неверно записанное в базу число может привести к некорректным отчетам. 

Но есть ситуации, когда достоверность не так важна. Когда скорость накопления данных больше тысячи записей в секунду, то одна или даже десять ошибочных записей не создадут проблемы. Ведь после них последуют еще 900 записей хорошего качества. 

Variability (изменчивость). Потоки данных могут изменяться по разным причинам: из-за социальных явлений, сезонов, внешнего воздействия. Когда собирают данные температуры производственного оборудования или вычислительного сервера, информация постоянно изменяется, если измерять температуру достаточно точно. 

Изменчивость относится и к частоте получения данных. Иногда поступает 1000 записей в секунду, иногда — 100 записей. Например, данные изменяются, когда собирают информацию о количестве активных пользователей приложения. Так получается, потому что пользователи открывают приложение не каждый день. 

Value (ценность, или значимость). Ценность — это фактор, который определяет весь перечень основных характеристик, описанных выше. Она зависит от возможности самой организации извлекать из данных пользу и превращать знания в ценность для клиентов.

Источники больших данных

Большие данные непрерывно поступают из разных источников. Ниже перечислены основные. 

Социальные. Это данные, которые поступают из социальных сетей, веб-сайтов, мобильных приложений и сервисов, интегрированных с социальными сетями. Социальные данные содержат историю посещения социальных сетей, мессенджеров, реакции на сообщения, новости и любые другие действия пользователей. 

Машинные. Данные, которые оборудование производит о самом себе. Это может быть информация о местоположении, внутреннем состоянии оборудования (например, температура) и другие показатели. 

Оборудованием считаются любые носимые устройства, элементы «умного» дома, производственное оборудование на заводе. 

Транзакционные. Это банковские или любые другие финансовые транзакции. С появлением необанков и fintech-стартапов количество транзакционных данных в мире резко выросло.

Где хранят и как обрабатывают big data

Большие данные хранятся в data-центрах с мощными серверами. Современные вычислительные системы обеспечивают мгновенный доступ ко всем данным. 

Для работы с big data используют распределенные системы хранения данных. Часто все данные не помещаются на одном сервере и их нужно распределить на несколько. 

Распределение данных помогает быстрее обрабатывать информацию. Это возможно, потому что над каждой частью данных работает отдельный сервер и процессы обработки идут параллельно. 

Есть распределенные системы вычислений, которые позволяют работать с данными размером больше одного петабайта. Например, Spark и его более старая версия — MapReduce. 

Одна из самых популярных систем для сбора и хранения данных — Hadoop. На ее основе появилось целое семейство других систем хранения, которые работают «поверх» Hadoop. Они позволяют добавлять новые функциональные возможности, которые недоступны в базовой сборке Hadoop.

Как работает экосистема Hadoop

Экосистема Hadoop

Методы анализа big data 

Для анализа можно использовать любые объемы больших данных. Иногда данные сначала структурируют и выбирают нужные для анализа. Вот основные методы анализа big data: 

Описательная аналитика. Это анализ, цель которого — дать ответ на вопрос «что случилось?». Пример описательной аналитики — финансовый отчет, который описывает произошедшее, не объясняя причин. Еще пример — статистика активных пользователей соцсети за день. 

Диагностическая аналитика. На этом шаге анализа нужно понять: «почему это случилось?». Иногда диагностическую аналитику называют факторным анализом. То есть при анализе выявляют факторы, из-за которых произошли изменения в показателях. Так, финансовые аналитики ежегодно докладывают об изменениях в инфляции и рассказывают, почему она изменилась. Определение факторов, за счет которых изменилась инфляция, — это результат диагностической аналитики. 

Прогнозная аналитика. Цель метода — ответить на вопрос «что случится в будущем?». Для анализа используют методы data science, основанные на различных математических концепциях. Прогнозная аналитика — это, как правило, просчитывание вероятности какого-то события в будущем. Например, утверждение «С вероятностью 80% рынок акций на следующей неделе будет расти» — это результат прогнозной аналитики. 

Предписательная аналитика. Этот метод считается самым прогрессивным. В нём автоматическая система дает рекомендации к действиям на основе предыдущих анализов. Метод отвечает на вопрос «как поступить?».

Примеры использования big data

Big data используют практически во всех областях жизни. Вот примеры по разным сферам. 

Бизнес. Все крупные компании работают с большими данными. В Америке больше 55% компаний из разных сфер работают с технологиями. В Азии и Европе — 53% компаний. Бизнес, который не использует big data, упускает выгоду. Производитель спецтехники Caterpillar признался, что его дистрибьюторы ежегодно упускали 9–18 миллиардов долларов прибыли, потому что не работали с big data.  

Банковская сфера. Fintech — одно из самых быстроразвивающихся направлений. Благодаря большим данным банки могут оказывать совершенно новые услуги, которые раньше были недоступны: выявлять мошеннические схемы, автоматически анализировать кредитоспособность и вести бухгалтерию. 

Маркетинг. Маркетинг всегда был и есть драйвером big data: решения в нём принимают на основе данных. Их используют, например, чтобы анализировать посетителей сайта, определить предпочтения клиента, понять, успешна ли реклама.  

Медицина. Современные методы анализа данных, в том числе компьютерное зрение, открывают дорогу одному из самых перспективных направлений на текущий момент. Анализ показателей жизнедеятельности человека может изменить нашу жизнь, как когда-то социальные сети.

Автомобилестроение. Автопилоты, роботы-доставщики, автоматизированное производство машин — это то, что уже существует сегодня. Без больших данных это было бы невозможно.

Ретейл. Наряду с fintech и маркетингом исторически ретейловое направление имеет очень много транзакционных данных. Их можно использовать, чтобы улучшать пользовательский опыт в магазинах и онлайн. Например, раскладывать товар на полках на основе истории продаж и карты перемещения людей по магазину.

Наем сотрудников. Автоматическое чтение резюме, выявление талантов среди десятков тысяч других резюме, чат-боты для базового скрининга сотрудника — это небольшая часть применения big data в найме.

Госструктуры. Могут использовать большие данные, чтобы управлять городами. С помощью big data можно создавать «умные» города с интеллектуальной системой поддержки жизни горожанина на протяжении его жизнедеятельности. 

Медиа. Большие данные напрямую влияют на величину выручки в этом секторе. Знания о том, какие заголовки чаще интересуют определенную когорту пользователей, какой тип новостей или развлечений интересен, анализ пользовательского поведения — это возможность больше зарабатывать. Например, онлайн-стриминговые сервисы типа нетфликса используют большие данные даже для создания сериалов, а не только для продвижения в сети.

Логистика. Big data помогают находить оптимальный путь на длинные дистанции, оптимизировать движение морского транспорта. Есть компании, которые используют дополненную реальность в складском учете

Кто работает с большими данными 

Есть несколько профессий, в основе которых — работа с большими данными. 

Data-инженер. Чтобы начать работать с большими данными, необходимо их собрать, организовать место хранения, подготовить и обработать эти данные. Всё это обеспечивает инженер, который строит процессы работы с big data.

Data-инженер — это программист, у которого есть опыт работы с различными базами данных и высоконагруженными системами обработки данных.

Data-сайентист. Это эксперт в анализе данных, математической статистике, теории вероятности. Его главная задача — построение математических моделей для прогнозирования, оптимизации и других задач. Data-сайентист в меньшей степени погружен в бизнес-процессы компании, потому что сфокусирован на техническом и математическом решении задач.

Аналитик данных. Это эксперт в анализе данных и бизнес-процессах компании, в которой он работает. Аналитик разбирается в задачах и проблемах бизнеса, знает, какие данные доступны для анализа. Он является связующим звеном между бизнесом и миром больших данных.

Сложности применения big data

Несмотря на плюсы и большие перспективы big data, в работе с ними есть сложности: 

  1. Большие данные требуют инфраструктуру для хранения. Часто под хранение данных выделяют отдельный центр обработки данных (ЦОД). 
  2. Чтобы создать аналитическую модель (например, некоторые виды нейронных сетей), нужно очень много времени для обучения. Так, чтобы обучить современную сеть создавать изображения на основе текстового описания, используют массив данных размером 270 терабайт. Обучение такой сети может занять около недели.
  3. Знание технологий обработки больших данных очень важно, но так же важно понимать предметную область. Иногда понять, «что нужно?», сложнее, чем «как это сделать?».

Коротко о главном 

  • Большие данные — это наборы данных, которые быстро генерируются и поступают из разных источников. Потом эту информацию можно использовать, чтобы составлять прогнозы, статистику, принимать бизнес-решения. 
  • Есть шесть основных характеристик больших данных: скорость накопления данных, объем, разнообразие, достоверность, изменчивость и ценность. 
  • Данные в основном поступают из трех источников: социальных (соцсети, приложения, онлайн-сервисы), машинных (оборудование, элементы «умного» дома), транзакционных (финансовые транзакции). 
  • Данные хранятся в data-центрах с мощными серверами. Обрабатывают данные в распределенных системах хранения данных.
  • Для анализа big data используют описательную, диагностическую, прогнозную и предписательную аналитику. 
  • Большие данные используют в бизнесе, банковской сфере, ретейле, маркетинге, госструктурах, логистике, автомобилестроении, медицине. 
  • У big data большие перспективы, но есть и сложности: для хранения данных нужна инфраструктура, которая может дорого стоить. Еще, чтобы работать с большими данными, нужно хорошо разбираться в предметной области, а не только в технической части.

*Площадки Meta признаны экстремистскими и запрещены в РФ.

img
Подпишитесь на рассылку, чтобы Не упустить что-нибудь новое
Просто и понятно о том, как получить новую профессию


    Дадим нужные знания и поможем получить работу!
    Регистрируйтесь на курс и учитесь у экспертов-практиков.
    Профессия
    за 10 месяцев
    Аналитик данных
    • Справитесь без опыта в IT — учим с азов
    • В рассрочку на 36 месяцев
    • Всего 10 часов в неделю
    3 020 ₽/мес
    Ещё по теме
    Что такое сквозная аналитика и как ее внедрить

    Это метод анализа эффективности маркетинга, который помогает отследить путь клиента.

    16 июля 2022
    10 мин
    SQL-запросы: базовые команды и примеры

    Чтобы создать таблицу, используют команду CREATE TABLE, новую запись — INSERT.

    14 июня 2022
    6 мин
    Что такое join в SQL и как с ним работать

    Join — оператор для объединения данных из нескольких таблиц с общим ключом.

    09 июня 2022
    8 мин
    Словарь аналитика данных, или Как выбрать чайник

    Разбираем, что такое пул, фича, дашборд и другие термины.

    09 июня 2022
    3 мин
    Обзор лучших сервисов для анализа маркетплейсов

    Анализируем SellerFox, MPStats, Shopstat, PI-Data и еще шесть сервисов.

    17 мая 2022
    8 мин
    Юнит-экономика: что это такое и как ее рассчитать

    С помощью unit-экономики прогнозируют доход, находят точки роста.

    16 апреля 2022
    9 мин
    Как работать с формулами в Excel

    Формулы в Excel делятся на простые, сложные и комбинированные.

    13 апреля 2022
    7 мин
    Кто такой менеджер по продукту, чем он занимается и как им стать

    Product manager отвечает за все стадии работы над продуктом.

    03 марта 2022
    9 мин
    Что такое когортный анализ: для чего и где применять, как проводить исследование

    В когорту входят пользователи, совершившие одинаковое действие в одно время.

    02 марта 2022
    7 мин
    Что такое дашборд и как его создать

    Дашборд экономит время и помогает увидеть ситуацию с разных сторон.

    24 февраля 2022
    11 мин
    Кто такой аналитик и как им стать

    Аналитик нужен в любой сфере, где систематизируют и исследуют большие данные.

    24 февраля 2022
    12 мин
    Вставить формулу как
    Блок
    Строка
    Дополнительные настройки
    Цвет формулы
    Цвет текста
    #333333
    Используйте LaTeX для набора формулы
    Предпросмотр
    \({}\)
    Формула не набрана
    Вставить