21 Сен 2022
13 мин
9703

Что такое big data

Это наборы данных, которые быстро генерируются и поступают из разных источников.

Содержание

Термин «большие данные» появился в 2008 году, когда редактор журнала Nature Клиффорд Линч заявил, что объем информации в мире растет слишком быстро. До 2011 года термин big data использовали только в науке и статистике. С 2014 года сбором и анализом данных занялись ведущие вузы мира и IT-гиганты: IBM, Google, Microsoft. В статье рассказываем, что такое большие данные, какие методы анализа существуют и где хранятся данные.

Что такое big data

Большие данные — это огромный объем структурированной и неструктурированной информации. Еще к big data относятся технологии, которые используют, чтобы собирать, обрабатывать данные и использовать их в работе. К большим данным можно отнести поток сообщений из соцсетей, системы подсчета посетителей интернет-магазинов и других сайтов, спутниковые снимки, стриминговые аудио- и видеопотоки, банковские транзакции, содержимое веб-страниц и мобильных приложений, телеметрию — дистанционную автоматизированную систему сбора показаний с автомобилей и мобильных устройств, данные финансового рынка — то есть практически всю информацию, которая есть в мире.

Кто владеет информацией — тот владеет миром. Именно поэтому технологические компании практически никогда не удаляют собранную информацию: завтра она может стоить в разы больше, чем вчера. Даже первые версии системы хранения больших данных не имели команды «Удалить данные».

Благодаря высокой производительности технологий big data появилась возможность обрабатывать данные с такой же большой скоростью, с которой они возникают.

Работать с данными учат на курсе Skypro «Аналитик данных». Опытные преподаватели расскажут и покажут, где взять информацию, как отфильтровать только нужные цифры, провести анализ и представить результаты работы в виде графиков и диаграмм. Освоите основы статистики и теории вероятностей, чтобы строить гипотезы и проверять их на основе больших данных.

Как работает дата-центр «Яндекса» в Финляндии

Видео: «Яндекс» на ютубе

Преимущества технологии

Рассказывает Александр Тарасов, управляющий партнер DIS Group.

Технологические возможности, которые появились в последние 10–12 лет, превратили big data не просто в бизнес-инструмент, а в цивилизационное явление. Эти технологии позволили собирать данные из разных источников, работать с их качеством и структурой, приводить их к общему знаменателю и на основе этого делать прогнозы.

Это открывает перед человечеством огромные перспективы. И если мечта людей — предсказывать будущее, то именно технология big data позволила сделать шаг в этом направлении. Собирая данные из множества источников, описывая тот или иной объект, мы получаем возможность прогнозировать и моделировать поведение объекта.

Где применяется: примеры использования big data

📊 Бизнес. В Америке больше 55% компаний из разных сфер работают с технологиями. В Азии и Европе — 53% компаний. Бизнес, который не использует big data, упускает выгоду. Производитель спецтехники Caterpillar признался, что его дистрибьюторы ежегодно упускали до $18 миллиардов прибыли, потому что не работали с big data.

📊 Банковская сфера (финтех). Финтехом банковскую сферу называют потому, что там много технологий. Благодаря большим данным банки могут оказывать совершенно новые услуги, которые раньше были недоступны: выявлять мошеннические схемы, автоматически анализировать кредитоспособность и вести бухгалтерию.

📊 Маркетинг. Маркетинг был и является двигателем big data: решения в нём принимают на основе данных. Их используют, например, чтобы анализировать посетителей сайта, определять предпочтения клиента, понимать эффективность рекламы.

Приложения и сервисы для автоматического анализа создают разработчики. Этому можно научиться на курсе Skypro «Веб-разработчик». За несколько месяцев освоите основные инструменты и закрепите знания на практике. Курсовые — это реальные проекты, которые потом можно положить в портфолио.

📊 Медицина. Современные методы анализа данных открывают дорогу одному из самых перспективных направлений на текущий момент. Анализ показателей жизнедеятельности человека может изменить нашу жизнь и сделать нас здоровее. Сейчас активно развивается технология компьютерного зрения — это позволит быстрее и точнее ставить диагнозы, а еще эффективнее лечить.

📊 Автомобилестроение. Автопилоты, роботы-доставщики, автоматизированное производство машин — то, что уже существует сегодня. Без больших данных это было бы невозможно: big data помогают быстро находить ошибки, анализировать, как можно улучшить продукт, и выдавать готовые решения.

📊 Ретейл. Наряду с финтехом и маркетингом у ретейлового направления — вклады, ипотека, автокредиты и операции с пластиковыми картами — есть очень много данных о транзакциях. Их используют, чтобы улучшать пользовательский опыт в магазинах и онлайн. Например, раскладывать товар на полках на основе истории продаж и карты перемещения людей по магазину.

📊 Наем сотрудников. Автоматическое чтение резюме, выявление подходящих кандидатов среди десятков тысяч других резюме, чат-боты для базового тестирования сотрудника — это лишь небольшая часть применения big data в рекрутменте.

📊 Госструктуры. Могут использовать большие данные, чтобы сделать города удобнее. С помощью big data можно создавать умные города с интеллектуальной системой помощи людям. В таком городе расширен перечень доступных жителям услуг и оптимизирован каждый аспект городских мероприятий.

Например, вы заезжаете на парковку, а бортовой компьютер уже подсказывает, где есть свободное место. При этом он учитывает ваше местоположение и запоминает предыдущий опыт: где вы парковались, как и почему.

📊 Медиа и сфера развлечений. Знания о том, какие заголовки и темы чаще интересуют определенную аудиторию, анализ пользовательского поведения — это возможность больше зарабатывать. Например, стриминговые сервисы типа «Кинопоиска» используют большие данные даже для создания сериалов, а не только для продвижения в сети.

📊 Логистика. Big data помогают находить оптимальный путь на длинные дистанции, оптимизировать движение морского транспорта. Есть компании, которые используют дополненную реальность в складском учете.

«Big data применяют в разных сферах. Например, в медицине они позволяют точнее ставить диагноз, противодействовать эпидемиям.

Технология эффективна и при развитии городов. Она позволяет прогнозировать изменения транспортных потоков, анализировать места для развития инфраструктуры района. На промышленном предприятии технологию используют, чтобы оптимизировать производственные циклы, повысить эффективность труда.

В ретейле, банкинге, медиа можно точнее прогнозировать спрос, увеличивать финансовый результат компании без дополнительных ресурсов».

Александр Тарасов
управляющий партнер DIS Group

Кто работает с большими данными

💻 Дата-инженер. Чтобы начать работать с большими данными, нужно их собрать, организовать место хранения, подготовить и обработать. Всё это делает data-инженер — программист, который работает с разными базами данных и высоконагруженными системами обработки данных.

💻 Дата-сайентист. Это эксперт в анализе данных, математической статистике, теории вероятности. Его главная задача — строить математические модели для прогнозирования, оптимизации и других задач. Дата-сайентист в меньшей степени погружен в бизнес-процессы компании, потому что сфокусирован на техническом и математическом решении задач.

💻 Аналитик данных. Это эксперт, который глубоко разбирается в бизнес-процессах компании и знает, какие данные доступны для анализа. Он — связующее звено между бизнесом и миром больших данных.

В онлайн-университете Skypro вы освоите специальность аналитика данных за год, а через пять с половиной месяцев уже сможете начать искать работу. Учим с нуля — получится, даже если нет опыта в IT и технического образования. В программе — анализ данных с помощью Excel, SQL, логика, основы бизнеса, Python и A/B-тесты. Соберете портфолио, получите диплом. И еще центр карьеры поможет найти работу — или мы вернем деньги за учебу.

Характеристики больших данных

Обычно big data описывают с помощью шести характеристик.

📌 Volume (объем). Нет четких критериев, при каком объеме данные можно назвать «большими». «Много данных» — это метрика, которая зависит от времени и мощностей. Например, 30 лет назад считалось, что на жесткий диск объемом 10 Мб помещается много данных. Большой объем в 2022 году — это уже 100–150 Гб.

На графике видна динамика увеличения средней вместительности жестких дисков, по информации производителя Seagate.

Средняя емкость HDD с 2015 по 2022 год

Средняя емкость HDD с 2015 по 2022 год. Скриншот: statista.com

📌 Velocity (скорость). Эта характеристика описывает скорость накопления данных, которую определяют два фактора:

  1. Скорость накопления от одного источника данных. Например, социальная сеть сохраняет информацию о том, сколько раз один пользователь открывал страницу у себя на компьютере или в приложении на смартфоне. Информация может обновляться десятки раз в день.
  2. Количество источников данных. Например, социальная сеть имеет миллионы пользователей по всему миру. Если собирать информацию по каждому пользователю, скорость накопления — это миллионы записей в секунду.

📌 Variety (разнообразие). Данные могут отличаться по типу. Они бывают:

  1. Структурированные — это строго организованные данные. Например, данные о студентах какого-либо онлайн-курса могут храниться в базе данных в виде таблицы с информацией: имя, возраст, пол, адрес и номер телефона.
  2. Слабоструктурированные — обычно это так называемые интернет-данные. К ним относится информация, полученная из социальных сетей, или история посещения сайтов. Например, профили пользователей соцсетей: они могут менять информацию в профиле так часто, как захотят. Это значит, что информация оттуда слабо структурирована.
  3. Неструктурированные — тип файла известен, а содержание нет. Такие файлы не находятся в базах данных и поэтому их трудно проанализировать. Например, презентации, видео, тексты, изображения и так далее.

📌 Veracity (достоверность). Метрика определяет данные как «правильные» и непротиворечивые. Это значит, что им можно верить, их можно анализировать и использовать, чтобы принимать бизнес-решения.

Высокие требования к достоверности обычно предъявляют в финансовых организациях. Одно неверно записанное число может привести к некорректным отчетам.

Но есть ситуации, когда достоверность не так важна. Например, когда данные копятся со скоростью больше тысячи записей в секунду, то ошибка в одной или десяти записях не так важна, потому что остальные 900 — правильные.

📌 Variability (изменчивость). Потоки данных могут изменяться по разным причинам: из-за социальных явлений, сезонов, внешнего воздействия. Например, когда собирают данные о погоде, информация постоянно меняется. Если замерять температуру или порывы ветра точно, то видны будут даже самые незначительные изменения.

📌 Value (ценность, или значимость). Этот фактор определяет весь перечень характеристик, описанных выше. Ценность зависит от возможности самой организации извлекать из данных пользу для клиентов.

Источники больших данных

Социальные. Это данные, которые поступают с веб-сайтов, из социальных сетей, мобильных приложений и сервисов, интегрированных с социальными сетями. Социальные данные содержат историю посещения, реакции на сообщения, новости и другие действия пользователей.

Машинные. Данные, которые оборудование производит о самом себе. Это может быть информация о местоположении, внутреннем состоянии оборудования (например, температура) и другие показатели.

Транзакционные. Это банковские или любые другие финансовые транзакции. С появлением необанков — финтех-компаний, которые оказывают услуги только через приложение или сайт, без физической точки — количество транзакционных данных в мире резко выросло.

Где хранят и как обрабатывают big data

Большие данные хранятся в дата-центрах с мощными серверами. Для работы с big data используют распределенные системы хранения данных — это когда данные не помещаются на одном сервере и их нужно распределить на несколько.

Распределение данных помогает быстрее обрабатывать информацию. Это возможно, потому что над каждой частью данных работает отдельный сервер и процессы обработки идут параллельно.

Есть распределенные системы вычислений, которые позволяют работать с данными размером больше одного петабайта, — это миллион гигабайт.

Одна из самых популярных систем для сбора и хранения данных — Hadoop. Появилось целое семейство других систем хранения, которые работают на базе Hadoop.

Они позволяют добавлять новые функциональные возможности, которые недоступны в базовой сборке Hadoop. Например, для обобщения и анализа данных, для запросов к большим объемам данных, управления вводом и хранением больших аналитических датасетов (набора данных для разных видов анализа и машинного обучения) и многого другого.

Как работает экосистема Hadoop

Экосистема Hadoop

Методы анализа big data

Для анализа можно использовать любые объемы больших данных. Вот основные методы анализа big data:

📈 Описательная аналитика. Цель — дать ответ на вопрос «что случилось?». Статистика без гипотез, просто голые цифры. Пример такой аналитики — финансовый отчет, который описывает произошедшее, не объясняя причин. Другой пример — статистика активных пользователей соцсети за день.

📈 Диагностическая аналитика. На этом шаге анализа нужно понять: «почему это случилось?». Иногда диагностическую аналитику называют факторным анализом. То есть при анализе выявляют факторы, из-за которых произошли изменения в показателях. Так, финансовые аналитики ежегодно докладывают об изменениях в инфляции и рассказывают, почему она изменилась. Определение факторов, за счет которых изменилась инфляция, — это результат диагностической аналитики.

📈 Прогнозная аналитика. Цель метода — ответить на вопрос «что случится в будущем?». Для анализа используют методы прогнозной аналитики. Прогнозная аналитика — это просчитывание вероятности какого-то события в будущем. Например, утверждение «с вероятностью 80% рынок акций на следующей неделе будет расти» — это результат прогнозной аналитики.

📈 Предписательная аналитика. Этот метод считается самым прогрессивным, потому что предлагает стратегию развития и курс действий. В нём автоматическая система дает рекомендации к действиям на основе предыдущих анализов. Метод отвечает на вопрос «как поступить?». Эта аналитика поможет преодолеть неопределенность в меняющихся условиях: просчитать риски и предотвратить мошенничество.

На курсе Skypro «Аналитик данных» обучают разным методам анализа. А еще можно освоить основы SQL и Python, чтобы создавать классные графики и диаграммы, — данные туда будут подтягиваться автоматически.

Как создать эффективную стратегию по работе с big data

Рассказывает Александр Тарасов, управляющий партнер DIS Group.

Есть два подхода к разработке стратегии: проактивный и реактивный. Реактивный подход предполагает реакцию на уже случившиеся события. При проактивном подходе прогнозируют наступление события и готовятся к нему.

Как это выглядит в контексте работы с big data? Последние пять лет в компаниях активно практиковался реактивный подход: тон работы задавали технологии. Они были новые, нужно было понять их преимущества, научиться с ними работать. Например, когда в компаниях создавали место, где хранятся структурированные и неструктурированные данные, часто не задумывались, какие именно данные нужны. Позже решали, как с ними работать.

Такая стратегия может быть достаточно эффективна, но она результативна только на этапе внедрения технологий. Когда уже появился опыт, понятны возможности и ограничения, эффективнее использовать проактивную стратегию. Пусть она и сложна тем, что прогноз не всегда соответствует реальности, ведь его основывают на гипотезе. При проверке может выясниться, что каких-то данных не хватает, — так появляются новые вводные.

Например, при создании прогноза-модели отказа оборудования закладывают технологические характеристики. Они не всегда соответствуют реальности. И тогда понадобятся дополнительные данные, например по количеству персонала, их квалификации.

Проактивная стратегия предполагает решение конкретных задач. Например, когда при ограниченности ресурсов надо повысить количество продукции, снизить число аварий на производстве, сократить издержки и т. п.

Вывод: эффективная стратегия big data должна быть проактивной, интегрированной в ткань бизнес-стратегии и направленной на решение конкретных задач.

Сложности применения big data

  1. Большие данные требуют инфраструктуру для хранения. Часто под хранение данных выделяют отдельный центр обработки данных (ЦОД). Но такие центры дорогие и требуют больших вложений.
  2. Чтобы создать аналитическую модель (например, для обучения некоторых видов нейронных сетей), нужно очень много времени. Например, чтобы обучить современную нейронную сеть создавать изображения на основе текстового описания, используют массив данных размером 270 терабайт. Обучение такой сети может занять около недели.
  3. Знание технологий обработки больших данных очень важно, но так же важно понимать нишу, где применяются big data. Иногда понять, «что нужно?», сложнее, чем «как это сделать?».

Перспективы развития big data в России и мире

Рассказывает Александр Тарасов, управляющий партнер DIS Group.

Сейчас ажиотаж вокруг big data прошел. Огромное количество компаний уже работают с этой технологией и получают практические результаты.

В России уровень цифровизации высокий, поэтому внедрение и развитие технологий big data продолжится: от социальной сферы до государственных структур. Прогнозируется дефицит специалистов: по разным оценкам, он составит 25–35%.

Сегодня системообразующие компании вроде «Газпрома», «Транснефти», ВТБ, «Ростелекома» активно используют big data и самостоятельно занимаются технологическими разработками. Компании только начали интересоваться технологией, но у них нет большого бюджета, чтобы создавать собственные bigdata-центры. Поэтому в ближайшем будущем технологии будут дешеветь и внедряться не только в корпорациях.

С развитием облачных технологий появляются сервисы от государства. Например, в Москве для малого и среднего предпринимательства уже есть онлайн-сервисы «Подбор городских помещений для бизнеса», «Подбор рыночной ниши», «Готовые помещения под франшизу». Это возможно благодаря тому, что город накапливает огромное количество данных о гражданах, их перемещении, предпочтениях. Такую информацию можно использовать для развития района. В будущем подобных сервисов может стать больше.

Коротко о технологии big data

  • Большие данные — это наборы данных, которые быстро генерируются и поступают из разных источников. Потом эту информацию можно использовать, чтобы составлять прогнозы, статистику, принимать бизнес-решения.
  • Есть шесть основных характеристик больших данных: скорость накопления данных, объем, разнообразие, достоверность, изменчивость и ценность.
  • Данные в основном поступают из трех источников: социальных (соцсети, приложения, онлайн-сервисы), машинных (оборудование, элементы умного дома), транзакционных (финансовые транзакции).
  • Данные хранятся в дата-центрах с мощными серверами. Обрабатывают данные в распределенных системах хранения данных.
  • Для анализа big data используют описательную, диагностическую, прогнозную и предписательную аналитику.
  • Большие данные используют в бизнесе, банковской сфере, ретейле, маркетинге, госструктурах, логистике, автомобилестроении, медицине.
  • У big data большие перспективы, но есть и сложности: для хранения данных нужна инфраструктура, которая может дорого стоить. Еще, чтобы работать с большими данными, нужно хорошо разбираться в нише, где их применяют, а не только в технической части.

*Площадки Meta признаны экстремистскими и запрещены в РФ.

Содержание

Добавить комментарий

Определи профессию по рисунку
Пройдите тест, узнайте какой профессии подходитеНачать тест
+