13 Дек 2023
17 мин
1425

Разбираемся в digital-терминах

Составили словарь с самыми часто встречающимися терминами из разных сфер IT и digital.

Содержание

Неважно, начали вы изучать любое из IT-направлений или только планируете в него погрузиться — стоит узнать ключевые термины digital-индустрии. Так станет понятно, чем занимается специалист в этой сфере, с какими понятиями сталкивается и как выстроены рабочие процессы.

Общие digital-понятия

Рассмотрим термины из IT и бизнес-сферы. Некоторые из них — прямые заимствования из английского, а другие — названия конкретных методов или библиотек из сфер программирования и анализа.

Для работы в команде

Адженда (от англ. Agenda) — повестка и темы, для обсуждения которых собрали встречу.

Дедлайн (от англ. Deadline) — финальная дата, к которой нужно выполнить задачу или проект.

Коммит (от англ. Commit) — фиксация любых изменений в проекте или договоренность выполнить обещание в срок. Например, закоммититься по показателю 3%.

Ретро (от англ. Retro) — встреча, на которой обсуждают и анализируют удачные и неудачные процессы во время командной работы над проектом. Чаще всего ретро организуют, чтобы закрепить результаты за определенный период. Например: квартальное ретро, недельное ретро.

Синк (от англ. Sync, Synchronize) — встреча, на которой участники «синхронизируются» по поводу этапов совместной работы.

Таск-трекер (от англ. Task Tracker) — программа или сервис, который помогает распределить, отследить и упорядочить задачи в рамках отдела или всей компании.

Тикет (от англ. Ticket) — задача, которая оформлена на отдельной странице в таск-трекерах, например в Jira или Trello. В тикете указывают сроки, цели и ответственных.

Трекать (от англ. to Track) — отслеживать. Чаще всего под этим словом подразумевают отслеживание метрики или какого-то показателя.

Флоу (от англ. Flow) — последовательность действий в рабочем процессе.

Для маркетинга и бизнеса

Метрика — показатель для маркетинга, продаж и бизнеса в целом. С помощью метрик можно понять, например, приносит ли прибыль реклама, сколько новых клиентов у компании за месяц и какой процент покупателей заказывают повторно.

Буст (от англ. Boost) — резкое увеличение. Чаще всего относится к метрикам.

Конверсия — процент пользователей, которые совершили целевое действие или которые от одного события дошли до другого. Например, конверсия из заказа в завершенную поездку в агрегаторе такси или конверсия из пробного периода в платный в онлайн-кинотеатре.

Воронка — множество конверсий, которые совместно составляют объект анализа. Например, воронка продаж — это путь клиента от предложения до покупки. В такой воронке рассчитывают, где можно увеличить конверсию в покупку, понять, когда клиенты уходят и почему.

Ивент (от англ. Event) — любое событие. Например, клик, просмотр, покупка, регистрация. Чаще всего ивенты заносят в таблицу в базе данных, где одна запись равна одному событию.

Когорта — группа клиентов, которых объединяет продуктовый принцип появления в один и тот же период времени. Например, клиенты, которые зарегистрировались в приложении в один и тот же месяц, или клиенты, которые взяли кредит в одном и том же году.

Когортный анализ — разновидность анализа: пользователей делят на группы и анализируют поведение каждой в отдельности. Когорты обычно выделяют по признаку времени — смотрят, когда конкретно люди совершили действие. Например, покупатели, которые пришли в октябре, потратили за три месяца больше, чем те, кто пришел в ноябре.

Процентный пункт — единица измерения разности нескольких значений, которые выражаются в процентах. Например, если процентная ставка была 10% и снизилась на 1,25 процентных пункта, то это означает, что она стала 8,75%.

Ресёч (от англ. Research) — исследование, которое поможет разработать более эффективную механику или обнаружить причины события. Например, определить причины падения среднего чека в онлайн-ретейлере.

Сегментация — разделение массива данных на категории по какому-либо признаку. Например, есть сумма платежа, которую нужно разделить. Если она меньше 5000 ₽, то платеж «маленький», если больше — «большой». Тогда можно отдельно изучать большие и маленькие платежи, искать причины поведения покупателей в данных в данных.

Примеры сегментации: для кредитной организации по совокупности признаков сегментируют клиентов по вероятности оплаты кредита. В автомобильном бизнесе сегментируют машины на классы по уровню комфорта, мощности двигателя.

Таблица измерений — таблица, которая содержит информацию: атрибуты, свойства, характеристики событий. Такую таблицу можно назвать справочником. Для заказов таблица измерений может содержать город заказа, валюту, любые признаки, которые дополнят информацию о заказе из таблицы фактов.

Таблица фактов — таблица, в которой хранятся события. Например, таблица с заказами, таблица оплат, уроков и т. п. Происходит событие — новый урок в онлайн-школе — запись о нём попадает в таблицу фактов.

Трейд-офф (от англ. Trade Off) — компромисс между двумя приоритетами. Чтобы увеличить прибыль, нужны новые клиенты. Но если думать только о них, старые клиенты перестанут покупать продукт. Между этими целями ищут трейд-офф.

Чёрн (от англ. Churn) — показатель ухода клиентов с платформы. Например, какой процент текущей базы клиентов уходит за один месяц.

Юнит-экономика — совокупность показателей успешности определенного юнита (какого-либо направления бизнеса). Успешность оценивают по разнице между вложениями и итоговым результатом. Юнит может быть и максимально узким: продажа конкретного товара или услуги, работа одного конкретного менеджера и так далее.

A/B-тестирование — метод маркетингового исследования, в ходе которого сравнивают контрольный (A) вариант продукта с его измененной (B) версией. С помощью А/В-тестирования можно определять, как влияют изменения на целевые показатели.

PageRank — алгоритм, который определяет важность чего-либо. Обычно ранжируется в списке результатов поиска. PageRank работает путем подсчета количества и качества ссылок на страницу, чтобы приблизительно оценить важность веб-сайта. При этом более важные веб-сайты могут получать больше ссылок с других. PageRank назвали в честь изобретателя, соучредителя и генерального директора Google Ларри Пейджа.

Для анализа данных и программирования

Абсолютное значение — неотрицательное число, обозначаемое |x| и определяемое как: если x < 0, то |x| = -x, если x ≥ 0, то |x| = x. Агрегация данных (от англ. Data Aggregation) — процесс создания обобщенных результатов путем суммирования, вычисления средних значений и других статистических показателей.

Алгоритм — набор инструкций (зачастую математических по природе), которые записаны как серия шагов. Инструкции повторяются много раз, пока не достигнут какой-либо задачи или не придут к некоторому результату.

Аномалия в данных — отклонение или необычное значение в наборе данных, которое выбивается из общих паттернов и может указывать на ошибки или нештатные ситуации.

Визуализация данных (от англ. Data Visualization) — представление данных в графической форме с использованием диаграмм и графиков.

Классификация — разбивка множества объектов на заданные группы (классы), внутри каждой из которых есть функциональная зависимость друг от друга. Классификация — одна из важнейших задач Data Mining.

Массив — тип данных, в котором хранится упорядоченный набор однотипных элементов. Массивы есть в большинстве языков программирования. Они нужны, чтобы удобно хранить несколько значений и быстро работать с ними.

Неструктурированные данные — информация, у которой нет определенной структуры данных либо она не организована в установленном порядке. Неструктурированные данные можно представить в виде текста, фотографий, видео, данных телефонии, данных взаимодействий в социальных сетях и с веб-сайтами, некоторых данных интернета вещей — сеть объектов реального и виртуального мира, которые подключены к интернету и могут обмениваться данными.

Очистка данных (от англ. Data Cleaning) — процесс удаления ошибок и несоответствий в наборе данных, пропусков, аномалий.

Пул — данные, которые аналитик отбирает для анализа. К примеру, в пул отправляют только реальных клиентов и информацию о них.

Сводная таблица (англ. Pivot Table) — инструмент обработки данных, который нужен, чтобы дополнять их в программах визуализации данных: в электронных таблицах или программном обеспечении для бизнес-анализа.

Сущности — «вещи» в бизнес-среде, о которых хранят данные. Например, продукты, клиенты или заказы.

Атрибуты — свойства сущности. Используют для организации и структурирования данных. Например, сущность «книга» характеризуется атрибутами: «наименование», «авторы», «количество страниц», «тираж», «цена».

Темные данные — данные, которые собраны и обработаны, возможно, даже структурированы и загружены в информационную систему, но на деле не используются в аналитике. Некоторые специалисты приводят цифру 60–90%, когда упоминают темные данные. Если взять работающую информационную систему или базу данных, всегда можно найти информацию, которую до сих пор не использовали.

Фича — признак объекта, который имеет значение для анализа. Например, возраст и средняя зарплата клиентов — полезные фичи для исследования.

Data Mining — глубинный анализ данных, для которого применяются различные алгоритмы для поиска зависимостей (модели) и новых знаний. Выделяют два больших класса моделей: описательные и предсказательные. Для этого используют классические статистические методы, самообучающиеся алгоритмы и машинное обучение (нейронные сети, деревья решений и другие).

DataOps — методология управления корпоративными данными, которая позволяет перенести опыт DevOps на управление данными и аналитику.

DevOps — подход к разработке программного обеспечения, который объединяет практики разработки (Dev) и операций (Ops). Основная идея DevOps в том, чтобы улучшить сотрудничество между разработчиками. Так получится более эффективно и быстро создавать, тестировать и развертывать программное обеспечение — что ускоряет цикл разработки.

Hash — преобразование информации с помощью особых математических формул. В результате данные отображаются в виде короткой строки, в идеале — уникальной для каждого набора информации. Размер строки может быть одинаковым для данных разного объема.
Organizational Network Analysis (ONA) — организационно-сетевой анализ, способ визуализации и анализа связей внутри организации и их сотрудников.

Pandas — библиотека Python для манипулирования данными, популярная среди исследователей.

Python — язык программирования, который доступен с 1994 года. Он популярен среди исследователей, которые занимаются наукой о данных. Python отличается простотой для новичков и большой мощностью, когда с ним работают опытные пользователи. Особенно если используют преимущества специализированных библиотек для машинного обучения и генерации графиков.

R — язык программирования, который специально разработали для обработки данных. Если всерьез захотите работать в области исследования данных, без знания R не обойтись. Это самый популярный язык среди исследователей и дата-сайентистов (специалистов по данным).

SAP Cloud Platform (SCP) — открытая облачная платформа от компании SAP. Она нужна, чтобы создавать, развертывать и управлять приложениями в облаке. С ее помощью можно вычислять в оперативной памяти, пользоваться услугами базовой платформы и уникальными микросервисами, чтобы создавать и расширять интеллектуальные облачные платформы с поддержкой мобильных устройств.

Термины из дата-инженерии

Рассмотрим лексику, которая связана с базами данных и методикой их хранения в различных формах. Среди них много аббревиатур и заимствований из английского языка.

Большие данные — данные, которые затруднительно или невозможно обрабатывать на одном компьютере. Примеры больших данных: поисковый индекс, логи поведения людей в интернете, данные с GPS-навигаторов в транспортной сети, данные событий на Большом адронном коллайдере.

Витрина данных (от англ. Data Mart) — подмножество хранилища данных с фокусом на конкретной бизнес-функции или отделе. Витрина данных — это место, где хранятся, обрабатываются и анализируются данные из определенной области. Например, витрина данных отдела маркетинга будет содержать информацию о продажах, рекламе, социальных сетях.

Куб — группа таблиц для хранения однородной информации. В системах аналитики отображается как единая таблица.

Модель данных — совокупность таблиц с данными, связей между таблицами, операций их обработки. С ее помощью можно получить данные из разных источников, настроить предварительную обработку данных, выстроить связи между таблицами, после чего проводить различные вычисления.

Облачные вычисления — под этим термином подразумевают программное обеспечение или данные, размещенные на удаленных серверах и доступные из любой точки мира — везде, где есть интернет.

Озера данных (от англ. Data Lake) — хранилища данных масштаба предприятия, при котором информацию хранят в необработанном, первоначальном виде. Озеро данных отличается от хранилища — в последнем информация структурируется и проходит предварительную обработку и очистку. Чтобы получить доступ к таким данным, надо четко понимать, какая у них структура и как их обработать.

Оконная функция — функция, которая работает с выделенным набором строк (окном, партицией) и вычисляет их в отдельном столбце.

Партицирование (от англ. Part) — разделение на части данных, которые хранятся в базе. Применяют, чтобы хранить большое количество данных, а еще для быстрого доступа к ним. Например, количество строк в таблице базы данных ограничено памятью на сервере. Если разделить таблицу на части и каждая часть будет храниться на разных серверах, то при увеличении количества строк можно просто добавить количество серверов.

Потоковая обработка — механизм постоянной обработки данных, которые регулярно поступают в информационную систему. В некоторых случаях, например с интернетом вещей, нужна постоянная обработка большого набора данных. При этом данные будут поступать долго. Возможно, поток данных будет идти в течение всей жизни информационной системы.

Распределенное хранилище (или распределенная файловая система) — система хранения данных, в которой информацию распределяют по нескольким серверам или устройствам. В итоге образуется единое логическое хранилище. Это дает высокую отказоустойчивость, масштабируемость и доступность данных.

Распределенные хранилища могут использовать, чтобы поддерживать большие объемы данных и давать к ним доступ из разных устройств. Примеры распределенных хранилищ данных: Hadoop HDFS, Amazon S3, Google Cloud Storage и многие другие.

СУБД — система управления базами данных. Так называют сложное программное обеспечение, которое нужно, чтобы создавать базы данных, изменять их, получать информацию и контролировать версии.

Якорная модель хранилища данных — структура организации данных в хранилище. Якорная модель — это центральная таблица (якорь), которая связана с другими таблицами через внешние ключи. С такой моделью легко анализировать данные: она дает высокую степень нормализованности и упрощает запросы к данным.

Например, в бизнесе есть таблица товаров, таблица заказов и таблица клиентов. В якорной модели эти таблицы будут связаны с таблицей заказов, которая выступает в роли якоря. Так можно легко получить информацию о том, какие товары заказали, кто сделал заказ и когда его выполнили.

Airflow — библиотека или набор библиотек для разработки, планирования и мониторинга рабочих процессов. Основная особенность Airflow: для описания или разработки процессов используют код на языке Python.

CTE (Common Table Expressions) — один из видов запросов в системах управления базами данных. На русском языке они называются обобщенными табличными выражениями. Результаты табличных выражений можно временно сохранять в памяти и обращаться к ним повторно.

DAG — смысловое объединение задач, которые хотите выполнить в строго определенной последовательности по определенному расписанию.

OLAP — набор приложений и технологий для аналитической обработки данных и построения гибких отчетов.

DWH (Data Warehouse) — база данных, оптимизированная под выполнение OLAP-запросов, где данные собраны в виде кубов.

ETL (от англ. Extract, Transform, Load) — один из основных процессов в управлении хранилищами данных: процесс извлечения, преобразования и загрузки данных. Эти процессы нужны, чтобы привести данные к одним справочникам и загрузить в хранилище из нескольких разных учетных систем.

In-memory — обработка запросов и хранение таблиц в оперативной памяти компьютера, на котором работает база данных. Помогает ускорить расчеты.

Exasol — реляционная (когда набор данных с предопределенными связями между ними) аналитическая in-memory база данных. Ее прямые конкуренты — HP Vertica, Teradata, Hana, Redshift, BigQuery. СУБД Exasol — подходящий вариант, чтобы строить хранилище данных и аналитическую систему.

Hadoop — стек программ для обработки больших данных.

Join — оператор, который используют, чтобы объединять строки из двух или более таблиц на основе связующего столбца между ними. Такой столбец еще называют ключом.

MapReduce — модель или алгоритм, который разбивает большие данные на более мелкие (кортежи), при этом пользуется определенным «навигатором» — картой (Map). Данные обрабатываются на разных серверах. Потом система собирает результаты в один простой отчет (Reduce). MapReduce тесно связан с распределенными вычислениями.

NoSQL — объединение гибкости языка SQL с большими данными. Переводится как «не только SQL». SQL — сложившийся язык запросов в реляционных системах управления базами данных. Но традиционные СУБД подходят для строго структурированных данных с известной схемой. В больших данных, наоборот, сведения чаще слабо структурированы.

OLTP (Online Transaction Processing) — транзакционная система, или обработка транзакций в реальном времени. Это способ организации баз данных, когда система работает с небольшими по размерам транзакциями. Они идут большим потоком, при этом клиенту требуется от системы минимальное время отклика. OLTP-системы обрабатывают все виды запросов: чтение, вставка, обновление и удаление.

Spark — специальный инструмент обработки данных в памяти. Если нужно быстро обработать данные, лучше всего использовать такой способ. По скорости работы он значительно превосходит MapReduce.

Термины из BI-анализа

Рассмотрим лексику, с помощью которой строят управленческую и операционную отчетность через BI-инструменты. Среди определений есть как названия самих инструментов, так и понятия, связанные с анализом и дашбордами.

Дашборд — интерактивная «приборная панель» аналитика, на которой в цифрах, таблицах и инфографике размещают важные данные для анализа. Например, инфографика доходов и затрат, график роста прибыли.

Аналитические панели — это еще одно название для дашбордов. Они включают различные визуализации данных: графики, диаграммы, которые помогают анализировать данные. Аналитические панели могут использовать для мониторинга бизнес-метрик, отслеживания KPI и других ключевых бизнес-показателей.

Дрил-даун (от англ. Drill Down) — когда аналитик «проваливается» во фрагмент дашборда и получает детальную информацию. Например, когда аналитик кликает в таблице годовых затрат на ячейку октября. Попадает в новую таблицу, а там — детализация расходов за месяц.

BI (Business Intelligence) — набор приложений, технологий, методологий и процессов для описания, анализа и демонстрации бизнес-данных.

Tableau — программное обеспечение для интерактивной бизнес-аналитики и визуализации данных. Оно помогает провести глубокий анализ большого количества информации и представить результаты в удобной и интуитивно понятной форме. Tableau может работать с облачными решениями (Dropbox, Google Таблицы, AWS Redshift и пр.), а еще с современными инструментами анализа данных, например Python и R.

Термины по искусственному интеллекту

Рассмотрим лексику, которая относится к машинному обучению и сфере data science. Здесь есть как названия различных моделей искусственного интеллекта, так и общие понятия, связанные с обучением моделей.

Дерево решений — модель машинного обучения, которую используют, чтобы моделировать и предсказывать как абсолютные, так и бинарные показатели. Основывается на математическом принципе энтропии для максимизации предсказательной силы.

Кластеризация — группировка объектов (наблюдений, событий) на основе данных (свойств), которые описывают сущность объектов. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.

Коэффициент детерминации («эр квадрат», R^2) — показатель качества модели машинного обучения на абсолютных показателях. Эта метрика измеряет, насколько хорошо модель подходит к данным. Коэффициент детерминации показывает, какую часть изменчивости зависимой переменной можно объяснить с помощью использованной модели.

Лес решений — модель машинного обучения, которая состоит из нескольких деревьев решений и используется для тех же задач, что и дерево решений. Количество деревьев можно контролировать для максимизации предсказательной силы.

Модель временного ряда (авторегрессия, ARMA, ARIMA, SARIMA) — модель машинного обучения, которая в качестве части фичей берет собственные прошлые значения или прошлые модельные значения.

Нейросеть — широкий класс моделей машинного обучения, которые действуют по принципу нелинейной оптимизации и состоят из нескольких нейронов, то есть уровней обработки информации.

Тестовая выборка — выборка, в которой нет правильных ответов, где модель пытается их предсказать по закономерностям, которые выявили на тренинговой выборке.

Тренинговая выборка — набор данных, на которых обучают ИИ. На этих данных есть «разметка», то есть правильные ответы. Модель машинного обучения анализирует связь между таргет-величиной (переменной) и фичами (признаками), а затем готовится предсказать таргет-величину на тестовой выборке.

Переобученная модель — модель машинного обучения, которая буквально «запомнила» все правильные ответы на тренинговой выборке и теперь не может качественно предсказывать на тестовой выборке.

ML (Machine Learning) — набор технологий, которые автоматически улучшают расчет формулы прогнозирования через периодическую оценку поступающих наборов данных, сравнение их с историческими данными.

Data science — наука о данных, раздел информатики, который изучает проблемы анализа, обработки и представления данных в цифровой форме.

Термины из статистики

В этом блоке собрали специальную терминологию из раздела математической статистики и теории вероятностей.

Корреляция, или корреляционная зависимость — статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

Медиана — значение, которое делит набор данных на две равные части.

Мода — величина признака (значение), которая чаще всего встречается в данной совокупности.

Регрессия (от лат. Regressio — обратное движение) — математическое выражение, которое отражает зависимость зависимой переменной у от независимых переменных х.

Как все эти термины вам помогут

Программисты, аналитики и маркетологи часто используют термины, которые мы собрали в этой статье. Вот четыре причины, почему их стоит запомнить.

🟡 Ясное и точное общение

Когда digital-специалисты используют специальную терминологию, они упрощают общение между собой и с другими участниками проекта. Коммуникация становится более ясной и точной. У каждого термина есть свое четкое определение, что исключает недопонимания и уточнения.

🟡 Улучшение качества совместной работы

Знание общих терминов облегчает совместную работу в команде. Когда все коллеги владеют общим словарем терминов, процессы разработки, анализа данных или другие задачи становятся более эффективными.

🟡 Повышение уровня профессионализма

Клиенты, коллеги и руководство могут доверять специалистам, которые говорят на их языке. Это помогает создать доверие к компетенциям.

🟡 Облегчение обучения и обновление навыков

Знание терминов помогает digital-специалистам лучше понимать новые технологии, методики и подходы. Так проще обучаться новым инструментам: сотрудник быстрее осваивает современные тенденции в своей области.

Добавить комментарий