Неважно, начали вы изучать любое из IT-направлений или только планируете в него погрузиться — стоит узнать ключевые термины digital-индустрии. Так станет понятно, чем занимается специалист в этой сфере, с какими понятиями сталкивается и как выстроены рабочие процессы.
Если хотите прокачаться в IT и освоить новую профессию с нуля, пройдите курсы онлайн-университета Skypro. Например, «Аналитик данных», «Инженер по тестированию», «Веб-разработчик». Программы актуальные, соответствуют требованиям работодателей к новичкам. Соберете портфолио и найдете высокооплачиваемую работу: в этом поможет центр карьеры.
Общие digital-понятия
Рассмотрим термины из IT и бизнес-сферы. Некоторые из них — прямые заимствования из английского, а другие — названия конкретных методов или библиотек из сфер программирования и анализа.
Для работы в команде
Адженда (от англ. Agenda) — повестка и темы, для обсуждения которых собрали встречу.
Дедлайн (от англ. Deadline) — финальная дата, к которой нужно выполнить задачу или проект.
Коммит (от англ. Commit) — фиксация любых изменений в проекте или договоренность выполнить обещание в срок. Например, закоммититься по показателю 3%.
Ретро (от англ. Retro) — встреча, на которой обсуждают и анализируют удачные и неудачные процессы во время командной работы над проектом. Чаще всего ретро организуют, чтобы закрепить результаты за определенный период. Например: квартальное ретро, недельное ретро.
Синк (от англ. Sync, Synchronize) — встреча, на которой участники «синхронизируются» по поводу этапов совместной работы.
Таск-трекер (от англ. Task Tracker) — программа или сервис, который помогает распределить, отследить и упорядочить задачи в рамках отдела или всей компании.
Тикет (от англ. Ticket) — задача, которая оформлена на отдельной странице в таск-трекерах, например в Jira или Trello. В тикете указывают сроки, цели и ответственных.
Трекать (от англ. to Track) — отслеживать. Чаще всего под этим словом подразумевают отслеживание метрики или какого-то показателя.
Флоу (от англ. Flow) — последовательность действий в рабочем процессе.
Для маркетинга и бизнеса
Метрика — показатель для маркетинга, продаж и бизнеса в целом. С помощью метрик можно понять, например, приносит ли прибыль реклама, сколько новых клиентов у компании за месяц и какой процент покупателей заказывают повторно.
Буст (от англ. Boost) — резкое увеличение. Чаще всего относится к метрикам.
Конверсия — процент пользователей, которые совершили целевое действие или которые от одного события дошли до другого. Например, конверсия из заказа в завершенную поездку в агрегаторе такси или конверсия из пробного периода в платный в онлайн-кинотеатре.
Воронка — множество конверсий, которые совместно составляют объект анализа. Например, воронка продаж — это путь клиента от предложения до покупки. В такой воронке рассчитывают, где можно увеличить конверсию в покупку, понять, когда клиенты уходят и почему.
Ивент (от англ. Event) — любое событие. Например, клик, просмотр, покупка, регистрация. Чаще всего ивенты заносят в таблицу в базе данных, где одна запись равна одному событию.
Когорта — группа клиентов, которых объединяет продуктовый принцип появления в один и тот же период времени. Например, клиенты, которые зарегистрировались в приложении в один и тот же месяц, или клиенты, которые взяли кредит в одном и том же году.
Когортный анализ — разновидность анализа: пользователей делят на группы и анализируют поведение каждой в отдельности. Когорты обычно выделяют по признаку времени — смотрят, когда конкретно люди совершили действие. Например, покупатели, которые пришли в октябре, потратили за три месяца больше, чем те, кто пришел в ноябре.
Процентный пункт — единица измерения разности нескольких значений, которые выражаются в процентах. Например, если процентная ставка была 10% и снизилась на 1,25 процентных пункта, то это означает, что она стала 8,75%.
Ресёч (от англ. Research) — исследование, которое поможет разработать более эффективную механику или обнаружить причины события. Например, определить причины падения среднего чека в онлайн-ретейлере.
Сегментация — разделение массива данных на категории по какому-либо признаку. Например, есть сумма платежа, которую нужно разделить. Если она меньше 5000 ₽, то платеж «маленький», если больше — «большой». Тогда можно отдельно изучать большие и маленькие платежи, искать причины поведения покупателей в данных в данных.
Примеры сегментации: для кредитной организации по совокупности признаков сегментируют клиентов по вероятности оплаты кредита. В автомобильном бизнесе сегментируют машины на классы по уровню комфорта, мощности двигателя.
Таблица измерений — таблица, которая содержит информацию: атрибуты, свойства, характеристики событий. Такую таблицу можно назвать справочником. Для заказов таблица измерений может содержать город заказа, валюту, любые признаки, которые дополнят информацию о заказе из таблицы фактов.
Таблица фактов — таблица, в которой хранятся события. Например, таблица с заказами, таблица оплат, уроков и т. п. Происходит событие — новый урок в онлайн-школе — запись о нём попадает в таблицу фактов.
Трейд-офф (от англ. Trade Off) — компромисс между двумя приоритетами. Чтобы увеличить прибыль, нужны новые клиенты. Но если думать только о них, старые клиенты перестанут покупать продукт. Между этими целями ищут трейд-офф.
Чёрн (от англ. Churn) — показатель ухода клиентов с платформы. Например, какой процент текущей базы клиентов уходит за один месяц.
Юнит-экономика — совокупность показателей успешности определенного юнита (какого-либо направления бизнеса). Успешность оценивают по разнице между вложениями и итоговым результатом. Юнит может быть и максимально узким: продажа конкретного товара или услуги, работа одного конкретного менеджера и так далее.
A/B-тестирование — метод маркетингового исследования, в ходе которого сравнивают контрольный (A) вариант продукта с его измененной (B) версией. С помощью А/В-тестирования можно определять, как влияют изменения на целевые показатели.
PageRank — алгоритм, который определяет важность чего-либо. Обычно ранжируется в списке результатов поиска. PageRank работает путем подсчета количества и качества ссылок на страницу, чтобы приблизительно оценить важность веб-сайта. При этом более важные веб-сайты могут получать больше ссылок с других. PageRank назвали в честь изобретателя, соучредителя и генерального директора Google Ларри Пейджа.
Для анализа данных и программирования
Абсолютное значение — неотрицательное число, обозначаемое |x| и определяемое как: если x < 0, то |x| = -x, если x ≥ 0, то |x| = x. Агрегация данных (от англ. Data Aggregation) — процесс создания обобщенных результатов путем суммирования, вычисления средних значений и других статистических показателей.
Алгоритм — набор инструкций (зачастую математических по природе), которые записаны как серия шагов. Инструкции повторяются много раз, пока не достигнут какой-либо задачи или не придут к некоторому результату.
Аномалия в данных — отклонение или необычное значение в наборе данных, которое выбивается из общих паттернов и может указывать на ошибки или нештатные ситуации.
Визуализация данных (от англ. Data Visualization) — представление данных в графической форме с использованием диаграмм и графиков.
Классификация — разбивка множества объектов на заданные группы (классы), внутри каждой из которых есть функциональная зависимость друг от друга. Классификация — одна из важнейших задач Data Mining.
Массив — тип данных, в котором хранится упорядоченный набор однотипных элементов. Массивы есть в большинстве языков программирования. Они нужны, чтобы удобно хранить несколько значений и быстро работать с ними.
Неструктурированные данные — информация, у которой нет определенной структуры данных либо она не организована в установленном порядке. Неструктурированные данные можно представить в виде текста, фотографий, видео, данных телефонии, данных взаимодействий в социальных сетях и с веб-сайтами, некоторых данных интернета вещей — сеть объектов реального и виртуального мира, которые подключены к интернету и могут обмениваться данными.
Очистка данных (от англ. Data Cleaning) — процесс удаления ошибок и несоответствий в наборе данных, пропусков, аномалий.
Пул — данные, которые аналитик отбирает для анализа. К примеру, в пул отправляют только реальных клиентов и информацию о них.
Сводная таблица (англ. Pivot Table) — инструмент обработки данных, который нужен, чтобы дополнять их в программах визуализации данных: в электронных таблицах или программном обеспечении для бизнес-анализа.
Сущности — «вещи» в бизнес-среде, о которых хранят данные. Например, продукты, клиенты или заказы.
Атрибуты — свойства сущности. Используют для организации и структурирования данных. Например, сущность «книга» характеризуется атрибутами: «наименование», «авторы», «количество страниц», «тираж», «цена».
Темные данные — данные, которые собраны и обработаны, возможно, даже структурированы и загружены в информационную систему, но на деле не используются в аналитике. Некоторые специалисты приводят цифру 60–90%, когда упоминают темные данные. Если взять работающую информационную систему или базу данных, всегда можно найти информацию, которую до сих пор не использовали.
Фича — признак объекта, который имеет значение для анализа. Например, возраст и средняя зарплата клиентов — полезные фичи для исследования.
Data Mining — глубинный анализ данных, для которого применяются различные алгоритмы для поиска зависимостей (модели) и новых знаний. Выделяют два больших класса моделей: описательные и предсказательные. Для этого используют классические статистические методы, самообучающиеся алгоритмы и машинное обучение (нейронные сети, деревья решений и другие).
DataOps — методология управления корпоративными данными, которая позволяет перенести опыт DevOps на управление данными и аналитику.
DevOps — подход к разработке программного обеспечения, который объединяет практики разработки (Dev) и операций (Ops). Основная идея DevOps в том, чтобы улучшить сотрудничество между разработчиками. Так получится более эффективно и быстро создавать, тестировать и развертывать программное обеспечение — что ускоряет цикл разработки.
Hash — преобразование информации с помощью особых математических формул. В результате данные отображаются в виде короткой строки, в идеале — уникальной для каждого набора информации. Размер строки может быть одинаковым для данных разного объема.
Organizational Network Analysis (ONA) — организационно-сетевой анализ, способ визуализации и анализа связей внутри организации и их сотрудников.
Pandas — библиотека Python для манипулирования данными, популярная среди исследователей.
Python — язык программирования, который доступен с 1994 года. Он популярен среди исследователей, которые занимаются наукой о данных. Python отличается простотой для новичков и большой мощностью, когда с ним работают опытные пользователи. Особенно если используют преимущества специализированных библиотек для машинного обучения и генерации графиков.
R — язык программирования, который специально разработали для обработки данных. Если всерьез захотите работать в области исследования данных, без знания R не обойтись. Это самый популярный язык среди исследователей и дата-сайентистов (специалистов по данным).
SAP Cloud Platform (SCP) — открытая облачная платформа от компании SAP. Она нужна, чтобы создавать, развертывать и управлять приложениями в облаке. С ее помощью можно вычислять в оперативной памяти, пользоваться услугами базовой платформы и уникальными микросервисами, чтобы создавать и расширять интеллектуальные облачные платформы с поддержкой мобильных устройств.
На курсах Skypro сможете освоить востребованную профессию и повысить качество жизни. Все студенты проходят несколько тестовых технических собеседований и консультации со специалистами центра карьеры. Они помогают составить цепляющее резюме, советуют, как вести себя на интервью, учат уверенно выполнять тестовые задания. Преподаватели — практикующие эксперты из топовых компаний.
Термины из дата-инженерии
Рассмотрим лексику, которая связана с базами данных и методикой их хранения в различных формах. Среди них много аббревиатур и заимствований из английского языка.
Большие данные — данные, которые затруднительно или невозможно обрабатывать на одном компьютере. Примеры больших данных: поисковый индекс, логи поведения людей в интернете, данные с GPS-навигаторов в транспортной сети, данные событий на Большом адронном коллайдере.
Витрина данных (от англ. Data Mart) — подмножество хранилища данных с фокусом на конкретной бизнес-функции или отделе. Витрина данных — это место, где хранятся, обрабатываются и анализируются данные из определенной области. Например, витрина данных отдела маркетинга будет содержать информацию о продажах, рекламе, социальных сетях.
Куб — группа таблиц для хранения однородной информации. В системах аналитики отображается как единая таблица.
Модель данных — совокупность таблиц с данными, связей между таблицами, операций их обработки. С ее помощью можно получить данные из разных источников, настроить предварительную обработку данных, выстроить связи между таблицами, после чего проводить различные вычисления.
Облачные вычисления — под этим термином подразумевают программное обеспечение или данные, размещенные на удаленных серверах и доступные из любой точки мира — везде, где есть интернет.
Озера данных (от англ. Data Lake) — хранилища данных масштаба предприятия, при котором информацию хранят в необработанном, первоначальном виде. Озеро данных отличается от хранилища — в последнем информация структурируется и проходит предварительную обработку и очистку. Чтобы получить доступ к таким данным, надо четко понимать, какая у них структура и как их обработать.
Оконная функция — функция, которая работает с выделенным набором строк (окном, партицией) и вычисляет их в отдельном столбце.
Партицирование (от англ. Part) — разделение на части данных, которые хранятся в базе. Применяют, чтобы хранить большое количество данных, а еще для быстрого доступа к ним. Например, количество строк в таблице базы данных ограничено памятью на сервере. Если разделить таблицу на части и каждая часть будет храниться на разных серверах, то при увеличении количества строк можно просто добавить количество серверов.
Потоковая обработка — механизм постоянной обработки данных, которые регулярно поступают в информационную систему. В некоторых случаях, например с интернетом вещей, нужна постоянная обработка большого набора данных. При этом данные будут поступать долго. Возможно, поток данных будет идти в течение всей жизни информационной системы.
Распределенное хранилище (или распределенная файловая система) — система хранения данных, в которой информацию распределяют по нескольким серверам или устройствам. В итоге образуется единое логическое хранилище. Это дает высокую отказоустойчивость, масштабируемость и доступность данных.
Распределенные хранилища могут использовать, чтобы поддерживать большие объемы данных и давать к ним доступ из разных устройств. Примеры распределенных хранилищ данных: Hadoop HDFS, Amazon S3, Google Cloud Storage и многие другие.
СУБД — система управления базами данных. Так называют сложное программное обеспечение, которое нужно, чтобы создавать базы данных, изменять их, получать информацию и контролировать версии.
Якорная модель хранилища данных — структура организации данных в хранилище. Якорная модель — это центральная таблица (якорь), которая связана с другими таблицами через внешние ключи. С такой моделью легко анализировать данные: она дает высокую степень нормализованности и упрощает запросы к данным.
Например, в бизнесе есть таблица товаров, таблица заказов и таблица клиентов. В якорной модели эти таблицы будут связаны с таблицей заказов, которая выступает в роли якоря. Так можно легко получить информацию о том, какие товары заказали, кто сделал заказ и когда его выполнили.
Airflow — библиотека или набор библиотек для разработки, планирования и мониторинга рабочих процессов. Основная особенность Airflow: для описания или разработки процессов используют код на языке Python.
CTE (Common Table Expressions) — один из видов запросов в системах управления базами данных. На русском языке они называются обобщенными табличными выражениями. Результаты табличных выражений можно временно сохранять в памяти и обращаться к ним повторно.
DAG — смысловое объединение задач, которые хотите выполнить в строго определенной последовательности по определенному расписанию.
OLAP — набор приложений и технологий для аналитической обработки данных и построения гибких отчетов.
DWH (Data Warehouse) — база данных, оптимизированная под выполнение OLAP-запросов, где данные собраны в виде кубов.
ETL (от англ. Extract, Transform, Load) — один из основных процессов в управлении хранилищами данных: процесс извлечения, преобразования и загрузки данных. Эти процессы нужны, чтобы привести данные к одним справочникам и загрузить в хранилище из нескольких разных учетных систем.
In-memory — обработка запросов и хранение таблиц в оперативной памяти компьютера, на котором работает база данных. Помогает ускорить расчеты.
Exasol — реляционная (когда набор данных с предопределенными связями между ними) аналитическая in-memory база данных. Ее прямые конкуренты — HP Vertica, Teradata, Hana, Redshift, BigQuery. СУБД Exasol — подходящий вариант, чтобы строить хранилище данных и аналитическую систему.
Hadoop — стек программ для обработки больших данных.
Join — оператор, который используют, чтобы объединять строки из двух или более таблиц на основе связующего столбца между ними. Такой столбец еще называют ключом.
MapReduce — модель или алгоритм, который разбивает большие данные на более мелкие (кортежи), при этом пользуется определенным «навигатором» — картой (Map). Данные обрабатываются на разных серверах. Потом система собирает результаты в один простой отчет (Reduce). MapReduce тесно связан с распределенными вычислениями.
NoSQL — объединение гибкости языка SQL с большими данными. Переводится как «не только SQL». SQL — сложившийся язык запросов в реляционных системах управления базами данных. Но традиционные СУБД подходят для строго структурированных данных с известной схемой. В больших данных, наоборот, сведения чаще слабо структурированы.
OLTP (Online Transaction Processing) — транзакционная система, или обработка транзакций в реальном времени. Это способ организации баз данных, когда система работает с небольшими по размерам транзакциями. Они идут большим потоком, при этом клиенту требуется от системы минимальное время отклика. OLTP-системы обрабатывают все виды запросов: чтение, вставка, обновление и удаление.
Spark — специальный инструмент обработки данных в памяти. Если нужно быстро обработать данные, лучше всего использовать такой способ. По скорости работы он значительно превосходит MapReduce.
Термины из BI-анализа
Рассмотрим лексику, с помощью которой строят управленческую и операционную отчетность через BI-инструменты. Среди определений есть как названия самих инструментов, так и понятия, связанные с анализом и дашбордами.
Дашборд — интерактивная «приборная панель» аналитика, на которой в цифрах, таблицах и инфографике размещают важные данные для анализа. Например, инфографика доходов и затрат, график роста прибыли.
Аналитические панели — это еще одно название для дашбордов. Они включают различные визуализации данных: графики, диаграммы, которые помогают анализировать данные. Аналитические панели могут использовать для мониторинга бизнес-метрик, отслеживания KPI и других ключевых бизнес-показателей.
Дрил-даун (от англ. Drill Down) — когда аналитик «проваливается» во фрагмент дашборда и получает детальную информацию. Например, когда аналитик кликает в таблице годовых затрат на ячейку октября. Попадает в новую таблицу, а там — детализация расходов за месяц.
BI (Business Intelligence) — набор приложений, технологий, методологий и процессов для описания, анализа и демонстрации бизнес-данных.
Tableau — программное обеспечение для интерактивной бизнес-аналитики и визуализации данных. Оно помогает провести глубокий анализ большого количества информации и представить результаты в удобной и интуитивно понятной форме. Tableau может работать с облачными решениями (Dropbox, Google Таблицы, AWS Redshift и пр.), а еще с современными инструментами анализа данных, например Python и R.
Термины по искусственному интеллекту
Рассмотрим лексику, которая относится к машинному обучению и сфере data science. Здесь есть как названия различных моделей искусственного интеллекта, так и общие понятия, связанные с обучением моделей.
Дерево решений — модель машинного обучения, которую используют, чтобы моделировать и предсказывать как абсолютные, так и бинарные показатели. Основывается на математическом принципе энтропии для максимизации предсказательной силы.
Кластеризация — группировка объектов (наблюдений, событий) на основе данных (свойств), которые описывают сущность объектов. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
Коэффициент детерминации («эр квадрат», R^2) — показатель качества модели машинного обучения на абсолютных показателях. Эта метрика измеряет, насколько хорошо модель подходит к данным. Коэффициент детерминации показывает, какую часть изменчивости зависимой переменной можно объяснить с помощью использованной модели.
Лес решений — модель машинного обучения, которая состоит из нескольких деревьев решений и используется для тех же задач, что и дерево решений. Количество деревьев можно контролировать для максимизации предсказательной силы.
Модель временного ряда (авторегрессия, ARMA, ARIMA, SARIMA) — модель машинного обучения, которая в качестве части фичей берет собственные прошлые значения или прошлые модельные значения.
Нейросеть — широкий класс моделей машинного обучения, которые действуют по принципу нелинейной оптимизации и состоят из нескольких нейронов, то есть уровней обработки информации.
Тестовая выборка — выборка, в которой нет правильных ответов, где модель пытается их предсказать по закономерностям, которые выявили на тренинговой выборке.
Тренинговая выборка — набор данных, на которых обучают ИИ. На этих данных есть «разметка», то есть правильные ответы. Модель машинного обучения анализирует связь между таргет-величиной (переменной) и фичами (признаками), а затем готовится предсказать таргет-величину на тестовой выборке.
Переобученная модель — модель машинного обучения, которая буквально «запомнила» все правильные ответы на тренинговой выборке и теперь не может качественно предсказывать на тестовой выборке.
ML (Machine Learning) — набор технологий, которые автоматически улучшают расчет формулы прогнозирования через периодическую оценку поступающих наборов данных, сравнение их с историческими данными.
Data science — наука о данных, раздел информатики, который изучает проблемы анализа, обработки и представления данных в цифровой форме.
Термины из статистики
В этом блоке собрали специальную терминологию из раздела математической статистики и теории вероятностей.
Корреляция, или корреляционная зависимость — статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.
Медиана — значение, которое делит набор данных на две равные части.
Мода — величина признака (значение), которая чаще всего встречается в данной совокупности.
Регрессия (от лат. Regressio — обратное движение) — математическое выражение, которое отражает зависимость зависимой переменной у от независимых переменных х.
Пройдите обучение IT-профессиям с нуля с гарантией новой работы в онлайн-университете Skypro. В программах курсов — только актуальная информация и навыки, которые ценятся работодателями. Все гарантии честно прописаны в договоре. Средняя зарплата выпускников — 72 000 ₽, а специалисты центра карьеры будут сопровождать до тех пор, пока вы не найдете работу по новой профессии.
Как все эти термины вам помогут
Программисты, аналитики и маркетологи часто используют термины, которые мы собрали в этой статье. Вот четыре причины, почему их стоит запомнить.
🟡 Ясное и точное общение
Когда digital-специалисты используют специальную терминологию, они упрощают общение между собой и с другими участниками проекта. Коммуникация становится более ясной и точной. У каждого термина есть свое четкое определение, что исключает недопонимания и уточнения.
🟡 Улучшение качества совместной работы
Знание общих терминов облегчает совместную работу в команде. Когда все коллеги владеют общим словарем терминов, процессы разработки, анализа данных или другие задачи становятся более эффективными.
🟡 Повышение уровня профессионализма
Клиенты, коллеги и руководство могут доверять специалистам, которые говорят на их языке. Это помогает создать доверие к компетенциям.
🟡 Облегчение обучения и обновление навыков
Знание терминов помогает digital-специалистам лучше понимать новые технологии, методики и подходы. Так проще обучаться новым инструментам: сотрудник быстрее осваивает современные тенденции в своей области.
Добавить комментарий