Вебинары Разобраться в IT Реферальная программа
Программирование Аналитика Дизайн Маркетинг Управление проектами
11 Июл 2024
8 мин
1079

Что такое машинное обучение: основы и применение

Искусственный интеллект упрощает, автоматизирует жизнь. В его основе лежит машинное обучение.

Искусственный интеллект упрощает, автоматизирует жизнь. В его основе лежит машинное обучение. В статье рассказываем, что это такое, как оно работает и где его используют.

Что такое машинное обучение

Машинное обучение — это область искусственного интеллекта, в которой разрабатывают алгоритмы и модели. Они обучаются на данных и создают прогнозы или решения. Вы показываете компьютеру много картинок с кошками и собаками и говорите ему, кто на картинке. Он анализирует изображения и ищет различия между ними. Со временем компьютер научится различать животных сам.

Но компьютеры умеют не только отличать одну картинку от другой. Всё зависит от того, чему мы сами их научим. Например, они могут играть в игры, отвечать на вопросы или даже помогать делать домашние задания. А машинное обучение — это способ научить их. Мы показываем им много примеров, и они сами учатся что-то делать.

Короткая история машинного обучения

1950-е годы. В 1950 году Алан Тьюринг предложил концепцию «Тест Тьюринга». С помощью теста можно было определить, может ли машина демонстрировать поведение, отличимое от человеческого интеллекта. Это стало одной из первых идей в области искусственного интеллекта.

В 1957 году Фрэнк Розенблатт разработал персептрон — простую модель нейронной сети, которая способна обучаться на данных.

1960–1970-е годы. В этот период ученые разработали много алгоритмов и моделей, например алгоритмы кластеризации и линейные регрессии — модели, которые описывают связь нескольких переменных. Но вычислительные мощности и объемы данных были ограничены, поэтому развивать эти модели было сложно.

1980–1990-е годы. В 1986 году была популярна техника обратного распространения ошибок. Она дала возможность эффективно обучать многослойные нейронные сети — сети, которые не выдают ответ сразу, а дополнительно обрабатывают информацию в скрытых слоях. Компьютеры развивались и объем данных увеличивался, поэтому возродился интерес к машинному обучению.

2000-е годы. Объемы данных росли и появились мощные компьютеры, поэтому машинное обучение развивалось быстрее. Появился и стал популярным алгоритм random forest — когда компьютер создает несколько решений для одного набора данных, а потом выбирает лучшее.

2010-е годы. В 2012 году сеть AlexNet выиграла ImageNet — международный конкурс для систем распознавания образов. Она показала, как мощно работает глубокое обучение в распознавании изображений. Поэтому его начали активно использовать в обработке естественного языка, распознавании речи, медицине и автономных системах.

2020-е годы и будущее. Сейчас разрабатывают универсальные модели вроде GPT-4. Они могут писать код, тексты, отвечать на сложные вопросы, переводить с одного языка на другой, писать эссе и т. д. Вместе с тем выросло внимание к этическим аспектам и ответственности в разработке и применении искусственного интеллекта и машинного обучения.

Как работает машинное обучение

Обучение моделей состоит из семи основных шагов. Рассмотрим каждый этап на примере того, как обучить компьютер различать кошек и собак.

Сбор данных

Набор данных собирают и очищают от поврежденных и неточных записей, чтобы использовать в обучении модели. Данные могут быть размеченными — с известными целевыми метками, то есть значениями, которые искусственный интеллект должен предсказать, — или неразмеченными.

На этом этапе собирают много фотографий кошек и собак.

Предобработка данных

Данные нормализуют, масштабируют и преобразуют в формат, пригодный для анализа.
То есть фото котов и собак нужно преобразовать в числовые данные, чтобы компьютер мог их считать. Это делают с помощью языка программирования, например Python.

Учитесь программировать в Skypro. Станьте Python-разработчиком и получите профессию мечты. На этот язык большой спрос, он пригодится как в разработке приложений для смартфонов и компьютеров, так и для работы с искусственным интеллектом. В университете много практики, а после учебы в портфолио будет несколько проектов.

Выбор модели

Выбирают подходящий алгоритм машинного обучения. Это может быть линейная регрессия, дерево решений, нейронная сеть и т. д.

Если картинок немного и они простые, подойдет логистическая регрессия. Для большинства задач, которые связаны с изображениями, подходят сверточные нейронные сети — сети, которые улавливают локальный контекст, если носители информации рядом. Например, носителями могут быть пиксели изображения.

Обучение модели

Модель обучается на тренировочном наборе данных. Алгоритм анализирует входные данные и находит паттерны, которые соответствуют целевым значениям.

На этом этапе модель анализирует тысячи изображений с котами и собаками, учится различать их особенности.

Оценка модели

Модель проверяют на тестовом наборе данных, чтобы оценить ее производительность и точность. Могут использовать метрики: точность, полнота — доля правильных ответов, F1-score — показатель, учитывающий значения и точности, и полноты.

Теперь можно проверить, как хорошо модель распознает новые изображения кошек и собак.

Гиперпараметрическая настройка

Настраивают параметры модели для оптимизации ее производительности.

Развертывание и использование

Обученную модель используют для предсказаний или классификаций на новых данных.

Теперь можно применять ее для распознавания кошек и собак.

Виды машинного обучения

Машинное обучение можно разделить на три основных вида: контролируемое, неконтролируемое и обучение с подкреплением. Каждому виду соответствуют свои методы, алгоритмы и цели.

Контролируемое обучение

Цель. Обучить модель предсказывать или классифицировать данные на основе размеченных примеров — входных данных с известными целевыми значениями.

Как работает. Сначала собирают размеченные данные. Это информация, где каждому входному значению соответствует целевое значение. Например, фото животных с метками «кошка» или «собака». Потом модель обучается на этих данных, анализирует информацию и соответствующие метки. После обучения она может предсказывать целевые значения для новых данных.

Примеры алгоритмов:

  • линейная регрессия;
  • логистическая регрессия;
  • деревья решений;
  • random forest;
  • метод опорных векторов (SVM);
  • нейронные сети.

Где используют:

  • классификация электронной почты: спам или не спам;
  • прогнозирование цен на жилье;
  • распознавание изображений.

Например, модель, которая прошла через контролируемое обучение, может распознавать лица по изображениям и определять, где Маша, а где Саша.

Неконтролируемое обучение

Цель. Найти скрытые паттерны или структуры в данных без использования размеченных примеров.

Как работает. Собирают данные без целевых меток. Например, фотографии животных без указания на то, что именно на них изображено. Модель анализирует данные и пытается найти в них закономерности или группы. После обучения она может выявлять кластеры, аномалии или структуры в новых данных.

Примеры алгоритмов:

  • кластеризация k-средних (K-means) — объекты кластеризуют и пересчитывают центры кластеров;
  • иерархическая кластеризация;
  • алгоритм главных компонентов (PCA);
  • автоэнкодеры.

Применение:

  • сегментация клиентов;
  • анализ текстов для выявления тем;
  • обнаружение аномалий в данных.

С помощью неконтролируемого обучения модель может научиться искать и выделять группы покупателей с похожими привычками. При этом она будет анализировать данные о покупках без указания на то, кто что покупает.

Обучение с подкреплением

Цель. Обучить агента принимать последовательные решения, чтобы максимизировать вознаграждения в долгосрочной перспективе.

Как работает. Агент взаимодействует с окружающей средой, выполняя действия. За каждое из них он получает вознаграждение или наказание. В итоге агент обучается на основе обратной связи от своих действий и улучшает стратегию.

Примеры алгоритмов:

  • Q-обучение;
  • SARSA;
  • глубокое Q-обучение (DQN).

Применение:

  • обучение роботов для выполнения задач;
  • игровые стратегии, например для шахмат, го;
  • автономное вождение.

В этом случае можно создать программу, которая учится играть в компьютерную игру. При этом получает очки за победу и штрафы за проигрыш.

Где используют машинное обучение

Машинное обучение используют в разных целях — от улучшения пользовательского опыта до автоматизации сложных процессов. Вот несколько примеров, где и как компании применяют машинное обучение.

Технологические компании

В Google используют машинное обучение, чтобы улучшать результаты поиска, предугадывать запросы пользователя и предоставлять наиболее релевантную информацию.

Google Photos автоматически распознает и классифицирует объекты на фотографиях.

В Google Translate используют нейронные сети для более точного перевода текстов.

В Facebook* алгоритмы машинного обучения анализируют поведение пользователей, чтобы показывать наиболее релевантный контент в ленте новостей. Еще соцсеть умеет автоматически распознавать людей на фотографиях с друзьями и предлагает теги.

Netflix анализирует просмотренные пользователем фильмы и сериалы, чтобы предложить новые, которые могут понравиться. Анализ данных о просмотрах помогает компании решать, какие шоу и фильмы производить или лицензировать.

«Программист» — одна из самых востребованных и высокооплачиваемых профессий. Получите новую профессию в Skypro и зарабатывайте от 50 000 ₽ с первых месяцев работы.

Электронная коммерция

В Amazon алгоритмы машинного обучения анализируют покупки и просмотры пользователя для рекомендаций товаров. Еще они прогнозируют спрос на товары для оптимизации запасов и логистики.

В Alibaba чат-боты на основе искусственного интеллекта обрабатывают запросы клиентов и так уменьшают нагрузку на службу поддержки. Еще с помощью машинного обучения в компании анализируют данные, чтобы выявлять и удалять поддельные товары.

Финансовый сектор

В JPMorgan Chase модели машинного обучения оценивают кредитоспособность клиентов и прогнозируют риски. Еще алгоритмы анализируют транзакции, чтобы находить подозрительные действия и предотвращать мошенничество.

В PayPal машинное обучение используют для анализа транзакций в реальном времени и выявления мошеннических операций.

Здравоохранение

В IBM Watson Health анализируют медицинские данные, чтобы помочь врачам в диагностике и выборе методов лечения. С помощью машинного обучения можно прогнозировать ответы на лечение на основе генетических данных пациента.

В Google Health используют алгоритмы для анализа рентгеновских снимков и других медицинских изображений. Они помогают выявлять заболевания.

Автомобильная промышленность

В Tesla разрабатывают автономные системы вождения с использованием глубокого обучения. Они распознают дорожные условия и принимают решения. Одновременно искусственный интеллект анализирует данные и помогает повышать эффективность и качество производства.

Маркетинг и реклама

Spotify анализирует предпочтения пользователей и на их основе создает индивидуальные музыкальные рекомендации и плейлисты. Артистам и лейблам искусственный интеллект помогает понимать аудиторию и ее предпочтения.

В Google Ads используют машинное обучение для показа рекламы наиболее подходящим пользователям. Это нужно, чтобы увеличить конверсию и доход.

Производство и логистика

В General Electric анализируют данные от промышленных сенсоров и на их основе предсказывают и предотвращают поломку оборудования. Благодаря автоматизации процессов растет эффективность производства.

В DHL машинное обучение прогнозирует спрос и оптимизирует маршруты доставки. В итоге уменьшаются затраты и время на маршруты.

Самое важное о машинном обучении

  • Машинное обучение — область искусственного интеллекта, где разрабатывают алгоритмы. Сначала их обучают, а потом модели и алгоритмы могут делать работу самостоятельно, без помощи человека. Это как когда человек учится чему-то новому.
  • Есть много разных алгоритмов. Какой использовать — зависит от цели и возможностей. Например, можно обучить модель разделять данные на группы на основе размеченных или неразмеченных входных данных. Для этого будут использовать разные виды машинного обучения — контролируемое или неконтролируемое.
  • Чтобы обучить модель, сначала нужно собрать много входных данных, обработать их, выбрать модель обучения, обучить ее и протестировать.
  • Сейчас машинное обучение используют во многих областях для анализа данных, предсказания спроса, улучшения логистики.

* Компания Meta запрещена на территории Российской Федерации

Добавить комментарий