Выборка уникальных записей по одному полю в SQL

#DISTINCT

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Быстрый ответ

Для того чтобы уничтожить дублирующиеся данные в SQL в одном поле, можно применить оконные функции, такие как ROW_NUMBER(). Подобный подход является универсальным для различных СУБД:

SQL

Скопировать код

SELECT *
FROM (
  SELECT *, ROW_NUMBER() OVER (PARTITION BY name ORDER BY id) as rn
  FROM users
) as UniqueUsers
WHERE rn = 1;

Этот запрос группирует данные по полю name, и внутри групп присваивает id для обеспечения последовательности данных, а затем оставляет только первую запись в каждой группе, исключая таким образом дубликаты по полю name.

Агрегатные функции: отбор уникальности

Если в вашей таблице имеются многократно повторяющиеся строки по каждому уникальному идентификатору, то применение GROUP BY в сочетании с агрегатными функциями позволит сформировать коллекцию уникальных строк:

SQL

Скопировать код

SELECT MIN(id) AS id, name  -- здесь мы отбираем "участника с минимальным id" в группе
FROM users
GROUP BY name;  -- группируем по имени, как собрание героев!

Оператор MIN(id) выберет самый ранний id для каждого уникального name, а агрегатные функции применяются к полям, которые не интересуют нас при группировке, чтобы избежать случайных результатов.

DISTINCT: просто и эффективно, но не без подводных камней

Ключевое слово DISTINCT позволяет выбрать уникальные значения полей, однако не всегда подходит для получения полностью уникальных строк:

SQL

Скопировать код

SELECT DISTINCT name, OTHER_FIELD  -- аналогично заказу комплексного меню с ожиданием уникальных сочетаний
FROM users;

Здесь DISTINCT обеспечивает уникальность всего набора выбранных полей. Если OTHER_FIELD имеет разные значения при одном и том же name, в результате будут представлены все эти варианты.

Достоинства подзапросов в сочетании с CASE

Когда необходимо удалить повторы, уместными становятся подзапросы:

SQL

Скопировать код

SELECT *
FROM users u1
WHERE id = (
    SELECT MIN(u2.id) -- здесь "минимальный" id попадет в базовую таблицу
    FROM users u2
    WHERE u2.name = u1.name
);

Вдобавок можем аккуратно вложить CASE в подзапрос, чтобы отметить повторы и убрать их из итоговых данных.

Визуализация

Представьте стойку с ключами: 🔑🗝️🔑🗝️🔑

Каждый ключ символизирует строку, а форма его зубчатой части – это уникальное поле.

Нам нужно подобрать уникальные формы ключей, чтобы открыть только одну дверь для каждой формы:

SQL

Скопировать код

SELECT DISTINCT ON (key_shape) * FROM KeyRack;

В итоге мы получаем набор уникальных ключей: 🔑🗝️ Теперь у нас есть всего по одному ключу на каждую форму, несмотря на наличие дубликатов.

Необходимость простоты, эффективность выбора

Убирая лишние данные, мы не только уточняем информацию, но и обеспечиваем эффективное выполнение запросов. Функция ROW_NUMBER() совместно с PARTITION BY может стать вашим надёжным инструментом:

SQL

Скопировать код

SELECT id, name
FROM (
  SELECT id, name, ROW_NUMBER() OVER (PARTITION BY name) as rn  -- присваиваем номера строкам, чтобы не запутаться
  FROM users
) as RankedUsers
WHERE rn = 1; -- только первые записи попадут в результат

При присвоении номера каждой записи и выборе только первого экземпляра можем гарантировать уникальность поля name.

Подход с использованием EXIST: ведь дубликаты, на самом деле, не существуют, верно?

Применение конструкции EXISTS помогает отсеить уникальные записи:

SQL

Скопировать код

SELECT *
FROM users u1
WHERE EXISTS (  -- если запись существует, она важна для нас
    SELECT 1
    FROM users u2
    WHERE u1.name = u2.name
    GROUP BY u2.name
    HAVING COUNT(*) = 1 -- так как уникальность наш приоритет!
);

Запрос вернёт только те строки, где в базе данных для поля name присутствует единственное значение, гарантируя таким образом его уникальность.

Ритм и дистанция: как бороться с последовательными дубликатами

Если строки, следующие одна за другой, содержат повторы, могут помочь функции LAG или LEAD:

SQL

Скопировать код

SELECT id, name
FROM (
  SELECT id, name, LAG(name) OVER (ORDER BY id) AS prev_name  -- отслеживаем предыдущее значение
  FROM users
) AS RaceTrack
WHERE name <> prev_name OR prev_name IS NULL;  -- выбираем только уникальные записи

Полезные материалы

SQL: Удаление дубликатов – Обсуждение на Stack Overflow — методы удаления дублированных строк в SQL.
SQL DISTINCT Command – Tutorial по избавлению от дубликатов — применение DISTINCT для исключения дубликатов в запросах SQL.
Нормализация баз данных – Предотвращение дублирования данных — наглядное объяснение процесса нормализации баз данных с целью предотвращения дублирования данных.
Использование OVER() и PARTITION BY в SQL — детальное описание удаления дубликатов с помощью функций OVER() и PARTITION BY.
Примеры применения Общих табличных выражений (CTE) — преимущества и примеры использования CTE для управления дубликатами и сложными запросами.

Проверь как ты усвоил материалы статьи

Пройди тест и узнай насколько ты лучше других читателей

Какой SQL-запрос используется для удаления дубликатов по полю 'name'?

1 / 5

Денис Сурков

архитектор данных

Свежие материалы

Установка Swift на macOS: Пошаговое руководство

6 сентября 2024

Вопросы по SQL на собеседовании для тестировщиков

6 сентября 2024

Порты HTTP и HTTPS: что нужно знать?

6 сентября 2024

Выборка уникальных записей по одному полю в SQL

Быстрый ответ

Агрегатные функции: отбор уникальности

DISTINCT: просто и эффективно, но не без подводных камней

Достоинства подзапросов в сочетании с CASE

Визуализация

Необходимость простоты, эффективность выбора

Подход с использованием EXIST: ведь дубликаты, на самом деле, не существуют, верно?

Ритм и дистанция: как бороться с последовательными дубликатами

Полезные материалы

Загрузка...