Чем отличаются JOIN и subquery в PostgreSQL?

Question

PurpleSchool · Accepted Answer

JOIN объединяет строки из нескольких таблиц по условию и возвращает плоский результат, тогда как subquery — это вложенный запрос, результат которого используется во внешнем запросе как таблица, скалярное значение или список для фильтрации.

## JOIN и Subquery: ключевые различия

**JOIN** — операция соединения двух или более таблиц по условию. Результирующий набор содержит столбцы из всех соединённых таблиц. JOIN выполняется на уровне плана запроса и, как правило, позволяет оптимизатору PostgreSQL выбирать наиболее эффективный алгоритм: Nested Loop, Hash Join или Merge Join.

**Subquery** (подзапрос) — запрос, вложенный внутрь другого запроса. Подзапросы бывают трёх видов:
- **Скалярные** — возвращают одно значение.
- **Строчные / табличные** — возвращают набор строк и используются в `FROM` (производные таблицы) или `IN`/`EXISTS`.
- **Коррелированные** — ссылаются на столбцы внешнего запроса и выполняются заново для каждой строки внешнего запроса.

## Производительность

PostgreSQL умеет автоматически «разворачивать» многие подзапросы в JOIN (процесс называется **subquery unnesting**). Это означает, что разница в производительности часто нивелируется на уровне планировщика. Тем не менее:

- Коррелированный подзапрос в `SELECT` или `WHERE` выполняется **N раз** (по одному разу на строку), что может стать узким местом при большом наборе данных.
- `JOIN` позволяет оптимизатору выбирать алгоритм соединения и использовать индексы эффективнее.
- Подзапрос в `FROM` (CTE или производная таблица) **материализуется** и выполняется один раз, что иногда выгоднее.

## Когда использовать JOIN

- Нужны столбцы из нескольких таблиц в одном результате.
- Соединение идёт по индексированным столбцам — оптимизатор выберет Hash Join или Merge Join.
- Логика соединения прямолинейна и не требует агрегации перед фильтрацией.

## Когда использовать Subquery

- Нужно отфильтровать строки по агрегированному значению (`WHERE salary > (SELECT AVG(salary) FROM employees)`).
- Требуется проверка существования (`EXISTS`) — часто быстрее `IN` на больших выборках.
- Логика запроса читается чище с подзапросом, чем с серией JOIN.
- CTE (`WITH`) нужен для повторного использования промежуточного результата.

## Практический совет

Всегда проверяйте план выполнения через `EXPLAIN ANALYZE`. Планировщик PostgreSQL достаточно умён, чтобы переписать подзапрос в JOIN, но не всегда. Коррелированные подзапросы — первые кандидаты на переписывание в JOIN при проблемах с производительностью.

Что ожидает интервьюер: Кандидат объясняет семантическое различие: JOIN — горизонтальное объединение таблиц, subquery — вложенная логика фильтрации или вычисления,Упоминает виды подзапросов: скалярный, табличный (производная таблица), коррелированный,Понимает разницу в производительности: коррелированный subquery может выполняться N раз, JOIN планируется единожды,Знает, что PostgreSQL может автоматически трансформировать некоторые subquery в JOIN (subquery unnesting),Умеет читать EXPLAIN ANALYZE и принимать решение на основе реального плана запроса

Типичные ошибки: Считают, что JOIN всегда быстрее subquery — без учёта того, что планировщик PostgreSQL нередко превращает их в одно и то же,Путают коррелированный и некоррелированный подзапросы, не понимая, что первый выполняется многократно,Используют IN (SELECT ...) там, где EXISTS будет быстрее из-за оценки наличия, а не построения полного набора,Забывают, что CTE в PostgreSQL до версии 12 всегда материализовался — это могло ухудшать, а не улучшать производительность,Не проверяют реальный план через EXPLAIN ANALYZE, полагаясь только на интуицию

Чем отличаются JOIN и subquery в PostgreSQL?

JOIN и Subquery: ключевые различия

Производительность

Когда использовать JOIN

Когда использовать Subquery

Практический совет

Что хочет услышать интервьюер

Пример: JOIN — получить заказы с данными о клиентах

Пример: Subquery — фильтрация по агрегату

Пример: EXISTS vs IN — поиск клиентов с хотя бы одним заказом

Пример: EXPLAIN ANALYZE — сравнение планов

Типичные ошибки

Лучшие курсы по теме

Docker и Ansible

Node.js с нуля

Nest.js с нуля