Магическое число 31: почему оно используется в String.hashCode()

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Для кого эта статья:

Продвинутые Java-разработчики
Студенты и преподаватели курсов по программированию и структурам данных
Специалисты, интересующиеся оптимизацией производительности приложений
Загляните под капот Java, и вы обнаружите удивительный мир оптимизаций и математических решений, тщательно вплетенных в код стандартной библиотеки. Одна из таких "магических констант" — число 31, используемое в реализации hashCode() для класса String. Это непримечательное на первый взгляд значение стало краеугольным камнем эффективности Java-коллекций и влияет на быстродействие практически любого Java-приложения. Почему именно 31? Какие математические свойства делают его идеальным для хеширования строк? Давайте раскроем секреты, скрывающиеся за этим небольшим простым числом. 🧙‍♂️

Погружение в тонкости работы с хеш-функциями и коллекциями — ключевой навык продвинутого Java-разработчика. На курсе Java-разработки от Skypro вы не просто изучите синтаксис языка, но и освоите тонкую настройку производительности приложений. Наши преподаватели-практики раскроют нюансы внутреннего устройства Java, научат оптимизировать код и предотвращать типичные проблемы с производительностью хеш-таблиц. Знание этих деталей отличает обычного кодера от настоящего инженера.

Число 31 в реализации String.hashCode(): почему не 37?

Каждый Java-разработчик сталкивался с методом hashCode(), но немногие задумывались о том, что скрывается за его реализацией в классе String. Давайте заглянем в исходный код:

public int hashCode() {
int h = hash;
if (h == 0 && value.length > 0) {
char val[] = value;

for (int i = 0; i < value.length; i++) {
h = 31 * h + val[i];
}
hash = h;
}
return h;
}

Обратите внимание на строку h = 31 * h + val[i]. Именно здесь и скрывается "магическое" число 31. Это реализация полиномиальной хеш-функции, которая использует простое число в качестве множителя. 🔍

Но почему именно 31? Почему не 37 или другое простое число? Вопрос не праздный, и ответ кроется в тонком балансе между несколькими факторами:

Простота числа — 31 является простым числом, что снижает риск возникновения коллизий
Битовая оптимизация — 31 = 2^5 – 1, что позволяет JVM использовать битовый сдвиг для оптимизации
Эмпирическое превосходство — тесты показали, что 31 обеспечивает лучшее распределение хешей для реальных данных
Исторический выбор — Джошуа Блох, один из архитекторов Java Collections Framework, остановился на этом числе после тщательного анализа

А что насчет числа 37? Оно также является простым и теоретически могло бы использоваться. Однако тесты показали, что 31 обеспечивает лучший баланс между скоростью вычисления и равномерностью распределения хешей.

Александр Петров, архитектор высоконагруженных систем
Однажды наша команда столкнулась с проблемой производительности микросервиса, обрабатывающего около 1200 запросов в секунду. Профилирование показало, что узким местом стали операции с HashMap, в которых ключами были строки с высокой степенью сходства — URL-пути с одинаковым префиксом. Мы углубились в анализ хеш-функций и решили экспериментально сравнить различные множители вместо стандартного 31.
Заменив множитель на 37, мы получили незначительное улучшение распределения, но при этом выросла нагрузка на CPU примерно на 8%. Когда же мы вернулись к 31, но реализовали предварительную нормализацию ключей, удалив общие префиксы, производительность выросла на 23% без дополнительной нагрузки на процессор. Этот кейс наглядно показал, почему создатели Java выбрали именно 31 — это оптимальный баланс между качеством распределения хешей и вычислительной эффективностью.

Множитель	Преимущества	Недостатки	Применимость
31	Оптимизация через битовый сдвиг (31 * n = (n << 5) – n), простое число	Не идеально для всех типов строк	Универсальное использование
37	Чуть лучшее распределение для некоторых типов данных	Более медленное вычисление, нет оптимизации через битовый сдвиг	Специфические случаи с высокой важностью равномерности
17	Быстрее вычисление	Больше коллизий, хуже распределение	Высокопроизводительные системы с простыми строками
33	Очень быстрое вычисление (33 * n = (n << 5) + n)	Не простое число, больше коллизий	Случаи, где скорость критичнее равномерности распределения

Математический смысл простых чисел в хеш-функциях

Числа 31, 37, 41 и другие простые числа часто встречаются в реализациях хеш-функций. Это не случайно — математическая теория стоит за выбором простых чисел для этой цели. 🧮

Простое число — это натуральное число больше 1, которое не имеет делителей, кроме 1 и самого себя. Это свойство делает простые числа идеальными множителями в полиномиальных хеш-функциях по следующим причинам:

Минимизация коллизий — при умножении на простое число вероятность получения одинаковых хеш-кодов для разных входных данных снижается
Равномерное распределение — простые числа способствуют более равномерному распределению хешей по всему диапазону возможных значений
Свойство неприводимости — простые числа не могут быть представлены произведением других чисел, что уменьшает шанс "кластеризации" хешей

Полиномиальная хеш-функция строки, используемая в Java, выглядит математически так:

h = s[0]*31^(n-1) + s[1]*31^(n-2) + ... + s[n-1]

где s[i] — i-й символ строки, а n — длина строки.

Эта формула гарантирует, что каждый символ влияет на конечный хеш-код, а его позиция имеет значение благодаря возведению множителя в соответствующую степень.

Марина Соколова, преподаватель алгоритмов и структур данных
На втором курсе обучения программированию я столкнулась с непониманием студентами роли простых чисел в хешировании. Большинство просто заучивали, что "нужно использовать 31" без понимания, почему. Чтобы проиллюстрировать важность правильного выбора множителя, я подготовила практическое занятие.
Мы разделили группу на команды. Каждая команда реализовала хеш-функцию для строк с разными множителями: 1, 2, 10, 31 и составное число 32. Затем мы загрузили в хеш-таблицы большой словарь английских слов и проанализировали распределение коллизий.
Результаты шокировали студентов: при использовании множителя 1 практически все слова имели одинаковые хеши (сумма ASCII-кодов). При множителе 2 ситуация улучшилась незначительно. Множитель 10 давал много коллизий для слов, отличающихся порядком цифр. Множитель 32, несмотря на оптимизацию через битовый сдвиг, показал неравномерное распределение из-за своей составной природы. И только множитель 31 обеспечил наилучшее сочетание скорости и равномерности.
С тех пор я использую этот практический пример в начале каждого курса по структурам данных, и студенты не только запоминают множитель 31, но и понимают математическое обоснование этого выбора.

Интересно сравнить, как ведут себя разные множители при хешировании строк с различными характеристиками:

Тип строк	Множитель 31	Множитель 37	Множитель 33	Множитель 1
Английские слова	Хорошее распределение	Очень хорошее распределение	Среднее распределение	Ужасное распределение
Числа в виде строк	Хорошее распределение	Хорошее распределение	Сильные кластеры	Полное совпадение для чисел с одинаковыми цифрами
URL-адреса	Среднее распределение	Хорошее распределение	Среднее распределение	Высокая коллизионность
UUID строки	Очень хорошее распределение	Очень хорошее распределение	Хорошее распределение	Среднее распределение

Битовые операции и оптимизация производительности

Одно из ключевых преимуществ числа 31 в хеш-функции String — возможность оптимизации умножения через битовые операции. JVM может автоматически заменить умножение на 31 более эффективной операцией:

31 * n = (n << 5) – n

Здесь n << 5 означает битовый сдвиг числа n влево на 5 позиций, что эквивалентно умножению на 2^5 = 32. Затем из результата вычитается исходное число n, получая таким образом умножение на 31. 🔧

Эта оптимизация может показаться незначительной, но учитывая, что операция хеширования строк выполняется исключительно часто в большинстве Java-приложений (каждый вызов equals() и hashCode(), каждая операция с HashMap и HashSet), суммарный выигрыш в производительности становится весьма существенным.

Давайте сравним время выполнения различных операций умножения:

Прямое умножение: Стандартная операция умножения (a * b)
Умножение на 31 через сдвиг: (n << 5) – n
Умножение на 37: Нет простой битовой оптимизации
Умножение на 33: (n << 5) + n

Микробенчмарки показывают, что на современных процессорах умножение через битовый сдвиг может быть до 1.5-2 раз быстрее обычного умножения для определенных типов операндов.

Другая тонкая оптимизация в реализации String.hashCode() — это кеширование результата:

public int hashCode() {
int h = hash; // hash — поле класса String
if (h == 0 && value.length > 0) {
// вычисление хеш-кода
hash = h; // сохранение вычисленного значения
}
return h;
}

Благодаря этому хеш-код строки вычисляется только один раз, а при последующих вызовах метода hashCode() возвращается уже кешированное значение. Поскольку строки в Java неизменяемы, такой подход полностью безопасен и существенно повышает производительность.

Если задуматься, эта оптимизация особенно важна в контексте использования строк в качестве ключей в HashMap:

При добавлении элемента в HashMap вычисляется хеш-код ключа
При поиске элемента в HashMap снова вычисляется хеш-код ключа
При итерации по EntrySet хеш-код не требуется

Таким образом, без кеширования хеш-код строки пришлось бы вычислять заново при каждой операции доступа к данным в HashMap, что значительно снизило бы производительность приложений, интенсивно использующих строковые ключи. 📊

Влияние на распределение ключей в HashMap и HashSet

Равномерность распределения хеш-кодов строк напрямую влияет на производительность HashMap и HashSet. Напомним основной принцип работы хеш-таблицы в Java:

Для ключа вычисляется хеш-код (метод hashCode())
Хеш-код модифицируется для получения индекса в массиве бакетов (корзин)
В случае коллизии (когда разные ключи дают одинаковый индекс) используются связные списки или деревья для хранения нескольких элементов в одном бакете

Идеальная хеш-функция должна равномерно распределять ключи по бакетам, минимизируя число коллизий. Если большинство ключей попадает в один бакет, то временная сложность операций поиска, вставки и удаления деградирует с O(1) до O(n), где n — число элементов в бакете. ⚠️

Число 31 в hashCode() для строк играет критическую роль в обеспечении такого равномерного распределения. Рассмотрим, как разные типы строк распределяются в хеш-таблице:

Обычные слова — разнородные буквы дают хорошее распределение с множителем 31
Похожие строки — строки с одинаковыми префиксами (напр., URL-пути) могут давать схожие хеши
Перестановки — анаграммы (слова, состоящие из одних и тех же букв в разном порядке) дают разные хеши благодаря учету позиции символа

С Java 8 в HashMap внедрено дополнительное улучшение для борьбы с коллизиями: когда число элементов в одном бакете превышает определенный порог (TREEIFY_THRESHOLD = 8), связный список преобразуется в красно-черное дерево, что улучшает производительность поиска в худшем случае с O(n) до O(log n).

Однако это не отменяет важности хорошей хеш-функции. Превращение бакетов в деревья — это "план Б", который требует дополнительных ресурсов памяти и процессорного времени.

Давайте рассмотрим конкретный пример: предположим, у нас есть два типа строковых ключей:

// Тип A: UUID строки
"550e8400-e29b-41d4-a716-446655440000"
"67e55044-10b1-426f-9247-bb680e5fe0c8"
...

// Тип B: Пути URL с общим префиксом
"/api/v1/users/123"
"/api/v1/users/456"
...

Для ключей типа A хеш-функция с множителем 31 работает отлично, обеспечивая равномерное распределение. Для ключей типа B ситуация хуже: из-за длинного общего префикса хеши оказываются слишком похожими, что может привести к кластеризации в HashMap.

В таких случаях можно рассмотреть альтернативные стратегии:

Использовать более сложные хеш-функции для конкретного типа данных
Применять предварительную обработку ключей (например, инвертировать строку URL или использовать только различающуюся часть)
Использовать специализированные реализации Map, оптимизированные для конкретных паттернов доступа

Альтернативные подходы к хешированию строк в Java

Стандартная реализация hashCode() в классе String работает хорошо для большинства случаев, но существуют альтернативные подходы, которые могут быть более эффективны в определенных сценариях. 🔄

Рассмотрим несколько альтернативных стратегий хеширования строк:

FNV хеш-функция (Fowler–Noll–Vo) — популярная некриптографическая хеш-функция, разработанная для хеширования строк. Обеспечивает хорошее распределение и низкую вероятность коллизий.
Murmur хеш — семейство некриптографических хеш-функций, оптимизированных для скорости на короткие ключи и равномерного распределения.
Jenkins хеш — еще одна быстрая хеш-функция с хорошим распределением.
xxHash — современная высокопроизводительная хеш-функция, превосходящая многие другие по скорости.

Для примера, вот реализация FNV-1a хеш-функции для строк в Java:

public static int fnv1aHash(String data) {
final int prime = 0x01000193; //16777619
int hash = 0x811C9DC5; //2166136261

for (int i = 0; i < data.length(); i++) {
hash ^= data.charAt(i);
hash *= prime;
}

return hash;
}

В каких случаях стоит рассмотреть альтернативные хеш-функции?

Если у вас специфический паттерн строк, для которых стандартный hashCode() дает много коллизий
В высоконагруженных системах, где даже небольшое улучшение производительности имеет значение
Когда необходима детерминированная хеш-функция, которая дает одинаковые результаты на разных платформах и JVM
Для создания собственных хеш-таблиц с особыми характеристиками

Важно понимать, что замена стандартного hashCode() в пользовательских классах не повлияет на внутреннее поведение стандартной реализации String.hashCode(). Если вы переопределяете equals() для своего класса, вы должны соответственно переопределить hashCode(), но внутренняя реализация хеширования строк остается неизменной.

Для специфических сценариев можно создать собственную хеш-таблицу с кастомной хеш-функцией:

public class CustomHashMap<K, V> {
private Entry<K, V>[] buckets;
// ... другие поля

private int hash(K key) {
if (key instanceof String) {
return customStringHash((String) key);
}
return key.hashCode();
}

private int customStringHash(String str) {
// Реализация альтернативной хеш-функции для строк
// Например, FNV, Murmur или другой алгоритм
}

// ... остальные методы реализации HashMap
}

Сравнение различных хеш-функций для строк на основе ключевых характеристик:

Хеш-функция	Скорость	Распределение	Коллизии	Применимость
String.hashCode() (полином с 31)	Высокая	Хорошее	Низкие для обычных слов	Универсальное использование
FNV-1a	Высокая	Очень хорошее	Очень низкие	Общее назначение, большие таблицы
MurmurHash3	Очень высокая	Отличное	Минимальные	Высокопроизводительные системы
xxHash	Сверхвысокая	Отличное	Минимальные	Критичные к производительности системы
SipHash	Средняя	Хорошее	Защита от DoS-атак	Безопасность против атак на хеш-таблицы

Несмотря на существование более современных и в некоторых аспектах более эффективных хеш-функций, стандартная реализация String.hashCode() с множителем 31 остается отличным компромиссом между производительностью, качеством распределения и простотой реализации для большинства практических сценариев. 🚀

Путешествие в мир хеширования строк в Java раскрывает фундаментальный принцип языка: оптимальный баланс между теоретической элегантностью и практической эффективностью. Число 31 — не просто случайная константа, а результат глубокого инженерного анализа, подкрепленного математической теорией. Используя эти знания, мы можем создавать более эффективные реализации хеш-таблиц для специфических задач и лучше понимать, когда стандартных решений достаточно, а когда требуются альтернативные подходы. Помните, что в программировании даже небольшие детали, подобные выбору множителя в хеш-функции, могут иметь огромное влияние на производительность всей системы.