Как сделать неэффективное заполнение хэш-таблицы за O(n^2)?

Question

Добавление в хэш-таблицу в среднем занимает O(1), но в худшем случае O(n).

Можно ли сформировать такой массив, что добавление всех его элементов в хэш-таблицу будет работать за O(n²)?

Answer 1

Как уже сказали в комментариях, нужно просто сделать так, чтобы у объектов было разное значение, но одинаковый хэш-код, тогда хэш-таблица должна будет как-то решать коллизии, а для этого обычно нужно проходить по всем уже имеющимся в таблице элементам в поисках элемента совпадающего по значению (или чтобы убедиться в отсутствии такого элемента).

Проверим эту мысль кодом:

Берём класс с нормальным хэшем
Берём класс с вырожденным хэшем
Создаём по 1000 экземпляров каждого класса
Делаем из этих экземпляров множество (а это как-раз хэш-таблица)
Меряем время создания множества (для стабильности - усредняем за 100 прогонов)
Сравниваем

import timeit

class Test:
    
    def __init__(self, x):
        self.x = x
        
    def __hash__(self):
        return hash(self.x)
    
    def __eq__(self, other):
        if not isinstance(other, Test):
            return NotImplemented  # Or raise TypeError, depending on desired behavior
        return self.x == other.x
    
class TestDegenerate(Test):
    
    def __hash__(self):
        return 1

t1 = timeit.timeit('set(map(Test, range(1_000)))', number=100, globals=globals())
t2 = timeit.timeit('set(map(TestDegenerate, range(1_000)))', number=100, globals=globals())
print(t1, t2, t2/t1, sep='\n')

Вывод:

0.025643200031481683
6.845358700025827
266.9463519226113

Деградация произошла не совсем в n раз (n = 1000 в данном случае), но по порядку близко к тому. И это видимо правильно, потому что n² - это "оценка сверху". Ведь в хэш-таблице не сразу уже n элементов, они туда постепенно добавляются.

P.S. Добавил во второй класс вызов подсчёта хэша без его использования _ = hash(self.x), чтобы скорость подсчёта хэша обоих классов была схожая - результат чуть поменялся, но не сильно.

P.S. Fun fact: в Питоне hash натурального числа совпадает с самим числом вплоть до числа 2_305_843_009_213_693_950 (0x1ffffffffffffffe), после которого хэш опять начинается с 0.

Answer 2

Пример деградации хэш-таблицы в Питоне. Само по себе падение производительности не означает, что сложность стала квадратичной, но намекает.

$ time -p python -c 'set(i * 2 ** 61 for i in range(40000))'
real 0.01
user 0.01
sys 0.00

$ time -p python -c 'set(i * (2 ** 61 - 1) for i in range(40000))'
real 5.07
user 5.06
sys 0.00

Подробности

Хэш небольшого целого числа в Питоне совпадает с ним самим. Более того, можно установить что для неотрицательных чисел хэши вычисляются как величина числа по некоторому модулю. Функция hash_loop отыскивает этот модуль. На моей машине он равен 2⁶¹ - 1.

Если построить любую прогрессию неотрицательных целых чисел с шагом 2⁶¹ - 1, все числа в ней получат одинаковое значение хэша.

Функция main строит прогрессии увеличивающейся длины и вызывает построение множества от них. Печатается длина прогрессии и время, которое было потрачено на построение множества.

import time


def bsearch(low, high, pred):
    if low >= high or pred(low):
        return low
    while low < high - 1:
        mid = (low + high) // 2
        if pred(mid):
            high = mid
        else:
            low = mid
    return high


def hash_loop():
    n = 1
    while hash(n) == n:
        n *= 2
    return bsearch(n // 2, n, lambda n: hash(n) != n)


def elapsed(f):
    start = time.perf_counter()
    r = f()
    finish = time.perf_counter()
    return finish - start, r


def main():
    n = hash_loop()
    p = 1
    while True:
        for k in range(10 ** p, 10 ** (p + 1), 10 ** p):
            r = range(0, k * n, n)
            t, _ = elapsed(lambda: set(r))
            print(len(r), f'{t:.2f}')
        p += 1


main()

Запустите и дождитесь пока времена работы будут сравнимы с секундами. У меня получается такое:

$ python benchmark.py
...
10000 0.30
20000 1.42
30000 3.10
40000 5.69
50000 9.11
60000 13.73
70000 19.04
80000 27.44
90000 35.25
100000 42.29
....

Отношение времён для разных длин прогрессий:

отношение длин	отношение времён
100000 / 50000 = 2	42.29 / 9.11 = 4.64 > 4
80000 / 40000 = 2	27.44 / 5.69 = 4.82 > 4
90000 / 30000 = 3	35.25 / 3.10 = 11.37 > 9

Для всех отношений длин, отношения времён превышают квадрат.

Что и требовалось доказать.

График времён и парабола:

Answer 3

В современной Java сделать n² не получится. Но можно сделать n log n.

Если в одной корзине таблицы накапливается более восьми элементов, корзина из списка превращается в сортированное дерево (TREEIFY_THRESHOLD).
Для сортировки используется порядок на ключах, если он доступен (comparableClassFor).
А если порядка нет, ключи сортируются по адресам (tieBreakOrder).

Операции с сортированным деревом занимают log n. Если поместить все элементы в одну корзину, получим дополнительный логарифмический множитель в сложность.

По исходному коду Long.hashCode можно предсказать, что все числа типа long кратные 2³² + 1 буду иметь нулевой хэш.

Benchmark.java читает шаг из командной строки, печатает хэши для первых десяти шагов (нужно для проверки) и начинает измерять времена построения HashSet:

import java.util.Arrays;
import java.util.List;
import java.util.Set;
import java.util.HashSet;

class Benchmark {
    public static void main (String[] args) {
        long step = Long.valueOf(args[0]);
        for (int i = 0; i < 10; ++i) {
            System.out.print(" " + Long.valueOf(i * step).hashCode());
        }
        System.out.println();
        for (int t = 1; ; t *= 10) {
            for (int s = t; s < 10 * t; s += t) {
                System.out.format("%d %.3f\n", s, elapsed(step, s));
            }
        }
    }

    private static double elapsed(long step, int n) {
        Long[] a = new Long[n];
        for (int i = 0; i < n; ++i) {
            a[i] = i * step;
        }
        List<Long> aa = Arrays.asList(a);

        System.gc();

        long start = System.nanoTime();
        Set<Long> s = new HashSet<>(aa);
        long finish = System.nanoTime();
        return (finish - start) / 1e9;
    }
}

Я запускал её два раза, для шагов 4294967297 (все хэши нулевые) и 4294967296 (хэши – последовательные числа). Результат в таблице:

n	время для шага 2³² + 1	время для шага 2³²
1000000	0.164	0.008
2000000	0.363	0.017
3000000	0.541	0.051
4000000	0.762	0.066
5000000	0.918	0.068
6000000	1.175	0.074
7000000	1.375	0.100
8000000	1.520	0.093
9000000	1.908	0.108
10000000	2.003	0.116
20000000	4.206	0.300
30000000	6.255	0.434
40000000	8.452	0.543
50000000	10.632	0.640
60000000	13.031	0.792
70000000	15.014	0.884
80000000	17.437	1.016
90000000	19.635	1.143
100000000	21.854	1.325

На картинке синие точки (нулевой хэш) наложены на график n log n, а зелёные на линейный график. К сожалению, на таких масштабах прогиб, вызванный логарифмическим множителем почти не заметен.

Answer 4

C#, .Net

Внимательное разглядывание кода long.GetHashCode подсказывает что все числа типа long пропорциональные 2³² + 1 будут выдавать один и тот же нулевой хэш код. Попробуем использовать этот факт.

Код программы для измерения производительности HashSet:

using System;
using System.Diagnostics;

double elapsed(long step, int n) {
    long[] a = new long[n];
    for (int i = 0; i < n; ++i) {
        a[i] = i * step;
    }

    GC.Collect();
    Stopwatch sw = new Stopwatch();

    sw.Start();
    HashSet<long> s = new HashSet<long>(a);
    sw.Stop();
    return sw.Elapsed.TotalSeconds;
}

long step = Convert.ToInt64(Console.ReadLine());
for (int i = 0; i < 10; ++i) {
    Console.WriteLine($"{(step * i).GetHashCode()}");
}
Console.WriteLine();
for (int t = 1; ; t *= 10) {
    for (int s = t; s < 10 * t; s += t) {
        Console.WriteLine($"{s} {elapsed(step, s):F3}");
    }
}

Программа читает из консоли шаг и печатает хэши первых десяти целых чисел пропорциональных этому шагу. Это нужно для контроля постоянства хэшей.

Затем программа строит арифметические последовательности от нуля с этим шагом. Длина последовательностей увеличивается. Каждая последовательность записывается в массив. Время построения HashSet из этого массива измеряется и печатается в консоль.

Пример прогона:

echo 4294967297 | ./hashset-benchmark 
...
10000 0.187
20000 0.736
30000 1.651
40000 2.971
50000 4.648
60000 6.634
70000 9.350
80000 12.130
90000 14.954
100000 18.300
...

В таблице ниже сведены времена "плохого" шага и для "хорошего". Данные помеченные знаком ≈ экстраполировались (ждать десять миллионов секунд я не мог). Остальные измерялись точно на моём дорожном ноутбуке.

"Плохой" шаг приводит к квадратичному времени заполнения таблицы. С "хорошим" шагом время линейное.

n	время для шага 2³² + 1	время для шага 2³²
10000	0.187	0.000091
20000	0.736	0.000187
30000	1.651	0.000283
40000	2.971	0.000371
50000	4.648	0.000468
60000	6.634	0.000588
70000	9.350	0.000751
80000	12.130	0.000767
90000	14.954	0.000804
100000	18.300	0.000910
...
10000000	≈1.9·10⁵	0.091
20000000	≈7.4·10⁵	0.179
30000000	≈1.7·10⁶	0.272
40000000	≈3.0·10⁶	0.356
50000000	≈4.7·10⁶	0.443
60000000	≈6.6·10⁶	0.535
70000000	≈9.4·10⁶	0.624
80000000	≈1.2·10⁷	0.715
90000000	≈1.5·10⁷	0.841
100000000	≈1.8·10⁷	0.911

График времён и парабола для "плохого" шага:

БЛОГ НА HUSL

Как сделать неэффективное заполнение хэш-таблицы за O(n^2)?

Ответы (4 шт):

Подробности

C#, .Net