Big Data
Inżynieria przetwarzania dużych zbiorów danych

Dane

Dane należy wygenerować skryptem process.py
Szacowany czas działania skryptu generującego i wielkość otrzymanego pliku.
Execution time (learn):  1548.5717107104495 s
1 862 579 471 big_data_task_03.dat
      184 802 big_data_task_03_test.dat
Modyfikując parametry skryptu można otrzymać mniejsze zbiory, co na etapie poszukiwania ostatecznej wersji rozwiązania zadania jest dobrym rozwiązaniem. Pamiętać jednak należy, że podczas sprawdzania projektu zbiory te będą co najmniej takiej właśnie wielkości (najprawdopodobniej kilka razy większe).

Opis

Skrypt generuje dwa pliki o takim samym typie zawartości, ale różnej wielkości: plik główny (PG) i plik testowy (PT). Opis zawartości:
Dla każdej danej z PT należy odszukać 20 najlepiej dopasowanych danych z PG. Miarą dopasowania jest ilość takich samych liczb występujących w dwóch różnych danych. Na przykład
dana z PG

1, 2, 3, 1, 2, 3, 1, 2, 1, 4

dana z PT

1, 2, 4, 5, 6

dopasowanie: 3 (w obu danych wytępują liczby 1, 2 i 4).
Należy koniecznie zapewnić aby Państwa program działał na dużych plikach PG, tj. nie mniejszych niż 2GiB i jenocześnie plikach PT zawierających nie mniej niz 10000 wierszy (danych).