Big Data
Inżynieria przetwarzania dużych zbiorów danych

Dane

Dane należy wygenerować skryptem process.py
Szacowany czas działania skryptu generującego i wielkość otrzymanego pliku.
Execution time (learn):  65.45427698337161 s
62 524 848 big_data_task_02.dat
Modyfikując parametry skryptu można otrzymać mniejsze zbiory, co na etapie poszukiwania ostatecznej wersji rozwiązania zadania jest dobrym rozwiązaniem. Pamiętać jednak należy, że podczas sprawdzania projektu zbiory te będą co najmniej takiej właśnie wielkości (najprawdopodobniej kilka razy większe).

Opis

Skrypt generuje listę słów, gdzie słowo jest dowolnym ciągiem znaków
characters = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYX"
o długości od 3 do 20 znaków. Słowa rozdzielone są znakiem przecinka i wszystkie znajdują się w jednym wierszu. Należy podać listę 20 najczęściej wystepujących i 20 najrzadziej wystepujących słów. Należy koniecznie zapewnić aby Państwa program działał na dużych plikach testowych, tj. nie mniejszych niż 2GiB.