Strona domowa (i nie tylko) Piotra Fulmańskiego

Big Data

Inżynieria przetwarzania dużych zbiorów danych

Skrócony opis

Przetwarzanie dużej ilości danych, zwykle niemieszczących się na pojedynczym komputerze stanowią wyzwanie dla analityków danych. Celem przedmiotu jest zaznajomienie studentów z przygotowaniem i przetwarzaniem tego typu danych. Na zajęciach przedstawione zostaną różne problemy praktyczne wraz ze sposobami ich rozwiązania. Celem wykładu jest możliwie szerokie przedstawienie samej problematyk przetwarzania dużych zbiorów danych jak i dostępnych narzędzi, które w tym celu mogą być użyte. Laboratorium poświęcone będzie nabyciu praktycznych umiejętności posługiwania się narzędziami wykorzystywanymi przy przetwarzaniu dużych zbiorów danych, np. pracy z jedną wybraną rodziną produktów (np. HBase, Hadoop oraz Spark).

Wymagania wstępne

Swobodne programowanie w języku Python. Znajomość podstaw budowy aplikacji webowych.

Efekty kształcenia

Po zakończonym kursie student:

w zakresie WIEDZY
w zakresie UMIEJĘTNOŚCI
w zakresie KOMPETENCJI
1. Potrafi samodzielnie kształcić się w oparciu o źródła krajowe, ale przede wszystkim zagraniczne.
2. Potrafi kreatywnie rozwiązywać postawione zadania i napotkane problemy.

Treści kształcenia

Wykład

Defnicja Big Data (model 5V).
Związki pomiędzy danymi, informacją, wiedzą i mądrością.
Analiza a analityka danych. Rodzaje anlityki danych.
Zasada SVC (ang. Speed, Consistency and Volume (SCV) principle).
Dane - pożądane własności.
Pojęcia związane z przetwarzaniem dużych ilości danych.
Sposoby składowania danych w systemach Big Data.
Big Data w biznesie.
Oczekiwane cechy systemu Big Data.

Ad. 4. Rodzaje anlityki danych (opisowa, diagnozująca, przewidująca, nakazowa; ang.: descriptive, diagnostic, predictive , prescriptive).
Ad. 5. Dane - pożądane własności (m.in. surowa postać, niezmienniczość oraz ciągła prawdziwość).
Ad. 6. M.in. skalowanie systemu, przetwarzanie równoległe i rozproszone, klaster, metoda dziel i zwyciężaj, przetwarzanie wsadowe oraz w czasie rzeczywistym.
Ad. 8. Dlaczego Big Data może być atrakcyjne dla firm? Co może im zaoferować? Jakie czynniki należy brać pod uwagę chcąc wykorzystać Big Data.

Ćwiczenia

Głowny cel: pokazać przykłady wykrzystania różnych narzędzi/oprogramowania aby móc stworzyć prosty spójny system przetwarzania danych. Ćwiczenia można na przykład przeprowadzić w oparciu o poniższe zestawy oprogramowania:

Django, Anaconda, Pandas, CouchDB / Riak
Ekosystem Apache Hadoop (w tym Apache Spark oraz Apache HBase)

Metody i kryteria oceniania

Na ocenę ogólną z zajęć składa się:

ocena z wykładu (40%)

Zaliczenie w formie testu z pytaniami otwartymi i zamkniętymi.
ocena z ćwiczeń (60%)

Na ocenę z ćwiczeń składa się:
- 1. Przygotowanie projektu (lub projektów) według podanych wymagań.

Projekt sprawdza efekty kształcenia w zakresie wiedzy, umiejętności i kompetencji (efekty: xxx)

Literatura podstawowa

Literatura uzupełniająca

W języku polskim
- Nathan Marz, James Warren, Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym, Helion
W języku angielskm
- Nathan Marz, James Warren, Big Data. Principles and best practices of scalable realtime data systems, Manning Publications, April 2015
- By Thomas Erl, Wajid Khattak, Paul Buhler, Big Data Fundamentals: Concepts, Drivers & Techniques, Part of the The Prentice Hall Service Technology Series from Thomas Erl series, Published Jan 5, 2016 by Prentice Hall.