Skrócony opis
Przetwarzanie dużej ilości danych, zwykle niemieszczących się na pojedynczym komputerze stanowią wyzwanie dla analityków danych. Celem przedmiotu jest zaznajomienie studentów z przygotowaniem i przetwarzaniem tego typu danych. Na zajęciach przedstawione zostaną różne problemy praktyczne wraz ze sposobami ich rozwiązania. Celem wykładu jest możliwie szerokie przedstawienie samej problematyk przetwarzania dużych zbiorów danych jak i dostępnych narzędzi, które w tym celu mogą być użyte. Laboratorium poświęcone będzie nabyciu praktycznych umiejętności posługiwania się narzędziami wykorzystywanymi przy przetwarzaniu dużych zbiorów danych, np. pracy z jedną wybraną rodziną produktów (np. HBase, Hadoop oraz Spark).
Wymagania wstępne
Swobodne programowanie w języku Python. Znajomość podstaw budowy aplikacji webowych.
Efekty kształcenia
Po zakończonym kursie student:
- w zakresie WIEDZY
- w zakresie UMIEJĘTNOŚCI
- w zakresie KOMPETENCJI
- Potrafi samodzielnie kształcić się w oparciu o źródła krajowe, ale przede wszystkim zagraniczne.
- Potrafi kreatywnie rozwiązywać postawione zadania i napotkane problemy.
Treści kształcenia
Wykład
- Defnicja Big Data (model 5V).
- Związki pomiędzy danymi, informacją, wiedzą i mądrością.
- Analiza a analityka danych. Rodzaje anlityki danych.
- Zasada SVC (ang. Speed, Consistency and Volume (SCV) principle).
- Dane - pożądane własności.
- Pojęcia związane z przetwarzaniem dużych ilości danych.
- Sposoby składowania danych w systemach Big Data.
- Big Data w biznesie.
- Oczekiwane cechy systemu Big Data.
- Ad. 4. Rodzaje anlityki danych (opisowa, diagnozująca, przewidująca, nakazowa; ang.: descriptive, diagnostic, predictive , prescriptive).
- Ad. 5. Dane - pożądane własności (m.in. surowa postać, niezmienniczość oraz ciągła prawdziwość).
- Ad. 6. M.in. skalowanie systemu, przetwarzanie równoległe i rozproszone, klaster, metoda dziel i zwyciężaj, przetwarzanie wsadowe oraz w czasie rzeczywistym.
- Ad. 8. Dlaczego Big Data może być atrakcyjne dla firm? Co może im zaoferować? Jakie czynniki należy brać pod uwagę chcąc wykorzystać Big Data.
Ćwiczenia
Głowny cel: pokazać przykłady wykrzystania różnych narzędzi/oprogramowania aby móc stworzyć prosty spójny system przetwarzania danych. Ćwiczenia można na przykład przeprowadzić w oparciu o poniższe zestawy oprogramowania:
- Django, Anaconda, Pandas, CouchDB / Riak
- Ekosystem Apache Hadoop (w tym Apache Spark oraz Apache HBase)
Metody i kryteria oceniania
Na ocenę ogólną z zajęć składa się:
- ocena z wykładu (40%)
Zaliczenie w formie testu z pytaniami otwartymi i zamkniętymi.
- ocena z ćwiczeń (60%)
Na ocenę z ćwiczeń składa się:
-
- Przygotowanie projektu (lub projektów) według podanych wymagań.
Projekt sprawdza efekty kształcenia w zakresie wiedzy, umiejętności i kompetencji (efekty: xxx)
Literatura podstawowa
Literatura uzupełniająca
- W języku polskim
- Nathan Marz, James Warren, Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym, Helion
- W języku angielskm
- Nathan Marz, James Warren, Big Data. Principles and best practices of scalable realtime data systems, Manning Publications, April 2015
- By Thomas Erl, Wajid Khattak, Paul Buhler, Big Data Fundamentals: Concepts, Drivers & Techniques, Part of the The Prentice Hall Service Technology Series from Thomas Erl series, Published Jan 5, 2016 by Prentice Hall.