Big Data
Inżynieria przetwarzania dużych zbiorów danych
Big data

Projekty na zaliczenie

Lista projektów na zaliczenie ćwiczeń.
Lista tematów na zaliczenie wykładu.

Wykład

  1. Zajęcia 1 Big Data concepts and terminology
    • Materials
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Czym jest Big Data? Zdefiniuj to pojęcie.
      • Opisz czynniki charakteryzujące Big Data (volume, velocity, variety, veracity, value).
      • Czym różnią się dane jakościowe od danych ilościowych? Podaj przykłady danych należących do każdego z typów.
      • Opisz związki jakie zachodzą pomiędzy danymi, informacją, wiedzą i mądrością. Czym się one różnią między sobą?
      • Czym różni się analiza danych od analityki danych? Wymień rodzaje analityki danych (descriptive, diagnostic, predictive , prescriptive).
  2. Zajęcia 2 Message queues
    • Materials
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Podaj możliwe uzasadnienia wyboru kolejki komunikatów jako elementu składowego większego systemu.
      • Wymień i opisz rolę poszczególnych elementów kolejki komunikatów.
      • Podaj przykłady użycia kolejki komunikatów.
      • Wymień i scharakterysuj najbardziej znane protokoły wykorzystywane przez kolejki komunikatów.
  3. Zajęcia 3 Big Data paradigm
    • Materials
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • O czym mówi prawo Amdahl'a? Scharakteryzuj skalowanie pionowe i poziome (vertical scaling, hor­izontal scaling).
      • Wymień i opisz czynniki jakie należy brać pod uwagę w przypadku systemów Big Data.
  4. Zajęcia 4 Processing concepts for Big Data
    • Materials
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Wyjaśnij pojęcia: przetwarzanie równoległe, przetwarzanie rozproszone, klaster, grid, chmura, metoda dziel i zwyciężaj. Jaki widzisz związek pomiędzy tymi pojęciami?
      • W jaki sposób możemy rozumieć określenie przetwarzania w czasie rzeczywistym (realtime).
      • Czym różni się przetwarzanie wsadowe (batch) od przetwarzania w czasie rzeczywistym (realtime)?
      • Porównaj ze sobą divide and conquere i mapreduce.
      • Opisz czego dotyczy zasada SVC (Speed, Consistency and Volume (SCV) principle).
  5. Zajęcia 5 Do we really need Big Data? oraz Big Data adoption issues and considerations
  6. Zajęcia 6 Data model for Big Data

Ćwiczenia

  1. Zajęcia 1 Czyszczenie danych (data cleaning)
  2. Zajęcia 2 Czyszczenie danych (data cleaning) - przykładowe rozwiązania
    • Materials
      • Materiały zostały udostępnine za pomocą poczty elektronicznej lub w trakcie zajęć.
    • Zbiory danych do zadania
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
  3. Zajęcia 3 Wyrażenia regularne (ang. regular expressions)
    • Materials
    • Zbiory danych do zadania
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Jak użyć wyrażeń regularnych.
      • Kiedy (nie)warto używać wyrażeń regularnych.
  4. Zajęcia 4 Przetwarzanie wielowątkowe/wielozadaniowe (ang. multithreading/multitasking)
    • Materials
    • Zbiory danych do zadania: files.tgz (200000 pustych plików)
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
  5. Zajęcia 5 Basics of messaging with RabbitMQ
    • Materials
      • Install - instalacja RabbitMQ
      • Basic examples - proste przykłady pokazujące sposoby użycia
      • Należy rozwiązać zadanie identyczne jak z poprzednich ćwiczeń, ale wykorzystując kolejkę komunikatów
    • Zbiory danych do zadania: files.tgz (200000 pustych plików)
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć

Materiały