Big Data
Inżynieria przetwarzania dużych zbiorów danych
Big data
TematGrupa
Stacjonarne,
wykład
Stacjonarne,
ćwiczenia
gr. 31 (n. parz.)
Stacjonarne,
ćwiczenia
gr. 32 (parz.)
Zaoczne
Wykład 1ETL2023-03-032023-02-25
Ćwiczenie 1(E)TL2023-02-242023-03-032023-02-25
Wykład 2Big Data2023-03-172023-03-25
Ćwiczenie 2(E)TLPraca samodzielnaPraca samodzielnaPraca samodzielna
Wykład 3Processing concepts2023-03-312023-04-01
Ćwiczenie 3Sort in files2023-03-242023-03-312023-03-25
Wykład 4Processing concepts2023-04-212023-05-07
Ćwiczenie 4Multiprocessing2023-04-142023-04-212023-04-01
Wykład 5Message queues2023-05-05Praca samodzielna
Ćwiczenie 5Multiprocessing2023-04-282023-05-052023-05-07
Wykład 6Storage concepts for Big Data2023-05-19Praca samodzielna
Ćwiczenie 6Przykład prostego procesu ETL2023-05-262023-05-19



Wykład

  1. Wykład 1 Dlaczego mówimy o inżynierii. Cleansing, transforming, and integrating data
    • Tematy
      • Dlaczego mówimy o inżynierii.
      • Próba określenia jak postrzegamy big data.
      • Czyszczenie, transformacja i integracja danych.
    • Materiały
      • Książka, rozdział Cleansing, transforming, and integrating data.
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Czym jest proces ETL.
      • Teoretyczne aspekty czyszczenia, transformacji i integracji danych.
  2. Wykład 2 Big Data concepts and terminology
    Wprowadzenie w tematykę, próba zdefiniowania i uchwycenia istoty - kiedy coś (nie) jest big data.
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Czym jest Big Data? Zdefiniuj to pojęcie.
      • Czym różnią się dane jakościowe od danych ilościowych? Podaj przykłady danych należących do każdego z typów.
      • Opisz związki jakie zachodzą pomiędzy danymi, informacją, wiedzą i mądrością. Czym się one różnią między sobą?
      • Opisz czynniki charakteryzujące Big Data (volume, velocity, variety, veracity, value).
  3. Wykład 3 Processing concepts for Big Data
  4. Wykład 4 Processing concepts for Big Data
    • Materiały
    • Materiały uzupełniające
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • W jaki sposób możemy rozumieć określenie przetwarzania w czasie rzeczywistym (realtime).
      • Czym różni się przetwarzanie wsadowe (batch) od przetwarzania w czasie rzeczywistym (realtime)?
      • Porównaj ze sobą divide and conquere i mapreduce.
  5. Wykład 5 Message queues
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Podaj możliwe uzasadnienia wyboru kolejki komunikatów jako elementu składowego większego systemu.
      • Wymień i opisz rolę poszczególnych elementów kolejki komunikatów.
  6. Wykład 6 Storage concepts for Big Data
    • Materiały
      • Książka, rozdział Storage concepts for Big Data
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Scharakteryzować dane ustrukturyzowane, nieustrukturyzowane i semistrukturalne.
      • Wyjaśnić pojęcia data warehouse, data lake, data mart.

Ćwiczenia

  1. Zajęcia 1 Cleansing, transforming, and integrating data
  2. Zajęcia 2 Cleansing, transforming, and integrating data (kontynuacja, przykładowe postępowania)
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Przykładowe postępowanie z danymi na etapie ich czyszczenia, transformacji i łączenia
  3. Zajęcia 3 Cleansing, transforming, and integrating data (algorytmy plikowe na podstawie sortowania w pliku)
    • Materiały
      • ...
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Przykładowe postępowanie z danymi na etapie ich czyszczenia, transformacji i łączenia
  4. Zajęcia 4 Przetwarzanie wielowątkowe/wielozadaniowe (ang. multithreading/multitasking)
    • Materiały
      • ...
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Odróżniać proces od wątku.
      • Tworzyć elementarne programy wykorzystujące wielowątkowość/wieloprocesowość.
  5. Zajęcia 5 Przetwarzanie wielowątkowe/wielozadaniowe (ang. multithreading/multitasking)
    • Materiały
      • ...
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Odróżniać proces od wątku.
      • Tworzyć elementarne programy wykorzystujące wielowątkowość/wieloprocesowość.
    • Zadanie:
  6. Zajęcia 6 Przykład prostego procesu ETL
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Omówić przebiego procesu ETL i scharakteryzować jego poszczególne etapy.
      • Umieć rozwiązać proste zadanie ETL.

Materiały