Big Data
Inżynieria przetwarzania dużych zbiorów danych
Big data
Grupa
Stacjonarne, wykładStacjonarne, ćwiczenia
gr. 31 (parz.)
Stacjonarne, ćwiczenia
gr. 32 (n. parz.)
Zaoczne
Wykład 12022-02-222022-02-27
Ćwiczenie 12022-03-012022-02-222022-02-27
Wykład 22022-03-08Książka
Ćwiczenie 22022-03-152022-03-082022-03-26
Wykład 32022-03-22Książka
Ćwiczenie 32022-03-292022-03-222022-03-26
Wykład 42022-04-05Książka
Ćwiczenie 42022-04-122022-04-052022-04-10
Wykład 5.12022-04-20Książka
Wykład 5.22022-04-20Książka
Ćwiczenie 52022-04-262022-04-202022-04-10
Wykład 62022-05-10Książka
Ćwiczenie 62022-05-172022-05-102022-05-28
Wykład 72022-05-31Książka
Ćwiczenie 72022-06-072022-05-312022-05-28



Zaliczenie przedmiotu

Informacje

W przypadku, gdy do doanego zagadnienia dostępny jest zarówno link prowadzący do materiałów na mojej stronie jak i link do książki, proszę korzystać z książki, gdyż materiały tam zawarte są najbardziej aktualne.


Oprócz materiału zrealizowanego na zajęciach, bardzo proszę o uzupełnienie w ramach pracy własnej następujących tematów: W razie pytań i wątpliwości pozostaję do Państwa dyspozycji.

Wykład

  1. Zajęcia 1 Dlaczego mówimy o inżynierii. Cleansing, transforming, and integrating data
    • Tematy
      • Dlaczego mówimy o inżynierii.
      • Próba określenia jak postrzegamy big data.
      • Czyszczenie, transformacja i integracja danych.
    • Materiały
      • Książka, rozdział Cleansing, transforming, and integrating data.
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Czym jest proces ETL.
      • Teoretyczne aspekty czyszczenia, transformacji i integracji danych.
  2. Zajęcia 2 Big Data concepts and terminology
    Wprowadzeine w tematykę, próba zdefiniowania i uchwycenia istoty - kiedy coś (nie) jest big data.
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Czym jest Big Data? Zdefiniuj to pojęcie.
      • Czym różnią się dane jakościowe od danych ilościowych? Podaj przykłady danych należących do każdego z typów.
      • Opisz związki jakie zachodzą pomiędzy danymi, informacją, wiedzą i mądrością. Czym się one różnią między sobą?
  3. Zajęcia 3 Big Data concepts and terminology
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Opisz czynniki charakteryzujące Big Data (volume, velocity, variety, veracity, value).
  4. Zajęcia 4 Big Data paradigm
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Wymień i opisz czynniki jakie należy brać pod uwagę w przypadku systemów Big Data.
      • O czym mówi prawo Amdahl'a? Scharakteryzuj skalowanie pionowe i poziome (vertical scaling, hor­izontal scaling).
  5. Zajęcia 5.1 Big Data paradigm
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Wymień i opisz czynniki jakie należy brać pod uwagę w przypadku systemów Big Data.
      • O czym mówi prawo Amdahl'a? Scharakteryzuj skalowanie pionowe i poziome (vertical scaling, hor­izontal scaling).
  6. Zajęcia 5.2 Storage concepts for Big Data
    • Materiały
      • Książka, rozdział Storage concepts for Big Data.
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Scharakteryzować dane ustrukturyzowane, nieustrukturyzowane i semistrukturalne.
      • Wyjaśnić pojęcia data warehouse, data lake, data mart.
  7. Zajęcia 6 Processing concepts for Big Data
  8. Zajęcia 7 Message queues
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Podaj możliwe uzasadnienia wyboru kolejki komunikatów jako elementu składowego większego systemu.
      • Wymień i opisz rolę poszczególnych elementów kolejki komunikatów.

Ćwiczenia

  1. Zajęcia 1 Cleansing, transforming, and integrating data
  2. Zajęcia 2 Cleansing, transforming, and integrating data - przykładowe rozwiązania
  3. Zajęcia 3 Cleansing, transforming, and integrating data - sortowanie w pliku
  4. Zajęcia 4 Przetwarzanie wielowątkowe/wielozadaniowe (ang. multithreading/multitasking)
    • Materiały
      • Kody źródłowe omawiane na zajęciach zostały przesłane Państwu mailem.
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Odróżniać proces od wątku.
      • Tworzyć elementarne programy wykorzystujące wielowątkowość/wieloprocesowość.
    • Kolejne zadanie:
  5. Zajęcia 5 Przykład prostego procesu ETL, część I
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Omówić przebiego procesu ETL i scharakteryzować jego poszczególne etapy.
      • Umieć rozwiązać proste zadanie ETL.
  6. Zajęcia 6 Przykład prostego procesu ETL, część II
    • Materiały
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Omówić przebiego procesu ETL i scharakteryzować jego poszczególne etapy.
      • Umieć rozwiązać proste zadanie ETL.
  7. Zajęcia 7 Przetwarzanie wielowątkowe/wielozadaniowe (ang. multithreading/multitasking) - przykładowe rozwiązania
    • Materiały
      • Kody źródłowe omawiane na zajęciach zostały przesłane Państwu mailem.
    • Co po tych zajęciach powinno się znać / wiedzieć / umieć
      • Znać specyfikę problemów które można rozwiązać za pomocą wielowątkowości i takich, których w ten sposób rozwiązać nie można.

Materiały