| Grupa |
Stacjonarne, wykład | Stacjonarne, ćwiczenia gr. 31 (parz.) | Stacjonarne, ćwiczenia gr. 32 (n. parz.) | Zaoczne |
Wykład 1 | 2022-02-22 | | | 2022-02-27 |
Ćwiczenie 1 | | 2022-03-01 | 2022-02-22 | 2022-02-27 |
Wykład 2 | 2022-03-08 | | | Książka |
Ćwiczenie 2 | | 2022-03-15 | 2022-03-08 | 2022-03-26 |
Wykład 3 | 2022-03-22 | | | Książka |
Ćwiczenie 3 | | 2022-03-29 | 2022-03-22 | 2022-03-26 |
Wykład 4 | 2022-04-05 | | | Książka |
Ćwiczenie 4 | | 2022-04-12 | 2022-04-05 | 2022-04-10 |
Wykład 5.1 | 2022-04-20 | | | Książka |
Wykład 5.2 | 2022-04-20 | | | Książka |
Ćwiczenie 5 | | 2022-04-26 | 2022-04-20 | 2022-04-10 |
Wykład 6 | 2022-05-10 | | | Książka |
Ćwiczenie 6 | | 2022-05-17 | 2022-05-10 | 2022-05-28 |
Wykład 7 | 2022-05-31 | | | Książka |
Ćwiczenie 7 | | 2022-06-07 | 2022-05-31 | 2022-05-28 |
Zaliczenie przedmiotu
Informacje
W przypadku, gdy do doanego zagadnienia dostępny jest zarówno link prowadzący do materiałów na mojej stronie jak i link do
książki, proszę korzystać z książki, gdyż materiały tam zawarte są najbardziej aktualne.
Oprócz materiału zrealizowanego na zajęciach, bardzo proszę o uzupełnienie w ramach pracy własnej następujących tematów:
W razie pytań i wątpliwości pozostaję do Państwa dyspozycji.
Wykład
- Zajęcia 1 Dlaczego mówimy o inżynierii. Cleansing, transforming, and integrating data
- Tematy
- Dlaczego mówimy o inżynierii.
- Próba określenia jak postrzegamy big data.
- Czyszczenie, transformacja i integracja danych.
- Materiały
- Książka, rozdział Cleansing, transforming, and integrating data.
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Czym jest proces ETL.
- Teoretyczne aspekty czyszczenia, transformacji i integracji danych.
- Zajęcia 2 Big Data concepts and terminology
Wprowadzeine w tematykę, próba zdefiniowania i uchwycenia istoty - kiedy coś (nie) jest big data.
- Materiały
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Czym jest Big Data? Zdefiniuj to pojęcie.
- Czym różnią się dane jakościowe od danych ilościowych? Podaj przykłady danych należących do każdego z typów.
- Opisz związki jakie zachodzą pomiędzy danymi, informacją, wiedzą i mądrością. Czym się one różnią między sobą?
- Zajęcia 3 Big Data concepts and terminology
- Materiały
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Opisz czynniki charakteryzujące Big Data (volume, velocity, variety, veracity, value).
- Zajęcia 4 Big Data paradigm
- Materiały
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Wymień i opisz czynniki jakie należy brać pod uwagę w przypadku systemów Big Data.
- O czym mówi prawo Amdahl'a? Scharakteryzuj skalowanie pionowe i poziome (vertical scaling, horizontal scaling).
- Zajęcia 5.1 Big Data paradigm
- Materiały
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Wymień i opisz czynniki jakie należy brać pod uwagę w przypadku systemów Big Data.
- O czym mówi prawo Amdahl'a? Scharakteryzuj skalowanie pionowe i poziome (vertical scaling, horizontal scaling).
- Zajęcia 5.2 Storage concepts for Big Data
- Materiały
- Książka, rozdział Storage concepts for Big Data.
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Scharakteryzować dane ustrukturyzowane, nieustrukturyzowane i semistrukturalne.
- Wyjaśnić pojęcia data warehouse, data lake, data mart.
- Zajęcia 6 Processing concepts for Big Data
- Materiały
- Materiały uzupełniające
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Wyjaśnij pojęcia: przetwarzanie równoległe, przetwarzanie rozproszone, klaster, grid, chmura, metoda dziel i zwyciężaj. Jaki widzisz związek pomiędzy tymi pojęciami?
- W jaki sposób możemy rozumieć określenie przetwarzania w czasie rzeczywistym (realtime).
- Czym różni się przetwarzanie wsadowe (batch) od przetwarzania w czasie rzeczywistym (realtime)?
- Porównaj ze sobą divide and conquere i mapreduce.
- Opisz czego dotyczy zasada SVC (Speed, Consistency and Volume (SCV) principle).
- Zajęcia 7 Message queues
- Materiały
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Podaj możliwe uzasadnienia wyboru kolejki komunikatów jako elementu składowego większego systemu.
- Wymień i opisz rolę poszczególnych elementów kolejki komunikatów.
Ćwiczenia
- Zajęcia 1 Cleansing, transforming, and integrating data
- Materiały
- Pandas
- Realizacja etapu E z procesu ETL:
- Odczyt i zapis plików
- Wyrażenia regularne
- Transformacje danych
- Zbiory danych
- Spreparowane dane
- Rzeczywisyte dane z GPS
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Znać podstawową funkcjonalność biblioteki Pandas oraz umieć użyć ją do realizacji typowych dla niej zadań.
- Praktyczne aspekty czyszczenia, transformacji i integracji danych.
- Zajęcia 2 Cleansing, transforming, and integrating data - przykładowe rozwiązania
- Materiały
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Przykładowe postępowanie z danymi na etapie ich czyszczenia, transformacji i łączenia
- Zajęcia 3 Cleansing, transforming, and integrating data - sortowanie w pliku
- Materiały
- Kody źródłowe omawiane na zajęciach zostały przesłane Państwu mailem.
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Przykładowe postępowanie z danymi na etapie ich czyszczenia, transformacji i łączenia
- Kolejne zadanie:
- Zajęcia 4 Przetwarzanie wielowątkowe/wielozadaniowe (ang. multithreading/multitasking)
- Materiały
- Kody źródłowe omawiane na zajęciach zostały przesłane Państwu mailem.
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Odróżniać proces od wątku.
- Tworzyć elementarne programy wykorzystujące wielowątkowość/wieloprocesowość.
- Kolejne zadanie:
- Zajęcia 5 Przykład prostego procesu ETL, część I
- Materiały
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Omówić przebiego procesu ETL i scharakteryzować jego poszczególne etapy.
- Umieć rozwiązać proste zadanie ETL.
- Zajęcia 6 Przykład prostego procesu ETL, część II
- Materiały
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Omówić przebiego procesu ETL i scharakteryzować jego poszczególne etapy.
- Umieć rozwiązać proste zadanie ETL.
- Zajęcia 7 Przetwarzanie wielowątkowe/wielozadaniowe (ang. multithreading/multitasking) - przykładowe rozwiązania
- Materiały
- Kody źródłowe omawiane na zajęciach zostały przesłane Państwu mailem.
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Znać specyfikę problemów które można rozwiązać za pomocą wielowątkowości i takich, których w ten sposób rozwiązać nie można.
Materiały