2025-02-21 |
Tydzień 1
W Czyszczenie, transformacja i integracja danych - zagadnienia teoretyczne
- Zagadnienia i materiały
- W Podstawowe informacje o przedmiocie(PDF, Markdown)
- W Czyszczenie, transformacja i integracja danych.
- Książka, rozdział Cleansing, transforming, and integrating data.
Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Czym jest proces ETL.
- Teoretyczne i praktyczne aspekty czyszczenia, transformacji i integracji danych.
|
2025-02-28 |
Tydzień 2
LI Czyszczenie, transformacja i integracja danych - zagadnienia praktyczne
- Zagadnienia i materiały
- Pandas
- Odczyt i zapis plików
Zbiory danych
- Spreparowane dane
- Rzeczywiste dane z GPS
Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Znać podstawową funkcjonalność biblioteki Pandas oraz umieć użyć ją do realizacji typowych dla niej zadań.
|
2025-03-14 |
Tydzień 3
LI Algorytmy plikowe na przykładzie implementacji sortowania bardzo dużego zbioru danych.
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Umieć uzasadnić potrzebę implementacji algorytmów w wersji plikowej. Umieć podać przykład co najmniej jednej takiej implementacji (innej niż omawiana na ćwiczeniach).
|
2025-03-21 |
Tydzień 4
LI Kontynuacja poprzednich zajęć (z tygodnia 3).
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
|
2025-03-28 |
Tydzień 5
LI Kontynuacja poprzednich zajęć (z tygodnia 3).
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
|
2025-04-04 |
Tydzień 6
LI Kontynuacja poprzednich zajęć (z tygodnia 3).
LI Wprowadzenie do programowania współbieżnego.
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Znać sposoby tworzenia programów współbieżnych w Python-ie.
- Opisać różnice pomiędzy wątkiem a procesem.
- Znać podstawowe sposoby komunikacji pomiędzy wątkami i procesami.
|
2025-04-11 |
Tydzień 7
LI Kontynuacja poprzednich zajęć (z tygodnia 6).
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Znać sposoby tworzenia programów współbieżnych w Python-ie.
- Opisać różnice pomiędzy wątkiem a procesem.
- Znać podstawowe sposoby komunikacji pomiędzy wątkami i procesami.
|
2025-04-17 |
Tydzień 8
LI Pracujemy nad projektem zaliczeniowym - program mozaika.
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
|
2025-04-25 |
Tydzień 9
W Wprowadzenie w tematykę, próba zdefiniowania i uchwycenia istoty - kiedy coś (nie) jest big data.
- Zagadnienia
- Dlaczego mówimy o inżynierii.
- Próba określenia jak postrzegamy big data.
- Materiały
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Czym jest Big Data? Zdefiniuj to pojęcie.
- Co nam daje Big Data?
- Opisz czynniki charakteryzujące Big Data (volume, velocity, variety, veracity, value).
- Czym różnią się dane jakościowe od danych ilościowych? Podaj przykłady danych należących do każdego z typów.
- Opisz związki jakie zachodzą pomiędzy danymi, informacją, wiedzą i mądrością. Czym się one różnią między sobą?
- Opisz pojęcia blindsight, hindsight, insight, foresight i porównaj je z descriptive, diagnostic, predictive, prescriptive analytics.
- Scharakteryzuj najbardziej pożądaną formę danych (raw, immutable, eternally true).
|
2025-05-09, 2025-05-14 |
Tydzień 10, 11, 12
W Processing concepts for Big Data.
- Zagadnienia
- Processing concepts for Big Data - kontynuacja.
- OLAP, OLTP.
- Przetwarzanie równoległe, przetwarzanie rozproszone, klaster, grid, chmura, metoda dziel i zwyciężaj.
- aaS – as a Service.
- Zasada SVC.
- Przetwarzanie wsadowe a przetwarzanie w czasie rzeczywistym.
- Idea algorytmu map-reduce.
- Materiały
- Message queues – something between processing and storage.
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Wyjaśnij pojęcia OLTP i OLAP. Czym charakteryzują się te modele przetwarzania danych. Co jest priorytetem w każdym z nich, kiedy można je stosować?
- Wyjaśnij pojęcia: przetwarzanie równoległe, przetwarzanie rozproszone, klaster, grid, chmura, metoda dziel i zwyciężaj. Jaki widzisz związek pomiędzy tymi pojęciami?
- Co oznacza aaS (as a Service)? Jakie mamy rodzaje (poziomy) usłg tego typu, czym się one różnią i co się z tym wiąże?
- Opisz czego dotyczy zasada SVC (Speed, Consistency and Volume (SCV) principle).
- W jaki sposób możemy rozumieć określenie przetwarzania w czasie rzeczywistym (realtime).
- Czym różni się przetwarzanie wsadowe (batch) od przetwarzania w czasie rzeczywistym (realtime)?
- Porównaj ze sobą divide and conquer i map-reduce.
- Podaj możliwe uzasadnienia wyboru kolejki komunikatów jako elementu składowego większego systemu.
- Wymień i opisz rolę poszczególnych elementów kolejki komunikatów.
- Scharakteryzuj modele pracy kolejki komunikatów.
|
2025-05-16 |
Tydzień 13, 14
Storage concepts for Big Data.
- Zagadnienia
- Storage concepts for Big Data.
- Materiały
- Książka, rozdział Storage concepts for Big Data
- Przykłady wykorzystania systemów nierelacyjnych (NoSQL)
- Co po tych zajęciach powinno się znać / wiedzieć / umieć
- Scharakteryzować dane ustrukturyzowane, nieustrukturyzowane i semistrukturalne.
- Czym różnią się rodzaje pracy z danymi (chodzi o pracę na danych surowych (raw data), zapytania, widoki). Jakie są ich wady i zalety.
- Wyjaśnij pojęcie bazy danych. Jakie mamy rodzaje baz. Jakie oferują one możliwości i za jaką cenę.
- Wyjaśnić pojęcia data warehouse, data lake, data mart.
- Istotne różnice pomiędzy relacyjnymi i nierelacyjnymi bazami danych.
- Logiczn organizacje danych.
- Składowanie danych zorientowane na kolumny, składowanie danych zorientowane na wiersze.
|
2025-05-30 |
Tydzień 15
Podsumowanie materiału. Test zaliczniowy.
|
2025-06-06 |
Tydzień 16
Implementujemy prosty mechanizm konrolowania zależności wykonania zadań (task/workflow orchestration).
|