2024/2025
stacjonarne
Zajęcia
Big Data
Strona główna
Zajęcia
Informacje o przebiegu zajęć
Wykład + laboratorium informatyczne
Data
Opis
2025-02-21
Tydzień 1
Czyszczenie, transformacja i integracja danych - zagadnienia teoretyczne
Zagadnienia i materiały
W
Podstawowe informacje o przedmiocie(
PDF
,
Markdown
)
Czyszczenie, transformacja i integracja danych.
Książka
, rozdział
Cleansing, transforming, and integrating data
.
Co po tych zajęciach powinno się znać / wiedzieć / umieć
Czym jest proces ETL.
Teoretyczne i praktyczne aspekty czyszczenia, transformacji i integracji danych.
2025-02-28
Tydzień 2
Czyszczenie, transformacja i integracja danych - zagadnienia praktyczne
Zagadnienia i materiały
Pandas
Pandas
pandas: powerful Python data analysis toolkit
10 Minutes to pandas
Working with Text Data
Tutorials
12 Useful Pandas Techniques in Python for Data Manipulation
Pandas tips and tricks
Quick and Dirty Data Analysis with Pandas
Apply Operations To Groups In Pandas
Bucketing Continuous Variables in pandas
Counting Values & Basic Plotting in Python
Pandas Cheat Sheet — Python for Data Science
Odczyt i zapis plików
Reading and Writing Files in Python
Reading and Writing Files in Python (Guide)
Zbiory danych
Spreparowane dane
data_01.dat.zip
- plik do pracy (
opis formatu
).
data_01_with_redundant.dat.zip
powyższy plik, ale ze zduplikowanymi niektórymi wierszami.
data_01_v2.dat.zip
- plik w wersji 2 (
opis zmian
).
data_01_v2_with_redundant.dat.zip
powyższy plik, ale ze zduplikowanymi niektórymi wierszami (
opis zmian
).
Rzeczywiste dane z GPS
24080243.raw
- "surowe dane z GPS".
24080243_destination_format.txt
- docelowa postać danych.
Co po tych zajęciach powinno się znać / wiedzieć / umieć
Znać podstawową funkcjonalność biblioteki
Pandas
oraz umieć użyć ją do realizacji typowych dla niej zadań.