Zajęcia
Informacje o przebiegu zajęć

Wykład

Data Opis
1 O co chodzi w inżynierii przetwarzania dużych zbiorów danych. ETL.
  • Zagadnienia
    • Dlaczego mówimy o inżynierii.
    • Próba określenia jak postrzegamy big data.
    • Czyszczenie, transformacja i integracja danych.
  • Materiały
    • Książka, rozdział Cleansing, transforming, and integrating data.
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Czym jest proces ETL.
    • Teoretyczne aspekty czyszczenia, transformacji i integracji danych.
2 Wprowadzenie w tematykę, próba zdefiniowania i uchwycenia istoty - kiedy coś (nie) jest big data.
  • Zagadnienia
    • Dlaczego mówimy o inżynierii.
    • Próba określenia jak postrzegamy big data.
    • Czyszczenie, transformacja i integracja danych.
  • Materiały
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Czym jest Big Data? Zdefiniuj to pojęcie.
    • Czym różnią się dane jakościowe od danych ilościowych? Podaj przykłady danych należących do każdego z typów.
    • Opisz związki jakie zachodzą pomiędzy danymi, informacją, wiedzą i mądrością. Czym się one różnią między sobą?
    • Opisz czynniki charakteryzujące Big Data (volume, velocity, variety, veracity, value).
3 Processing concepts for Big Data.
  • Zagadnienia
    • OLAP, OLTP.
    • Przetwarzanie równoległe, przetwarzanie rozproszone, klaster, grid, chmura, metoda dziel i zwyciężaj.
    • aaS – as a Service.
    • Zasada SVC.
  • Materiały
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Wyjaśnij pojęcia OLTP i OLAP. Czym charakteryzują się te modele przetwarzania danych. Co jest proprytetem w każdym z nich, kiedy można je stosować?
    • Wyjaśnij pojęcia: przetwarzanie równoległe, przetwarzanie rozproszone, klaster, grid, chmura, metoda dziel i zwyciężaj. Jaki widzisz związek pomiędzy tymi pojęciami?
    • Co oznacza aaS (as a Service)? Jakie mamy rodzaje (poziomy) usłg tego typu, czym się one różnią i co się z tym wiąże?
    • Opisz czego dotyczy zasada SVC (Speed, Consistency and Volume (SCV) principle).

Laboratorium informatyczne

Data Opis
1 Praktyczne aspekty ETL.
2 Przykładowe postępowanie z danymi na etapie ich czyszczenia, transformacji i łączenia
  • Materiały
    • ...
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Przykładowe postępowanie z danymi na etapie ich czyszczenia, transformacji i łączenia.
3 Algorytmy plikowe na przykładzie implementacji sortowania bardzo dużego zbioru danych
  • Materiały
    • ...
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć uzasadnić potrzebę implementacji algorytmów w wersji plikowej. Umieć podać przykład co najmniej jednej takiej implementacji (innej niż omawiana na ćwiczeniach).