Skrócony opis
Na zajęciach będziemy mówić o przetwarzaniu danych w sensie angielskiego terminu "preprocessing" co oznacza przetwarzanie wstępne. Przetwarzanie takie opiera się na manipulowaniu tekstem bez wnikania w istotę tego co on reprezentuje. Jako dane tekstowe rozumieć będziemy wszelkie dane, które reprezentowane są w postaci ciągów znaków. Przetwarzanie wstępne ma na celu takie przygotowanie danych aby nadawały się jako strumien wejściowy dla docelowego narzędzia przetwarzającego. Najprostsze z tych zagadnień to łączenie/dzielenie plików, wybieranie określonych fragmentów z plików. Bardziej złożone wymagają stosowania wyrażeń regularnych oraz narzędzi typu sed czy awk. W skrajnym przypadku zachodzi konieczność tworzenia złożonych skryptów. W wielu przypadkach sprawne posługiwanie się językiem skryptowym czy wręcz linią poleceń pozwala wykonać w ciągu kilku sekund to co w przypadku kompilowanych języków programowania zajmuje minuty lub godziny.
Wymagania wstępne
- Pdstawowe umiejętności z zakresu posługiwania się komputerem z wykorzystaniem wiersza poleceń.
- Podstawy programowania
Efekty kształcenia
Po zakończonym kursie student:
- w zakresie WIEDZY
- Zna podstawowe narzędzia pozwalające na przetwarzanie danych tekstowych.
- Zna w podstawowym zakresie co najmniej jeden język skryptowy.
- w zakresie UMIEJĘTNOŚCI
- Wykorzystuje podstawowe narzędzia pozwalające na przetwarzanie danych tekstowych.
- Umie dobrać rodzaj narzędzia w zależności od zadania.
- Umie wykorzystać co najmniej jeden język skryptowy.
- Rozwiązuje zadania przetwarzania danych tekstowych.
- w zakresie KOMPETENCJI
- Potrafi samodzielnie kształcić się w oparciu o źródła krajowe, ale przede wszystkim zagraniczne.
- Potrafi kreatywnie rozwiązywać postawione zadania i napotkane problemy.
Treści kształcenia
Zajęcia (14h) składają się z trzech części (12h) + kolokwium (2h):
- Wprowadzenie do podstawowych poleceń pozwalających na przetwarzanie danych tekstowych (6h)
- Podstawy pracy z językami skryptowymi (2h)
- Rozwiązywanie zadań związanych z przetwarzaniem tekstu (4h)
Metody i kryteria oceniania
Na ocenę ogólną z zajęć składa się:
- ocena z ćwiczeń (100%)
Na ocenę z ćwiczeń składa się:
Projekt sprawdza efekty kształcenia w zakresie wiedzy, umiejętności i kompetencji (efekty: xxx)
Literatura podstawowa
- 1 Materiały udostępnione na stronie przedmiotu, w szczególności Text data processing
- Jeroen Janssens, Data Science at the Command Line (WWW)
Literatura uzupełniająca
- W języku polskim
- W języku angielskm