Wykład

Data	Opis
2023-10-04	Wykład 1/6: Podstawowe informacje o przedmiocie Regular Expressions, Text Normalization, Edit Distance (do sekcji "Words") Materiały Regular Expressions, Text Normalization, Edit Distance (do sekcji "Words") (prezentacje do wykładu rozesłana za pomocą systemu USOS). Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Podstawowa składnia wyrażeń regularnych. Czym jest normalizacja tekstu, w tym lematyzacja, stemming. Czym jest token i po co są nam potrzebne tokeny. Opisać działanie algorytmu BPE (byte-pair encoding). Sposoby mierzenia podobieństwa ciągów znaków (edit distance).
2023-10-17	Wykład 2/6: N-gram Language Models N-Grams Evaluating language models Sampling sentences from a language model Generalization and zeros Smoothing Backoff and interpolation Materiały N-gram Language Models (prezentacje do wykładu rozesłana za pomocą systemu USOS). Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Czym jest n-gram. Wykorzystać bigam do przewidzenia kolejnego słowa. Jak możemy oceniać wartość modelu jezykowego (wykorzystanie tzw. perplexity). Generowanie tekstu na podstawie modelu językowego. Problem generalizacji modelu i postępowania ze słowami nieobecnymi w zbiorze uczącym (generalization and zeros, smoothing, backoff, interpolation).
2023-11-07	Wykład 3/6: Naive bayes and text classification Materiały Naive bayes and text classification (prezentacje do wykładu rozesłana za pomocą systemu USOS). Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Wyjaśnić czego dotyczy reguła Bayesa. Wyjaśnić podstawowe założenia tzw. naiwnego Bayesa. Dlaczego przyjmujemy takie właśnie założenia? Omów poszczzególne kroki nauki i wykorzystania modelu opartego o tzw. naiwnego Bayesa. Wyjaśnij czym jest tzw. confusion matrix. Co opisują pojęcia accuracy, precision i recall. Na czym polega sprawdzian krzyżowy (cross-validation).
2023-11-21	Wykład 4/6: Logistic regression, part I Materiały Logistic regression (prezentacje do wykładu rozesłana za pomocą systemu USOS). Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Podać własności funkcji sigmoidalnej (logistycznej), argmax, softmax. Wyjaśnić znaczenie pochodnej w poszukiwaniu minimum funkcji jednej i wielu zmiennych. Wyjaśnić dlaczego posługiwanie się pochodną (gradientem) w procesie poszukiwania minimum może prowadzić do problemów.
2023-11-21	Wykład 5/6: Logistic regression, part II Materiały Logistic regression (prezentacje do wykładu rozesłana za pomocą systemu USOS). Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Wyjaśnić dlaczego regresja logistyczna jest modelem dyskryminacyjnym; porównać to z modelami generatywnymi jak np. naiwny Bayes. Opisać cztery komponeny składowe systemów uczenia maszynowego. Czym jest tzw. loss function. Wyjaśnij ideę tzw. multinomial logistic regression.
2023-12-19	Wykład 6/6: Vector semantics and embeddings distributional hypothesis embeddings lexical semantics vs. context semantics different meaning of "similarity" (word similarity vs. word relatedness) how word meaning could be represented as a point in multidimensional space (Osgood et al., 1957) term-document matrix, term-term matrix (term-context matrix) word2vec Materiały Vector semantics and embeddings (prezentacje do wykładu rozesłana za pomocą systemu USOS). Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć O czym mówi "distributional hypothesis". Co oznacza "embeddings". Czym różnią się pojęcia "lexical semantics" oraz "context semantics". Opisz różne znaczenie podobieństwa (similarity; word similarity vs. word relatedness). Wyjśnij ideę reprezentacji słów i ich znaczenia w wielowymiarowej przestrzeni euklidesowej (patrz: Osgood et al., 1957). CO reprezentują macierze: term-document oraz term-term (term-context). Omów idee podejścia reprezentowanego przez algorytm word2vec.

Laboratorium informatyczne

Data	Opis
2023-10-06	Laboratorium informatyczne 1/14 (do wykładu 1): Regular Expressions, Text Normalization, Edit Distance (kontynuacja wykładu od sekcji "Words") Materiały Prezentacja z wykładu: Regular Expressions, Text Normalization, Edit Distance (od sekcji "Words"). Dynamic programming Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Patrz wykład 1/6
2023-10-13	Laboratorium informatyczne 2/14 (do wykładu 1): Konstruujemy "język wyrażeń logicznych" oraz "język regułowy" Materiały logicSentenceEvaluator.py.txt Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć
2023-10-20	Laboratorium informatyczne 3/14 (do wykładu 2): Normalizujemy dokument i dzielimy go na określone n-gramy Materiały normalize.py n_gram_genarator.py Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Umieć zbudować model języka oparty o n-gramy.
2023-10-27	Laboratorium informatyczne 4/14 (do wykładu 2): Implementujemy model n-gramowy Materiały ngcalc.zip (stan na dzień 2023-10-27) Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Umieć zbudować model języka oparty o n-gramy.
2023-11-03	Laboratorium informatyczne 5/14 (do wykładu 2): Implementujemy model n-gramowy Materiały ngcalc.zip (stan na dzień 2023-11-03) Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Umieć zbudować model języka oparty o n-gramy.
2023-11-10	Laboratorium informatyczne 6/14 (do wykładu 3): Implementujemy model oparty o tzw. naiwnego Bayesa. Materiały Zadania Opis Co po tych zajęciach powinno się znać / wiedzieć / umieć Umieć zbudować model języka oparty o tzw. naiwnego Bayesa.
2023-11-17	Laboratorium informatyczne 7/14 (do wykładu 3): Wykorzystujemy model oparty o tzw. naiwnego Bayesa -- kontynuujemy prace z poprzednich ćwiczeń. Materiały Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Umieć wykorzystać model języka oparty o tzw. naiwnego Bayesa.
2023-11-24	Laboratorium informatyczne 8/14: Normalizacja dokumentów. n-gramy. Tokens to numbers. Materiały Tokens to numbers Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Czym jest one-hot vector. Czym jest bag of words. Implementować one-hot vector.
2023-12-01	Laboratorium informatyczne 9/14: Jak mierzyć podobieństwo wyrazów (Hamming distance, Jaccard index, LCS). Materiały How to measure word similarities Measure distance between 2 words by simple calculation Levenshtein Distance Text Similarity w/ Levenshtein Distance in Python Implementing The Levenshtein Distance for Word Autocompletion and Autocorrection Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Omówić metody pomiaru podobieństwa wyrazów.
2023-12-08	Zajęcia 10.1 Word frequencies. Badamy prawo Zipfa w praktyce. Przyglądamy się różnorodności słów w różnych dokumentach i językach. Materiały Working with word frequencies Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć O czym mowi prawo Zipfa.
2023-12-15	Zajęcia 11 Word frequencies: parametr TF, IDF, TF-IDF. Materiały Working with word frequencies Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Jaką informację zawiera parametr TF (term frequency). Jaką informację zawiera parametr IDF (inverse document frequency). Jaką informację zawiera parametr TF-IDF. Badamy zachowanie parametru TF, IDF, TF-IDF w wersji z i bez logarytmu.
2024-01-12	Zajęcia 12 Implementujemy algorytm regresji logistycznej Materiały ... Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Wyjaśnić poszczególne etapy algorytmu regresji logistycznej.
2024-01-19	Zajęcia 13 Wykorzystujemy algorytm regresji logistycznej do prostych zadań NLP. Materiały Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć Wyjaśnić poszczególne etapy algorytmu regresji logistycznej.
2024-01-26	Zajęcia 14 Test zaliczeniowy. Materiały ... Zadania Co po tych zajęciach powinno się znać / wiedzieć / umieć