Zajęcia
Informacje o przebiegu zajęć

Wykład

Data Opis
2023-10-04 Wykład 1/6:
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Podstawowa składnia wyrażeń regularnych.
    • Czym jest normalizacja tekstu, w tym lematyzacja, stemming.
    • Czym jest token i po co są nam potrzebne tokeny.
    • Opisać działanie algorytmu BPE (byte-pair encoding).
    • Sposoby mierzenia podobieństwa ciągów znaków (edit distance).
2023-10-17 Wykład 2/6:
  • N-gram Language Models
    • N-Grams
    • Evaluating language models
    • Sampling sentences from a language model
    • Generalization and zeros
    • Smoothing
    • Backoff and interpolation
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Czym jest n-gram.
    • Wykorzystać bigam do przewidzenia kolejnego słowa.
    • Jak możemy oceniać wartość modelu jezykowego (wykorzystanie tzw. perplexity).
    • Generowanie tekstu na podstawie modelu językowego.
    • Problem generalizacji modelu i postępowania ze słowami nieobecnymi w zbiorze uczącym (generalization and zeros, smoothing, backoff, interpolation).
2023-11-07 Wykład 3/6:
  • Naive bayes and text classification
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Wyjaśnić czego dotyczy reguła Bayesa.
    • Wyjaśnić podstawowe założenia tzw. naiwnego Bayesa. Dlaczego przyjmujemy takie właśnie założenia?
    • Omów poszczzególne kroki nauki i wykorzystania modelu opartego o tzw. naiwnego Bayesa.
    • Wyjaśnij czym jest tzw. confusion matrix.
    • Co opisują pojęcia accuracy, precision i recall.
    • Na czym polega sprawdzian krzyżowy (cross-validation).
2023-11-21 Wykład 4/6:
  • Logistic regression, part I
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Podać własności funkcji sigmoidalnej (logistycznej), argmax, softmax.
    • Wyjaśnić znaczenie pochodnej w poszukiwaniu minimum funkcji jednej i wielu zmiennych.
    • Wyjaśnić dlaczego posługiwanie się pochodną (gradientem) w procesie poszukiwania minimum może prowadzić do problemów.
2023-11-21 Wykład 5/6:
  • Logistic regression, part II
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Wyjaśnić dlaczego regresja logistyczna jest modelem dyskryminacyjnym; porównać to z modelami generatywnymi jak np. naiwny Bayes.
    • Opisać cztery komponeny składowe systemów uczenia maszynowego.
    • Czym jest tzw. loss function.
    • Wyjaśnij ideę tzw. multinomial logistic regression.
2023-12-19 Wykład 6/6:
  • Vector semantics and embeddings
    • distributional hypothesis
    • embeddings
    • lexical semantics vs. context semantics
    • different meaning of "similarity" (word similarity vs. word relatedness)
    • how word meaning could be represented as a point in multidimensional space (Osgood et al., 1957)
    • term-document matrix, term-term matrix (term-context matrix)
    • word2vec
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • O czym mówi "distributional hypothesis".
    • Co oznacza "embeddings".
    • Czym różnią się pojęcia "lexical semantics" oraz "context semantics".
    • Opisz różne znaczenie podobieństwa (similarity; word similarity vs. word relatedness).
    • Wyjśnij ideę reprezentacji słów i ich znaczenia w wielowymiarowej przestrzeni euklidesowej (patrz: Osgood et al., 1957).
    • CO reprezentują macierze: term-document oraz term-term (term-context).
    • Omów idee podejścia reprezentowanego przez algorytm word2vec.

Laboratorium informatyczne

Data Opis
2023-10-06 Laboratorium informatyczne 1/14 (do wykładu 1): Regular Expressions, Text Normalization, Edit Distance (kontynuacja wykładu od sekcji "Words")
  • Materiały
    • Prezentacja z wykładu: Regular Expressions, Text Normalization, Edit Distance (od sekcji "Words").
    • Dynamic programming
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Patrz wykład 1/6
2023-10-13 Laboratorium informatyczne 2/14 (do wykładu 1): Konstruujemy "język wyrażeń logicznych" oraz "język regułowy"
2023-10-20 Laboratorium informatyczne 3/14 (do wykładu 2): Normalizujemy dokument i dzielimy go na określone n-gramy
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć zbudować model języka oparty o n-gramy.
2023-10-27 Laboratorium informatyczne 4/14 (do wykładu 2): Implementujemy model n-gramowy
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć zbudować model języka oparty o n-gramy.
2023-11-03 Laboratorium informatyczne 5/14 (do wykładu 2): Implementujemy model n-gramowy
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć zbudować model języka oparty o n-gramy.
2023-11-10 Laboratorium informatyczne 6/14 (do wykładu 3): Implementujemy model oparty o tzw. naiwnego Bayesa.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć zbudować model języka oparty o tzw. naiwnego Bayesa.
2023-11-17 Laboratorium informatyczne 7/14 (do wykładu 3): Wykorzystujemy model oparty o tzw. naiwnego Bayesa -- kontynuujemy prace z poprzednich ćwiczeń.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć wykorzystać model języka oparty o tzw. naiwnego Bayesa.
2023-11-24 Laboratorium informatyczne 8/14: Normalizacja dokumentów. n-gramy. Tokens to numbers.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Czym jest one-hot vector.
    • Czym jest bag of words.
    • Implementować one-hot vector.
2023-12-01 Laboratorium informatyczne 9/14: Jak mierzyć podobieństwo wyrazów (Hamming distance, Jaccard index, LCS).
2023-12-08
Zajęcia 10.1
Word frequencies. Badamy prawo Zipfa w praktyce. Przyglądamy się różnorodności słów w różnych dokumentach i językach.
2023-12-15
Zajęcia 11
Word frequencies: parametr TF, IDF, TF-IDF.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Jaką informację zawiera parametr TF (term frequency).
    • Jaką informację zawiera parametr IDF (inverse document frequency).
    • Jaką informację zawiera parametr TF-IDF.
    • Badamy zachowanie parametru TF, IDF, TF-IDF w wersji z i bez logarytmu.
2024-01-12
Zajęcia 12
Implementujemy algorytm regresji logistycznej
  • Materiały
    • ...
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Wyjaśnić poszczególne etapy algorytmu regresji logistycznej.
2024-01-19
Zajęcia 13
Wykorzystujemy algorytm regresji logistycznej do prostych zadań NLP.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Wyjaśnić poszczególne etapy algorytmu regresji logistycznej.
2024-01-26
Zajęcia 14
Test zaliczeniowy.
  • Materiały
    • ...
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć