Zajęcia
Informacje o przebiegu zajęć

Wykład

Data Opis
2023-10-04 Wykład 1/6:
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Podstawowa składnia wyrażeń regularnych.
    • Czym jest normalizacja tekstu, w tym lematyzacja, stemming.
    • Czym jest token i po co są nam potrzebne tokeny.
    • Opisać działanie algorytmu BPE (byte-pair encoding).
    • Sposoby mierzenia podobieństwa ciągów znaków (edit distance).
2023-10-17 Wykład 2/6:
  • N-gram Language Models
    • N-Grams
    • Evaluating language models
    • Sampling sentences from a language model
    • Generalization and zeros
    • Smoothing
    • Backoff and interpolation
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Czym jest n-gram.
    • Wykorzystać bigam do przewidzenia kolejnego słowa.
    • Jak możemy oceniać wartość modelu jezykowego (wykorzystanie tzw. perplexity).
    • Generowanie tekstu na podstawie modelu językowego.
    • Problem generalizacji modelu i postępowania ze słowami nieobecnymi w zbiorze uczącym (generalization and zeros, smoothing, backoff, interpolation).
2023-11-07 Wykład 3/6:
  • Naive bayes and text classification
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Wyjaśnić czego dotyczy reguła Bayesa.
    • Wyjaśnić podstawowe założenia tzw. naiwnego Bayesa. Dlaczego przyjmujemy takie właśnie założenia?
    • Omów poszczzególne kroki nauki i wykorzystania modelu opartego o tzw. naiwnego Bayesa.
    • Wyjaśnij czym jest tzw. confusion matrix.
    • Co opisują pojęcia accuracy, precision i recall.
    • Na czym polega sprawdzian krzyżowy (cross-validation).
2023-11-21 Wykład 4/6:
  • Logistic regression
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Podać własności funkcji sigmoidalnej (logistycznej), argmax, softmax.
    • Wyjaśnić znaczenie pochodnej w poszukiwaniu minimum funkcji jednej i wielu zmiennych.
    • Wyjaśnić dlaczego posługiwanie się pochodną (gradientem) w procesie poszukiwania minimum może prowadzić do problemów.
    • Wyjaśnić dlaczego regresja logistyczna jest modelem dyskryminacyjnym; porównać to z modelami generatywnymi jak np. naiwny Bayes.
    • Opisać cztery komponeny składowe systemów uczenia maszynowego.
    • Czym jest tzw. loss function.
    • Wyjaśnij ideę tzw. multinomial logistic regression.

Laboratorium informatyczne

Data Opis
2023-10-06 Laboratorium informatyczne 1/14 (do wykładu 1): Regular Expressions, Text Normalization, Edit Distance (kontynuacja wykładu od sekcji "Words")
  • Materiały
    • Prezentacja z wykładu: Regular Expressions, Text Normalization, Edit Distance (od sekcji "Words").
    • Dynamic programming
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Patrz wykład 1/6
2023-10-13 Laboratorium informatyczne 2/14 (do wykładu 1): Konstruujemy "język wyrażeń logicznych" oraz "język regułowy"
2023-10-20 Laboratorium informatyczne 3/14 (do wykładu 2): Normalizujemy dokument i dzielimy go na określone n-gramy
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć zbudować model języka oparty o n-gramy.
2023-10-27 Laboratorium informatyczne 4/14 (do wykładu 2): Implementujemy model n-gramowy
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć zbudować model języka oparty o n-gramy.
2023-11-03 Laboratorium informatyczne 5/14 (do wykładu 2): Implementujemy model n-gramowy
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć zbudować model języka oparty o n-gramy.
2023-11-10 Laboratorium informatyczne 6/14 (do wykładu 3): Implementujemy model oparty o tzw. naiwnego Bayesa.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć zbudować model języka oparty o tzw. naiwnego Bayesa.
2023-11-17 Laboratorium informatyczne 7/14 (do wykładu 3): Wykorzystujemy model oparty o tzw. naiwnego Bayesa -- kontynuujemy prace z poprzednich ćwiczeń.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Umieć wykorzystać model języka oparty o tzw. naiwnego Bayesa.
2023-11-24 Laboratorium informatyczne 8/14: Normalizacja dokumentów. n-gramy. Tokens to numbers.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Czym jest one-hot vector.
    • Czym jest bag of words.
    • Implementować one-hot vector.
2023-12-01 Laboratorium informatyczne 9/14: Tokens to numbers.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Implementować bag of words.
    • Wykorzystać otrzymane wektory w reprezentacji bag of words jako miarę podobieństwa dokumentów. Opisać wady i zalety takiego podejścia.