Zajęcia
Informacje o przebiegu zajęć

Wykład

Data Opis
2024-02-26 Wykład 1/6:
2024-03-11 Wykład 2/6:
  • Zagadnienia
    • N-gram language models
      • N-Grams
      • Evaluating language models
      • Sampling sentences from a language model
      • Generalization and zeros
      • Smoothing
      • Backoff and interpolation
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Czym jest n-gram.
    • Wykorzystać bigam do przewidzenia kolejnego słowa.
    • Jak możemy oceniać wartość modelu jezykowego (wykorzystanie tzw. perplexity).
    • Generowanie tekstu na podstawie modelu językowego.
    • Problem generalizacji modelu i postępowania ze słowami nieobecnymi w zbiorze uczącym (generalization and zeros, smoothing, backoff, interpolation).
2024-03-25 Wykład 3/6:
  • Zagadnienia
    • Naive bayes and text classification
      • ...
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Wyjaśnić czego dotyczy reguła Bayesa.
    • Wyjaśnić podstawowe założenia tzw. naiwnego Bayesa. Dlaczego przyjmujemy takie właśnie założenia?
    • Omów poszczególne kroki nauki i wykorzystania modelu opartego o tzw. naiwnego Bayesa.
    • Wyjaśnij czym jest tzw. confusion matrix.
    • Co opisują pojęcia accuracy, precision i recall.
    • Na czym polega sprawdzian krzyżowy (cross-validation).
2024-04-15 Wykład 4/6:
  • Zagadnienia
    • Regresja logistyczna, część 1
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Podać własności funkcji sigmoidalnej (logistycznej), argmax, softmax.
    • Wyjaśnić znaczenie pochodnej w poszukiwaniu minimum funkcji jednej i wielu zmiennych.
    • Wyjaśnić dlaczego posługiwanie się pochodną (gradientem) w procesie poszukiwania minimum może prowadzić do problemów.
2024-04-29 Wykład 5/6:
  • Zagadnienia
    • Regresja logistyczna, część 2
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Wyjaśnić dlaczego regresja logistyczna jest modelem dyskryminacyjnym; porównać to z modelami generatywnymi jak np. naiwny Bayes.
    • Opisać cztery komponenty składowe systemów uczenia maszynowego.
    • Czym jest tzw. loss function.
    • Wyjaśnij ideę tzw. multinomial logistic regression.
2024-05-13 Wykład 6/6:
  • Zagadnienia
    • Vector semantics and embeddings
      • distributional hypothesis
      • embeddings
      • lexical semantics vs. context semantics
      • different meaning of "similarity" (word similarity vs. word relatedness)
      • how word meaning could be represented as a point in multidimensional space (Osgood et al., 1957)
      • term-document matrix, term-term matrix (term-context matrix)
      • word2vec
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • O czym mówi "distributional hypothesis".
    • Co oznacza "embeddings".
    • Czym różnią się pojęcia "lexical semantics" oraz "context semantics".
    • Opisz różne znaczenie podobieństwa (similarity; word similarity vs. word relatedness).
    • Wyjśnij ideę reprezentacji słów i ich znaczenia w wielowymiarowej przestrzeni euklidesowej (patrz: Osgood et al., 1957).
    • CO reprezentują macierze: term-document oraz term-term (term-context).
    • Omów idee podejścia reprezentowanego przez algorytm word2vec.

Laboratorium informatyczne

Data Opis
2024-02-26 Laboratorium informatyczne 1/14:
  • Zagadnienia
    • Regular expressions
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Podstawowa składnia wyrażeń regularnych.
2024-03-04 Laboratorium informatyczne 2/14:
  • Zagadnienia
    • Wyrażenia regularne w praktyce: przetwarzamy język reguł
  • Materiały
    • ...
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Praktyczna umiejętność posługiwania się wyrażeniami regularnymi.
2024-03-11 Laboratorium informatyczne 3/14:
  • Zagadnienia
    • Wyrażenia regularne w praktyce: przetwarzamy język reguł (omawiamy przykładową implementację)
  • Materiały
    • ...
  • Zadania
    • ...
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Praktyczna umiejętność posługiwania się wyrażeniami regularnymi.
2024-03-18 Laboratorium informatyczne 4/14:
  • Zagadnienia
    • Pozyskiwanie dokumentów i ich "czyszczenie".
    • Normalizowanie dokumentów.
  • Materiały
    • ...
  • Zadania
    • ...
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Pozyskiwać dokumenty z sieci i przygotowywać do dalszego przetwarzania.
    • Przeprowadzić proces normalizacji dokumentu i przygotowania danych na podstawie których zostanie stworzony model.
2024-03-25 Laboratorium informatyczne 5/14:
  • Zagadnienia
    • Dzielenie znormalizowanego dokumentu na n-gramy.
    • Budujemy model n-gramowy - praca samodzielna.
  • Materiały
    • ...
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Zbudować model n-gramowy.
2024-04-08 Laboratorium informatyczne 6/14:
  • Zagadnienia
    • Omawiamy przykładową implementację modelu n-gramowego.
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Zbudować model n-gramowy.
2024-04-15 Laboratorium informatyczne 7/14:
  • Zagadnienia
    • Omawiamy przykładową implementację modelu n-gramowego.
    • Praca z modelem n-gramowym.
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Zbudować i posługiwać się modelem n-gramowy.
2024-04-22 Laboratorium informatyczne 8/14:
  • Zagadnienia
    • Implementujemy model oparty o tzw. naiwnego Bayesa.
  • Zadania
    • Zaimplementuj model oparty o tzw. naiwnego Bayesa. Ten opis zawiera propozycję kroków jakie możesz wykonać aby to zadanie wykonać.
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Zbudować model oparty o tzw. naiwnego Bayesa.
2024-04-29 Laboratorium informatyczne 9/14:
  • Zagadnienia
    • Praca z modelem opartym o tzw. naiwnego Bayesa.
  • Zadania
    • Dokończ zadanie z poprzednich zajęć.
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Zbudować i posługiwać się modelem opartym o tzw. naiwnego Bayesa.
2024-05-06 Laboratorium informatyczne 10/14:
  • Zagadnienia
    • Wektorowa reprezentacja dokumentów.
  • Materiały
  • Zadania
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Czym jest one-hot vector.
    • Czym jest bag of words.
    • O czym mowi prawo Zipfa.
    • Jaką informację zawiera parametr TF (term frequency).
    • Jaką informację zawiera parametr IDF (inverse document frequency).
    • Jaką informację zawiera parametr TF-IDF.
2024-05-13 Laboratorium informatyczne 11/14:
2024-05-27 Laboratorium informatyczne 12/14:
  • Zagadnienia
    • Test zaliczeniowy.
2024-06-03 Laboratorium informatyczne 13/14:
  • Zagadnienia
    • Implementujemy model oparty o regresję logistyczną.
  • Zadania
    • Zaimplementuj model oparty o regresję logistyczną. Ten opis zawiera propozycję kroków jakie możesz wykonać aby to zadanie wykonać.
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Zbudować model oparty o regresję logistyczną.
2024-06-10 Laboratorium informatyczne 14/14:
  • Zagadnienia
    • Praca z modelem opartym o regresję logistyczną.
  • Zadania
    • Dokończ zadanie z poprzednich zajęć.
  • Co po tych zajęciach powinno się znać / wiedzieć / umieć
    • Zbudować i posługiwać się modelem opartym o regresję logistyczną.