Modele językowe zima 2025/26

Język wykładowy Polski
Opiekun Paweł Rychlikowski
Liczba godzin 30 (wyk.) 30 (ćw-prac.)
Rodzaj I2.Z - zastosowania inf.
ECTS 6
Polecany dla I roku Nie
Egzamin Tak
Tagi PD (przetwarzanie danych) AI-O (AI (II st.) obowiązkowy)

Opis przedmiotu:

Model językowy (Language Models, LM) wydaje się dość technicznym pojęciem -- jest rozkładem prawdopodobieństwa modelującym ciągi symboli ze skończonego zbioru. Niemniej jednak, ze wględu na między innymi wielkie sukcesy współczesnych (dużych) modeli generatywnych (ChatGPT, Copilot, DeepSeek, Perplexity) modele językowe stały się w ostatnich czasach jednym z najważniejszych tematów związanych z technologiami, przy czym absolutnie dominującym w ostatnich latach sposobem realizacji modeli językowych są sieci neuronowe typu Transformer, które będą również podstawowym (choć niejedynym) narzędziem używanym podczas naszego przedmiotu. Będziemy zajmować się zarówno podstawową dziedziną, w której działają LMs czyli przetwarzaniem języka naturalnego, jak i sieciami neuronowymi modelującymi inne modalności (między innymi obrazy, muzykę, dźwięk), jak również systemami wielomodalnymi. Ważnym wątkiem naszego wykładu będzie również badanie, jak bardzo modele językowe stają się/mogą się stać podstawowym "silnikiem" sztucznej inteligencji -- czy takie tradycyjne zadania sztucznej inteligencji jak granie w gry, przeszukiwanie przestrzenie stanów, uczenie ze wzmocnieniem, rozwiązywanie problemów, dowodzenie twierdzeń mogą być (i do jakiego stopnia) rozwiązywane za pomocą modeli językowych. Zajęcia pomocnicze do przedmiotu będą kombinacją ćwiczeń i pracowni. Planujemy 5 list ćwiczeniowych, cztery pracowniowe (czwarta isottnie mniejsza) i miniprojekt zamiast ostatniej piątej i części czwartej listy pracownianej (każda pracownia jest przewidziana na dwa tygodnie). Na ćwiczeniach niektóre zadania będą wymagały przeczytania jakiegoś fragmentu publikacji naukowej (czasem wystarczy jej popularne streszczenie/wideostreszczenie). Będziemy używać między innymi Pythona, pytorcha i biblioteki 🤗 Transformers (huggingface transformers). Miniprojekt będzie zespołowy i będzie zakładał uczenie od podstaw średniego modelu językowego, lub dotrenowywanie większego. Przedmiot zakłada wstępną znajomość zagadnień związanych z sieciami neuronowymi i uczeniem maszynowym. Każdy student powienien wcześniej ukończyć jeden (a najlepiej dwa) przedmioty ze zbioru: Sztuczna inteligencja, Neural networks + X, Machine Learning, Eksploracja danych, Projekt: Deep Learning, Text mining, Projekt: boty konwersacyjne i odpowiadanie na pytania, itp. ### Szczegółowa lista zagadnień: * Wprowadzenie do modelowania języka za pomocą sieci neuronowych * Działanie sieci transformer w wariantach: sam koder (BERT, ...), koder-dekoder (T5, ...) oraz sam dekoder (GPT-*, ...) * Trening wstępny i dotrenowywanie modeli (z uwzględnieniem Reinforcement Learning with Human Feedback) * Transfer learning i praca z modelami wielojęzycznymi * Algorytmy tokenizacji i ich wpływ na działanie modelu * Wprowadzenie do Przetwarzania języka naturalnego (NLP) * Klasyczne zadania NLP rozwiązywane za pomocą wstępnie wytrenowanych modeli: klasyfikacji sekwencji (na przykład hate speech detection), klasyfikacja tokenów (na przykład Named Entity Recognition, Part-of-Speech tagging), zadanie seq2seq (tłumaczenie maszynowe, streszczanie generatywne) * Technika probingu i badanie, czego uczą się transformery * Boty konwersacyjne i odpowiadanie na pytania (model Reader+Retrieval, Dense Passage Retrieval, Retrieval-Augmented Generation), sposoby otrzymywania wektorowej reprezentacji zdania, problem halucynacji * Modelowanie obrazów i dźwięków za pomocą transformerów (np. Vision Transformer, wave2vec-2.0, i inne) * Modele multimodalne łączące obraz z tekstowym opisem * Zagadnienia efektywności i kompresji modeli (destylacja wiedzy, kwantyzacja modelu, przycinanie wag) * Łączenie transformerów z innymi narzędziami (m.in. Toolformer) * Wychodzenie poza standardowe zastosowania: transformery realizujące strategie w grach planszowych (m.in OthelloGPT), modelowanie uczenia ze wzmocnieniem za pomocą transformerów, modelowanie obliczeń * Możliwości dużych modeli językowych (Zero Shot Learning, Few Shot Learning, i inne) * Inżynieria promptów (zachęt), metody automatycznego generowania promptów (Chain-of-Thoughts i pokrewne), algorytmy ewolucyjne w tworzeniu promptów * Warianty mechanizmu uwagi i próby poszukiwań następców transformera (np. Linformer, Performer, Reformer, ...) * Siła transformerów/słabość transcformerów (transformery jako Ogólna Sztuczna Inteligencja, ograniczenia w modelowaniu pewnych zagadnień, formalnojęzykowe modele transformerów (np. RASP), czy 'emerging abiilities' dużych modeli są czymś realnym, czy złudzeniem.

Wykłady

Lista
Prowadzący Termin zajęć Limit Zapisani Kolejka
Paweł Rychlikowski
śr 16:00-18:00 (s. 25) 82 48 0

UWAGA! Wyższa liczba oznacza wyższy priorytet, po zapisaniu do grupy zostajemy usunięci z kolejek o niższym priorytecie.

Ćwiczenio-pracownie

Lista
Prowadzący Termin zajęć Limit Zapisani Kolejka
Paweł Rychlikowski
śr 14:00-16:00 (s. 5, 107) 18 16 0
Piotr Wieczorek
cz 12:00-14:00 (s. 104, 137) 18 11 0
Bartosz Brzoza
cz 14:00-16:00 (s. 4, 109) 18 10 0
Bartosz Brzoza
cz 16:00-18:00 (s. 4, 109) 18 10 0

UWAGA! Wyższa liczba oznacza wyższy priorytet, po zapisaniu do grupy zostajemy usunięci z kolejek o niższym priorytecie.


Konsultacje prowadzących:


Imię i nazwisko Pokój Konsultacje
Piotr Wieczorek 338 Proszę o umówienie się e-mailem, preferowany termin: wtorek 10:15-11.00, środa 11:15-12:00
Bartosz Brzoza Czwartek 18:00 Proszę wcześniej o maila: bartosz.brzoza@cs.uni.wroc.pl
Paweł Rychlikowski 302 Konsultacje w semestrze *zimowym* roku akademickiego 2025/2026 będą we wtorki w godzinach 11-12 oraz 14-15. Można też umawiać się na konsultacje w innych terminach (w szczególności, jeżeli nie ma Rady Wydziału, to o 12 jestem też dostępny) *Uwaga*: konsultacje 28.10 nie odbędą się. Osoby zainteresowane proszę o kontakt mailowy, znajdziemy inny termin.