Celem wykładu byłoby omowienie metod stosowanych w analizie i przetwarzaniu
tekstow w językow naturalnych, ze szczegolnym uwzględnieniem wynikow, ktore
można przełożyć na efektywnie działające implementacje. Największy nacisk
położony będzie na technologie pasujące do języka polskiego.
Będziemy zajmowali się takimi zadaniami, jak:
* tworzeniem rożnych modeli języka oraz stosowaniem ich do korekty błędow, rozpoznawania mowy czy też pisma
* znajdowaniem struktury wypowiedzi
* metodami ujednoznaczniania wypowiedzi, ktora może być odczytana na wiele sposobow (przykładowo w zdaniu: Janek je słonecznik i śmieci)
* automatyczną analizą treści dokumentu, automatycznym określaniem tematyki dokumentu, czy
* algorytmami streszczania
* automatyczną generacją tekstu o określonych właściwościach
* wyciąganiem użytecznej wiedzy z analizy bardzo dużych kolekcji tekstow
Omowione zostaną między innymi następujące zagadnienia: łańcuchy Markowa,
rożne formalizmy opisu języka (np. gramatyki atrybutowe, probabilistyczne
gramatyki bezkonteksowe, HPSG, Tree Adjoining Grammar), traktowanie dokumentu
jako multizbioru słow, rożne algorytmy parsingu tekstow, parsing
powierzchniowy oraz analiza zależności. Ponadto będziemy zajmować się
wspołczesnymi metodami wykorzystującymi sieci neuronowe. Przedstawiona też
zostanie potrzebna wiedza lingwistyczna, oczywiście z perspektywy informatyka.
Zajęciami dodatkowymi, wspomagającymi zrozumienie materiału i odnoszącymi
omawiane zagadnienia do sfery praktycznej, byłyby ćwiczenia połączone z
pracownią.
Od studenta oczekujemy zaliczenie Metod programowania, umiejętności
programowania w języku wyższego rzędu. Mile widziana jest podstawowa znajomość
Prologa (na poziomie nieco niższym, niż wymagany na Metodach programowania),
nie zaszkodzi znajomość podstawowych pojęć z teorii językow formalnych (język
regularny, bezkontekstowy, kontekstowy) Pewne zagadnienia będą ilustrowane za
pomocą pakietu NLTK-Lite (Natural Language ToolKit), napisanego w Pythonie.
Dobrze mieć zatem podstawową znajomość tego języka lub chęć poświęcenia 1-2
godzin na samodzielne nabycie tej znajomości.