Text mining jest dziedziną, w ktorej zajmujemy się eksploracją tekstow napisanych w języku naturalnym (takim jak polski, czy angielski). Znajduje się ona na przecięciu wyszukiwania informacji, eksploracji danych oraz przetwarzania języka naturalnego. Z racji tego, że coraz więcej danych jest dostępnych w takiej postaci, text mining ma coraz większe znaczenie.
Na wykładzie szczegolny nacisk będzie położony na praktyczne aspekty tej dziedziny, co między innymi oznacza, że będziemy zajmować się zadaniami związanymi z konkretnymi kolekcjami dokumentow (o rozmiarze rzędu miliona dokumentow). W szczegolności będziemy tworzyć system odpowiadający na pytania w języku naturalnym (bazujący na polskiej Wikipedii), system klasyfikacji krotkich wiadomości prasowych (bazujący na Wikinews), system znajdujący dokumenty podobne do wskazanego, system streszczania dokumentow (zarowno pojedynczych, jak i grup dokumentow). Zajmiemy się rownież zadaniem klasyfikacji (na przykładzie orzeczeń sądowych). Na wykładzie zostaną rownież omowione pewne wspołczesne mechanizmy związane ze znajdywaniem reprezentacji wektorowej słow wywodzące się z sieci neuronowych (m.in. word2vec oraz GloVe) i praktyczne konsekwencje użycia tych reprezentacji w rożnych zadaniach TextMiningu. Będą rownież omowione metody wizualizacji tekstow i słow.
Pierwszą część wykładu poświęcimy na opracowanie pewnych narzędzi, ktore umożliwią realizację wymienionych wyżej zadań, w szczegolności zajmiemy się metodami automatycznego odkrywania gramatyki danego języka oraz znaczenia słow (jak rownież relacji pomiędzy słowami).
Wykładowi będą towarzyszyły ćwiczenia połączone z pracownią.
Od uczestnika wymagana jest umiejętność programowania, najlepiej w języku wysokiego poziomu.