Text mining jest dziedziną, w ktorej zajmujemy się eksploracją tekstow napisanych w języku naturalnym (takim jak polski, czy angielski). Znajduje się ona na przecięciu wyszukiwania informacji, eksploracji danych oraz przetwarzania języka naturalnego. Z racji tego, że coraz więcej danych jest dostępnych w takiej postaci, text mining ma coraz większe znaczenie.
Na wykładzie szczegolny nacisk będzie położony na praktyczne aspekty tej dziedziny, co między innymi oznacza, że będziemy zajmować się zadaniami związanymi z konkretnymi kolekcjami dokumentow (o rozmiarze rzędu miliona dokumentow). W szczegolności będziemy tworzyć system odpowiadający na pytania w języku naturalnym (bazujący na polskiej wikipedii), system klasyfikacji krotkich wiadomości prasowych (bazujący na wikinews), system znajdujący dokumenty podobne do wskazanego (na przykładzie biuletynu zamowień publicznych), system streszczania dokumentow (zarowno pojedynczych, jak i grup dokumentow; na przykładzie wszystkich polskich aktow prawnych).
Pierwszą część wykładu poświęcimy na opracowanie pewnych narzędzi, ktore umożliwią realizację wymienionych wyżej zadań, w szczegolności zajmiemy się metodami automatycznego odkrywania gramatyki danego języka oraz znaczenia słow (jak rownież relacji pomiędzy słowami).
Wykładowi będą towarzyszyły ćwiczenia połączone z pracownią.
umiejętność programowania, najlepiej w języku wysokiego poziomu