Eksploracja tekstów jest dziedziną, w której badamy sposoby i możliwości efektywnej analizy (dużych) zbiorów danych tekstowych. Znajduje się ona na przecięciu wyszukiwania informacji, eksploracji danych oraz przetwarzania języka naturalnego (takiego jak polski czy angielski).
Z racji tego, że coraz więcej danych jest dostępnych w postaci kolekcji dokumentów, eksploracja tekstów ma coraz większe znaczenie.
Na wykładzie będziemy zajmować się wszystkimi etapami eksploracji tekstów i wyszukiwania informacji, kładąc nacisk na przedstawienie praktycznych i efektywnych rozwiązań, sczególnie w sytuacji, w której analizowany zbiór dokumentów ma rozmiar rzędu kilku gigabajtów tekstu (na przykład cała Wikipedia).
Omówimy wstępne przetwarzanie tekstów, sposoby wyszukiwania pełnotekstowego, budowę efektywnego silnika, tworzącego dla zapytań rankingi (relewantnych) dokumentów. Omówimy sposoby zadawania zapytań, z dużym naciskiem na automatyczną korektę błędów (spelling correction).
Zajmiemy się również zadaniem klasyfikacji. Na wykładzie zostaną też omówione pewne współczesne mechanizmy związane ze znajdywaniem reprezentacji wektorowej słów wywodzące się z sieci neuronowych (m.in. word2vec oraz GloVe) i praktyczne konsekwencje użycia tych reprezentacji w różnych zadaniach eksploracji tekstów. Będą również omówione metody wizualizacji tekstów i słów.
W przypadku konieczności organizowania zajęć w formie zdalnej, studenci otrzymają nagrane wykłady, ćwiczenia będą w przeprowadzone z deklaracjami i wspólną pracą nad Raportem z ćwiczeń, zadania na pracownie będą konsultowane i odbierane przy użyciu systemu telekonferencyjnego.