PD (przetwarzanie danych)DS (Data Science)AI-ZŁOŻ (AI (II st.) uczenie maszynowe dla złożonych struktur danych)
Opis przedmiotu:
Celem przedmiotu jest zapoznanie słuchaczy z zaawansowanymi algorytmami eksploracji danych, uczenia maszynowego i uczenia głębokiego, dotyczącymi głównie przetwarzania złożonych danych, m.in. danych czasowych i danych przestrzennych, systemów rekomendujących, redukcji wymiarowości czy systemów wspomagania decyzji. Zajęcia pomocnicze skupiają się na rozwiązywaniu przykładowych problemów świata rzeczywistego za pomocą zaawansowanych podejść sztucznej inteligencji.
Ogólny program zajęć:
1. Zaawansowane zagadnienia eksploracji danych.
2. Dane sekwencyjne i temporalne. Wielowymiarowe szeregi czasowe. Prognozowanie metodami stochastycznymi i uczenia maszynowego. Grupowanie i klasyfikacja szeregów czasowych, danych temporalnych i sekwencyjnych. Wzorce charakterystyczne w szeregach czasowych.
3. Systemy rekomendujące. Collaborative Filtering i jego rozszerzenia. Faktoryzacja macierzy i jej rozszerzenia. Grupowanie produktów i użytkowników w systemach rekomendujących. Praktyczne problemy systemów rekomendujących: dokładność (ang. accuracy), pokrycie (ang. coverage), różnorodność (ang. diversity), nowość (ang. novelty) i inne miary oceny systemów rekomendujących.
4. Redukcja wymiarowości. Liniowa redukcja wymiarowości przestrzeni danych. Nieliniowa redukcja wymiarowości przestrzeni danych (w tym przekształcenia kernelowe). Zanurzenia sąsiedztw punktów danych (podejścia deterministyczne i probabilistyczne). Ekstrakcja cech charakterystycznych danych.
5. Eksploracja danych złożonych i nieustrukturalizowanych. Dane geoprzestrzenne. Trajektorie ruchu GPS.
5. Systemy wspomagania decyzji. Wybrane zastosowania zaawansowanej eksploracji danych.
This lecture focuses on advanced data mining algorithms for processing big, complex and unstructured data. It mainly concerns recommendation systems, dimensionality reduction with neighborhood embedding, temporal data mining and decision support systems. In recommendation systems, various approaches from simple collaborative filtering to advanced matrix factorization are presented and discussed in the context of their practical relevance, concerning not only the popular MSE or MAE measures, but also the coverage, diversity, and novelty of recommendations. In temporal data mining, beside the analysis of regular time series with machine learning methods, such as Support Vector Regression and Neural Networks, unstructured temporal data are studied. Additional topics may concern unstructured datasets, such as irregular multidimensional time series, GPS tracks or medical images.