Information retrieval (IR) to dziedzina, ktora zajmuje się wyszukiwaniem
informacji w dużych zbiorach danych, ktore nie mają ściśle określonej
struktury. Naturalnym obszarem zastosowań dla IR są wyszukiwarki internetowe.
Celem wykładu będzie zapoznanie studentow z IR w kontekście wyszukiwarek.
Oprocz tradycyjnych metod IR, omawiane też będą algorytmy bazujące na
specyfice sieci WWW (np. wykorzystujące strukturę grafu linkow między
stronami).
Zajęcia pomocnicze będą w około 50% procentach miały charakter ćwiczeń, a
pozostałe (około) 50% poświęcone będzie realizacji małych projektow
programistycznych.
**Program:**
Wykład oparty będzie na książce Manninga, Raghavana, i Schuetze, ktorej
materiał pokrywa się z [ tym
](http://www.stanford.edu/class/cs276/cs276-2005-syllabus.html) wykładem (p.
slajdy do wykładow). Wprowadza się tam tylko tyle teorii z zakresu IR, ile
jest niezbędne do omowienia konkretnych metod implementowanych w praktyce.
Zagadnienia:
1. tworzenie słownika (tematyzacja, normalizacja, lemmatization)
2. tworzenie indeksu odwroconego, efektywna i dynamiczna konstrukcja indeksu
3. zapytania: boolowskie, frazowe, optymalizacja zapytań
4. kompresja indeksu
5. wyszukiwanie przybliżone (użycie symboli wieloznacznych, uwzględniania błędow w pisowni)
6. ocenianie (rangowanie) dokumentow
7. reprezentacja dokumentow i zapytań w przestrzeni wektorowej, miary podobieństwa (dokładne i heurystyki), ograniczanie liczby wymiarow
8. ocena działania wyszukiwarki
9. probabilistyczne metody wyszukiwania
10. grupowanie dokumentow (clustering), klasyfikacja
11. crawling (roboty, pająki)
12. analiza grafu sieci (graf linkow między stronami)
**Wymagania:** algorytmy i struktury danych wskazane: znajomość podstawowych
zagadnień z zakresu baz danych, sieci komputerowych, probabilistyki i algebry,
umiejętność programowania w Perl, C/C++ lub Javie