Wyszukiwanie informacji

Język wykładowy Angielski
Semestr Letni
Status Wycofana z oferty
Opiekun Tomasz Jurdziński
Liczba godzin
Rodzaj Informatyczny 2
ECTS 6
Polecany dla I roku Nie
Egzamin Tak

Opis przedmiotu:

Information retrieval (IR) to dziedzina, ktora zajmuje się wyszukiwaniem informacji w dużych zbiorach danych, ktore nie mają ściśle określonej struktury. Naturalnym obszarem zastosowań dla IR są wyszukiwarki internetowe. Celem wykładu będzie zapoznanie studentow z IR w kontekście wyszukiwarek. Oprocz tradycyjnych metod IR, omawiane też będą algorytmy bazujące na specyfice sieci WWW (np. wykorzystujące strukturę grafu linkow między stronami). Zajęcia pomocnicze będą w około 50% procentach miały charakter ćwiczeń, a pozostałe (około) 50% poświęcone będzie realizacji małych projektow programistycznych. **Program:** Wykład oparty będzie na książce Manninga, Raghavana, i Schuetze, ktorej materiał pokrywa się z [ tym ](http://www.stanford.edu/class/cs276/cs276-2005-syllabus.html) wykładem (p. slajdy do wykładow). Wprowadza się tam tylko tyle teorii z zakresu IR, ile jest niezbędne do omowienia konkretnych metod implementowanych w praktyce. Zagadnienia: 1. tworzenie słownika (tematyzacja, normalizacja, lemmatization) 2. tworzenie indeksu odwroconego, efektywna i dynamiczna konstrukcja indeksu 3. zapytania: boolowskie, frazowe, optymalizacja zapytań 4. kompresja indeksu 5. wyszukiwanie przybliżone (użycie symboli wieloznacznych, uwzględniania błędow w pisowni) 6. ocenianie (rangowanie) dokumentow 7. reprezentacja dokumentow i zapytań w przestrzeni wektorowej, miary podobieństwa (dokładne i heurystyki), ograniczanie liczby wymiarow 8. ocena działania wyszukiwarki 9. probabilistyczne metody wyszukiwania 10. grupowanie dokumentow (clustering), klasyfikacja 11. crawling (roboty, pająki) 12. analiza grafu sieci (graf linkow między stronami) **Wymagania:** algorytmy i struktury danych wskazane: znajomość podstawowych zagadnień z zakresu baz danych, sieci komputerowych, probabilistyki i algebry, umiejętność programowania w Perl, C/C++ lub Javie