Przetwarzanie dużych danych lato 2011/12

Lista

Język wykładowy	Angielski
Opiekun	Piotr Wieczorek
Liczba godzin
Rodzaj	Informatyczny 2
ECTS	6
Polecany dla I roku	Nie
Egzamin	Tak
Tagi	PD (przetwarzanie danych)

Opis przedmiotu:

### Opis (description) W wielu organizacjach ilość danych rośnie w tempie uniemożliwiającym ich przetwarzanie z użyciem standardowych technik bazodanowych. Wiele firm generuje obecnie w ciągu roku większy wolumen danych niż w ciągu całej poprzedniej dekady. Duża część tych danych jest nieustrukturyzowana lub zbyt złożona do efektywnej obróbki z wykorzystaniem tradycyjnych, relacyjnych baz danych. Jednocześnie skalowalność obecnych rozwiązań w zakresie analizy danych staje się problematyczna dla wielu przedsiębiorstw. Aby umożliwić przetwarzanie terabajtów, a często już petabajtów danych konieczne jest wykorzystanie nowego podejścia. Hadoop i jego pochodne są odpowiedzią na powyższe problemy. Apache Hadoop jest systemem opartym na modelu programistycznym MapReduce opracowanym przez Google. MapReduce umożliwia równoległe przetwarzanie bardzo dużych, wpół ustrukturyzowanych zbiorów danych na wielu komputerach zapewniając wysoką wydajność, niskie koszty i prawie nieograniczoną skalowalność. Na jego bazie opracowywane są rozszerzania, w tym hybrydy umożliwiające połączenie zalet Hadoop-a z nowoczesnymi technologiami relacyjnych baz danych. Zakres przedmiotu W ramach zajęć zostaną zaprezentowane techniki przetwarzania dużych danych, ze szczególnym naciskiem na rozwiązania NoSQL. Zostanie dokonany przegląd rozwiązań służących do zapewnienia najbardziej pożądanych cech systemów wielkiej skali: skalowalności, niezawodności oraz wydajności. W ramach części praktyczej studenci uruchomią i skonfigurują cluster Hadoop-a, nauczą się konstruowania programow MapReduce oraz zdobędą podstawowe umiejętności w zakresie optymalizacji systemu i zapytań. System Hive zostanie zaprezentowany jako przykład próby połączenia światów SQL i NoSQL. Doświadczenie z systemami Hadapt, HBase, Pig będzie można zdobyć w ramach projektu kończącego semestr studiów nad przetwarzaniem dużych danych. Kontynuacja Kontynuacja kursu, w tym zaawansowane metody optymalizacji zapytań w systemach rozproszonych, problematyka warstwy przechowywania danych oraz praktyczny projekt integracji systemu z systemami źródłowymi oraz raportowymi będą przedmiotami kursu Zaawansowane zagadnienia przetwarzania dużych danych, który zostanie uruchomiony w kolejnych semestrach. Wymagania wstępne \- podstawowa umiejętność programowania w języku Java **Przedmiot prowadzony we współpracy ze specjalistami z firmy Hadapt, Inc. i Yale University ([http://hadapt.com](http://www.hadapt.com/), [http://hadapt.pl](http://www.hadapt.pl/)).**

Wykłady

Lista

Prowadzący	Termin zajęć	Limit	Zapisani	Kolejka
Piotr Wieczorek		300	34	0

UWAGA! Wyższa liczba oznacza wyższy priorytet, po zapisaniu do grupy zostajemy usunięci z kolejek o niższym priorytecie.

Ćwiczenio-pracownie

Lista

Prowadzący	Termin zajęć	Limit	Zapisani	Kolejka
Piotr Wieczorek		18	14	0
Piotr Wieczorek		18	18	0

UWAGA! Wyższa liczba oznacza wyższy priorytet, po zapisaniu do grupy zostajemy usunięci z kolejek o niższym priorytecie.

Konsultacje prowadzących:

Imię i nazwisko	Pokój	Konsultacje
Piotr Wieczorek	338	Proszę o umówienie się e-mailem, preferowany termin: wtorek 10:15-11.00, środa 11:15-12:00