Przetwarzanie dużych danych lato 2011/12

Język wykładowy Angielski
Opiekun Piotr Wieczorek
Liczba godzin
Rodzaj Informatyczny 2
ECTS 6
Polecany dla I roku Nie
Egzamin Tak
Tagi PD (przetwarzanie danych)

Opis przedmiotu:

### Opis (description) W wielu organizacjach ilość danych rośnie w tempie uniemożliwiającym ich przetwarzanie z użyciem standardowych technik bazodanowych. Wiele firm generuje obecnie w ciągu roku większy wolumen danych niż w ciągu całej poprzedniej dekady. Duża część tych danych jest nieustrukturyzowana lub zbyt złożona do efektywnej obróbki z wykorzystaniem tradycyjnych, relacyjnych baz danych. Jednocześnie skalowalność obecnych rozwiązań w zakresie analizy danych staje się problematyczna dla wielu przedsiębiorstw. Aby umożliwić przetwarzanie terabajtów, a często już petabajtów danych konieczne jest wykorzystanie nowego podejścia. Hadoop i jego pochodne są odpowiedzią na powyższe problemy. Apache Hadoop jest systemem opartym na modelu programistycznym MapReduce opracowanym przez Google. MapReduce umożliwia równoległe przetwarzanie bardzo dużych, wpół ustrukturyzowanych zbiorów danych na wielu komputerach zapewniając wysoką wydajność, niskie koszty i prawie nieograniczoną skalowalność. Na jego bazie opracowywane są rozszerzania, w tym hybrydy umożliwiające połączenie zalet Hadoop-a z nowoczesnymi technologiami relacyjnych baz danych. Zakres przedmiotu W ramach zajęć zostaną zaprezentowane techniki przetwarzania dużych danych, ze szczególnym naciskiem na rozwiązania NoSQL. Zostanie dokonany przegląd rozwiązań służących do zapewnienia najbardziej pożądanych cech systemów wielkiej skali: skalowalności, niezawodności oraz wydajności. W ramach części praktyczej studenci uruchomią i skonfigurują cluster Hadoop-a, nauczą się konstruowania programow MapReduce oraz zdobędą podstawowe umiejętności w zakresie optymalizacji systemu i zapytań. System Hive zostanie zaprezentowany jako przykład próby połączenia światów SQL i NoSQL. Doświadczenie z systemami Hadapt, HBase, Pig będzie można zdobyć w ramach projektu kończącego semestr studiów nad przetwarzaniem dużych danych. Kontynuacja Kontynuacja kursu, w tym zaawansowane metody optymalizacji zapytań w systemach rozproszonych, problematyka warstwy przechowywania danych oraz praktyczny projekt integracji systemu z systemami źródłowymi oraz raportowymi będą przedmiotami kursu Zaawansowane zagadnienia przetwarzania dużych danych, który zostanie uruchomiony w kolejnych semestrach. Wymagania wstępne \- podstawowa umiejętność programowania w języku Java **Przedmiot prowadzony we współpracy ze specjalistami z firmy Hadapt, Inc. i Yale University ([http://hadapt.com](http://www.hadapt.com/), [http://hadapt.pl](http://www.hadapt.pl/)).**

Wykłady

Lista
Prowadzący Termin zajęć Limit Zapisani Kolejka
Piotr Wieczorek
300 34 0

UWAGA! Wyższa liczba oznacza wyższy priorytet, po zapisaniu do grupy zostajemy usunięci z kolejek o niższym priorytecie.

Ćwiczenio-pracownie

Lista
Prowadzący Termin zajęć Limit Zapisani Kolejka
Piotr Wieczorek
18 14 0
Piotr Wieczorek
18 18 0

UWAGA! Wyższa liczba oznacza wyższy priorytet, po zapisaniu do grupy zostajemy usunięci z kolejek o niższym priorytecie.


Konsultacje prowadzących:


Imię i nazwisko Pokój Konsultacje
Piotr Wieczorek 338 Proszę o umówienie się e-mailem, preferowany termin: wtorek 12:15-13:00, czwartek 13:15-14.