Eksploracja danych

RSS

Cel przedmiotu

Zapoznanie studentów z zaawansowanymi technologiami współczesnych baz danych związanymi z gromadzeniem i analizowaniem ogromnych zbiorów danych. W ramach przedmiotu przedstawione zostają podstawowe pojęcia, metody i algorytmy wykorzystywane w technologii hurtowni danych i eksploracji danych w zróżnicowanych repozytoriach danych. Studenci zapoznają się z rzeczywistymi problemami praktycznej realizacji takich systemów

Program wykładu

1. Eksploracja danych, podstawowe pojęcia i definicje (2 godz.) Źródła zalewu danych, proces KDD i jego etapy, typy zapytań do repozytoriów danych, business intelligence, kategorie danych podlegające eksploracji, klasyfikacje metod eksploracji, przegląd metod eksploracji danych, zastosowania, ocena wiedzy 2. Metodyki tworzenia projektów eksploracji danych (2 godz.) Omówienie wad i zalet popularnych metodyk KDD: SEMMA, CRISP-DM, Six-Sigma, szczegółowe omówienie CRISP-DM (poszczególne fazy, zadania ogólne, zadania specjalizowane, instancje procesu) 3. Zrozumienie danych (2 godziny) Pojęcie obiektów danych i ich atrybutów, typy atrybutów, podstawowe charakterystyki danych (pomiar centralności i rozproszenia), graficzna prezentacja statystyk opisowych, pomiar korelacji 4. Przygotowanie danych (2 godziny) Główne zadania we wstępnym przygotowaniu danych, strategie uzupełniania danych, eliminacja szumów, czyszczenie danych jako proces, integracja danych, obsługa nadmiarowości, strategie redukcji danych, transformacja falkowa, analiza składowych głównych, wybór podzbioru cech, redukcja wymiarowości/liczności, transformacja danych 5. Znajdowanie reguł asocjacyjnych (4 godz.) Podstawowe pojęcia: częsty wzorzec, k-elementowe podzbiory, wsparcie/ufność reguły, domknięte i maksymalne wzorce, algorytm Apriori i jego modyfikacje, algorytm FP-growth, Eclat, Closet, MaxMiner, miary oceny wzorców: lift, chi-kwadrat, eksploracja częstych wzorców w wielopoziomowej i wielowymiarowej przestrzeni, eksploracja z ograniczeniami 6. Wyszukiwanie wzorców sekwencji (2 godz.) Baza sekwencji, wyzwania eksploracji wzorców sekwencji, własność Apriori wzorców sekwencji, algorytm GSP, SPADE, przedrostek/przyrostek sekwencji, algorytm PrefixSpan, 7. Klasyfikacja danych (4 godz.) Uczenie z nadzorem/bez nadzoru, klasyfikacja a prognozowanie numeryczne, proces klasyfikacji, metody klasyfikacji, kryteria porównawcze, indukcja drzew decyzyjnych, miary wyboru atrybutu (przyrost informacji, wspólczynnik przyrostu informacji, indeks gini, nadmierne dopasowanie i przycinanie drzewa, klasyfikacja w dużych bazach danych: algorytm SLIQ, SPRINT, PUBLIC, RainForest, BOAT, klasyfikacja w oparciu o reguły, metody oceny jakości modelu: macierz błędów, dokładność klasyfikatora, klasyfikacja z niezrównoważonymi klasami, klasyfikator bayesowski, SVM 8. Klastrowanie danych (4 godz.) Metody podziałowo-optymalizacyjne (k-means), hierarchiczne (Agnes, Diana, Birch), gęstościowe (DBSCAN), gridowe (STING), metody oceny grupowania, wymagania, zastosowania 9. Wyszukiwanie obiektów odległych (2 godz.) Obiekt odległy a szum, obiekt odległy globalny/kontekstowy/zbiorowy, metody nadzorowane/nienadzorowane/seminadzorowane/statystyczne/oparte o bliskość/klastrujące 10. Sieci złożone (2 godz.) Eksploracja zaawansowanych typów danych, wprowadzenie do analizy sieci złożonych, mosty królewieckie, początki: nauki społeczne, cechy układy złożonego, teorie sieci złożonych (Erdos&Reny), perkolacyjne przejście fazowe, model Barabasiego 11. Analiza sieci społecznych (4 godz.) Definicja sieci społecznej i jej analizy (SNA), zastosowania praktyczne, własności sieci rzeczywistych, rodzaje grafów, stopień wierzchołka, ścieżki i najkrótsze ścieżki, spójność grafu, rozkład stopni wierzchołków, sieci potęgowe (huby, długi ogon), formowanie grup społecznych: teoria równowagi społecznej/homofilia, gęstość, współczynnik grupowania, teoria małego świata, miary centralności, modularność w sieciach złożonych: kliki/n-kliki/moduły, metody podziałowe analizy hierarchii skupień

Charakterystyka pozostałych zajęć

Ćwiczenia laboratoryjne 1. Wprowadzenie do narzędzi i bibliotek (2 godz.). 2. Zrozumienie i przygotowanie danych (4 godz.). 3. Znajdowanie częstych wzorców i wzorców sekwencji (6 godz.). 4. Klasyfikacja danych (4 godz.). 5. Klastrowanie danych (4 godz.). 6. Wyszukiwanie samotników (4 godz.). 7. Sieci społeczne (6 godz.). Przykłady mini projektów: sna.iisg.agh.edu.pl

Bibliografia

1. Han J., Kamber M., Pei J., Data mining: concepts and techniques, Morgan Kaufmann, 2011.
2. Fronczak A., Fronczak P., Świat sieci złożonych: od fizyki do Internetu, PWN, 2009.
3. Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, 2005.
4. Nisbet R., Elder J., Miner G., Handbook of Statistical Analysis&Data Mining Applications, Elsevier, 2009.
5. Williams G., Data Mining with Rattle and R. The Art of Excavating Data for Knowledge Discovery, Springer Link, 2011

Wszelkie prawa zastrzeżone © 2010 Katedra Informatyki   |   Akademia Górniczno-Hutnicza   |   Realizacja Creative Bastards