Data Mining

Übersicht

„Die Bedeutung der Ressource „Wissen“ wird in Volkswirtschaften und Unternehmen zunehmend erkannt. Die gesellschaftlichen und organisatorischen Rahmenbedingungen zur Generierung und effektiven Nutzung von Wissen werden in der nahen Zukunft die Wettbewerbsfähigkeit bestimmen. Ziel wissensorientierter Unternehmensführung ist es, aus Informationen Wissen zu generieren, und dieses Wissen in nachhaltige Wettbewerbsvorteile umzusetzen, die als Geschäftserfolge messbar werden.“

(North, 1999)

Data Mining kann als die Anwendung anspruchsvoller statistischer und mathematischer Verfahren bzw. Algorithmen auf umfangreiche Datenbestände verstanden werden, mit der Zielsetzung verborgene Muster, Trends und Zusammenhänge aus den Daten zu extrahieren und diese Erkenntnis zukünftig gewinnbringend einzusetzen (Prognose). Häufig synonym verwendet werden Begriffe wie “Knowledge Discovery in Databases” (KDD), Machine Learning oder auch Predictive Analytics.

Data Mining Verfahren:

Regression
Logistische Regression (binär, multinominal)
Clusteranalyse: hierarchische und partitionierende Verfahren (k-means, PAM, AP)
Diskriminanzanalyse (LDA, QDA)
Künstliche Neuronale Netze: MLP, RBF
Klassifikations- und Regressionsbäume: CART, CHAID
k-NN (k-Nearest Neighbor)
Support Vector Machines (SVM)
ein- und mehrfaktorielle Varianzanalyse (ANOVA)
Kontingenzanalyse
Faktoren-/Hauptkomponentenanalyse (PCA)
Conjoint-Analyse (Verbundmessung)
Warenkorbanalyse (Assoziationsregeln)
Korrespondenzanalyse
…

Daneben relevant …

Umgang mit Missing Values (Imputationsverfahren und Visualisierungsmöglichkeiten)

Resampling Methoden (Kreuzvalidierung, Bagging, Boosting)

Datensatzquellen

Eine Abschlussarbeit kann auch ausgehend von einem Datensatz bearbeitet werden. Hier eine Reihe möglicher Datensatzquellen:

Anforderungen

Sämtliche Themenstellungen sollen neben den theoretischen Grundlagen (d.h. der Modellbildung und den Modellannahmen) einen empirischen Teil aufweisen, in dem ein reeller, themenbezogener Datensatz mittels einer Statistik-Software (R, IBM SPSS Statistics) ausgewertet wird.

Literatur

Backhaus et al., 2011, Multivariate Analysemethoden – eine anwendungsorientierte Einführung, Springer
Backhaus et al., 2011, Fortgeschrittene Multivariate Analysemethoden – eine anwendungsorientierte Einführung, Springer
James et al.; An Introduction to Statistical Learning - with Applications in R; 2013; Springer
Download-Link http://www-bcf.usc.edu/~gareth/ISL/getbook.html
Hastie et al.; The Elements of Statistical Learning – Data Mining, Inference and Prediction; 2009; Springer
Rencher, Methods of multivariate analysis, 2002, John Wiley & Sons Inc.
Nisbet et al., 2009, Handbook of Statistical Analysis and Data Mining Applications, Academic Press
Hand et al., 2001, Principles of Data Mining, The MIT Press
Runkler, 2010, Data Mining: Methoden und Algorithmen intelligenter Datenanalyse, Vieweg+Teubner
Bishop, Pattern Recognition and Machine Learning, 2006, Springer
Fahrmeir et al., Regression – Modelle, Methoden und Anwendungen, 2007, Springer
Tutz, Regression for Categorical Data, 2012, Cambridge Verlag
Toutenburg, Lineare Modelle – Theorie und Anwendungen, 2003, Physika Verlag
Kaufman, Rousseeuw; Finding Groups In Data – An Introduction to Cluster Analysis; 1990; Wiley&Sons
Breiman et al., Classification and Regression Trees, 1998, Chapman & Hall
…