Principal Component Analysis (PCA)

Die PCA ist ein Verfahren zur Reduzierung der Dimensionalität von Daten, indem es die Korrelationen zwischen Merkmalen analysiert und Hauptkomponenten extrahiert. Es wird verwendet, um komplexe Datensätze zu vereinfachen und die Dimensionen zu reduzieren, während wichtige Informationen beibehalten werden.

Im Folgenden wird das grundlegende Vorgehen der PCA beschrieben:

Standardisierung der Daten: Sicherstellen, dass die Daten standardisiert sind, d. h. sie haben einen Durchschnittswert von 0 und eine Standardabweichung von 1.
Kovarianzmatrix berechnen: Kovarianzmatrix der standardisierten Daten berechnen. Diese Matrix enthält Informationen über die Korrelationen zwischen den Merkmalen.
Eigenwerte und Eigenvektoren berechnen: Eigenwerte und Eigenvektoren der Kovarianzmatrix bestimmen.
Sortieren der Hauptkomponenten: Eigenvektoren absteigend nach den zugehörigen Eigenwerten ordnen. Die ersten Eigenvektoren repräsentieren die Hauptkomponenten.
Auswahl der Hauptkomponenten: Auswahl der gewünschten Anzahl von Hauptkomponenten, um die Dimensionalität der Daten zu reduzieren. Dies hängt vom spezifischen Anwendungsfall ab.
Daten transformieren: Daten in den Raum der ausgewählten Hauptkomponenten transformieren, um eine reduzierte Dimensionalität zu erreichen.

Die Abbildung 14 zeigt das Funktionsprinzip einer PCA, bei der die Datenpunkte entlang der beiden Hauptachsen (rote Pfeile) projiziert werden. Die erste PCA-Dimension erfasst die meiste Varianz in den Daten, während die zweite PCA-Dimension die verbleibende Varianz in einer orthogonalen Richtung erfasst.

Die Vor- und Nachteile von PCA werden im anschließenden Abschnitt beschrieben:

Vorteile:

Dimensionsreduktion: PCA ermöglicht eine effektive Reduzierung der Dimensionalität von Daten, was die Berechnungseffizienz verbessert und Überanpassung reduziert.
Erhaltung der Information: Trotz der Reduktion der Dimensionen versucht PCA, die maximale Varianz in den Daten beizubehalten, wodurch wichtige Informationen erhalten bleiben.
Datenvisualisierung: PCA erleichtert die Visualisierung hochdimensionaler Daten, indem es sie auf eine niedrigdimensionale Ebene projiziert, was die Interpretation und Analyse erleichtert.

Nachteile:

Lineare Transformation: PCA führt eine lineare Transformation der Daten durch, was bedeutet, dass komplexe nicht lineare Strukturen möglicherweise nicht gut dargestellt werden können.
Empfindlich gegenüber Skalierung: PCA ist empfindlich gegenüber der Skalierung der Daten, was bedeutet, dass die Ergebnisse davon beeinflusst werden können, wie die Merkmale skaliert sind.
Interpretierbarkeit der Ergebnisse: Die interpretierbaren Eigenschaften der resultierenden Hauptkomponenten können mit der Anzahl der Dimensionen abnehmen, was die Aussagekraft der Ergebnisse erschweren kann.

Folgend wird die Principal Component Analysis (PCA) verwendet, um den Iris-Datensatz zu analysieren. Dabei werden die Daten auf zwei Hauptkomponenten reduziert, was zu einer übersichtlichen Repräsentation führt und eine einfache Analyse ermöglicht.

from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

# Laden des Iris-Datensatzes
iris = load_iris()

# Trainingsdaten und -label definieren
X,y = iris.data, iris.target

# PCA mit 2 Hauptkomponenten
pca = PCA(n_components=2, random_state=0)
X_r = pca.fit_transform(X)

Mehr erfahren: IBM/What is principal component analysis (PCA)?, GeeksforGeeks/Principal Component Analysis(PCA), buildin/A Step-by-Step Explanation of Principal Component Analysis (PCA)

PreviousDimensionsreduktion Nextt-Distributed Stochastic Neighbor Embedding (t-SNE)

Last updated 9 months ago