Datennormalisierung oder -skalierung

Die Datennormalisierung oder -skalierung ist ein wichtiger Schritt, um sicherzustellen, dass alle Merkmale eines Datensatzes auf eine vergleichbare Skala gebracht werden. Das hilft, sicherzustellen, dass alle Merkmale gleichmäßig zur Analyse beitragen können, ohne dass einige Merkmale aufgrund ihrer ursprünglichen Skalierung übermäßig dominieren. Die Datennormalisierung und -skalierung ist besonders wichtig für Algorithmen, die auf Distanzmessungen basieren, wie z. B. k-Nearest Neighbors oder Support Vector Machines, da unterschiedliche Skalen zu Verzerrungen in den Ergebnissen führen können.

Min-Max-Skalierung: Die Min-Max-Skalierung passt die Daten an, indem sie jedes Merkmal so transformiert, dass die Werte in einem festgelegten Bereich (üblicherweise zwischen 0 und 1) skaliert werden, basierend auf den minimalen und maximalen Werten der jeweiligen Merkmalsverteilung.
Der folgende Code veranschaulich diese Methode:
```
from sklearn.preprocessing import MinMaxScaler

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)
```
Mehr erfahren: databasecamp/MinMax Scaler
Standardisierung: Die Standardisierung transformiert die Daten, indem sie sie so verschiebt und streckt, dass sie eine Standardnormalverteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1 haben.
Hier wird die Standardskalierung mit der Python-Bibliothek scikit-learn durchgeführt, um die Werte eines Datensatzes zu zentrieren und auf die Standardabweichung zu skalieren.
```
from sklearn.preprocessing import StandardScaler

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
```
Mehr erfahren: scikit-learn/Standardization

PreviousFeature Engineering NextDatenkodierung

Last updated 1 year ago