Page cover

Datennormalisierung oder -skalierung

Die Datennormalisierung oder -skalierung ist ein wichtiger Schritt, um sicherzustellen, dass alle Merkmale eines Datensatzes auf eine vergleichbare Skala gebracht werden. Das hilft, sicherzustellen, dass alle Merkmale gleichmäßig zur Analyse beitragen können, ohne dass einige Merkmale aufgrund ihrer ursprünglichen Skalierung übermäßig dominieren. Die Datennormalisierung und -skalierung ist besonders wichtig für Algorithmen, die auf Distanzmessungen basieren, wie z. B. k-Nearest Neighbors oder Support Vector Machines, da unterschiedliche Skalen zu Verzerrungen in den Ergebnissen führen können.

  • Min-Max-Skalierung: Die Min-Max-Skalierung passt die Daten an, indem sie jedes Merkmal so transformiert, dass die Werte in einem festgelegten Bereich (üblicherweise zwischen 0 und 1) skaliert werden, basierend auf den minimalen und maximalen Werten der jeweiligen Merkmalsverteilung.

    Der folgende Code veranschaulich diese Methode:

    from sklearn.preprocessing import MinMaxScaler
    
    data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
    scaler = MinMaxScaler()
    scaled_data = scaler.fit_transform(data)

    Mehr erfahren: databasecamp/MinMax Scalerarrow-up-right

  • Standardisierung: Die Standardisierung transformiert die Daten, indem sie sie so verschiebt und streckt, dass sie eine Standardnormalverteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1 haben.

    Hier wird die Standardskalierung mit der Python-Bibliothek scikit-learn durchgeführt, um die Werte eines Datensatzes zu zentrieren und auf die Standardabweichung zu skalieren.

    from sklearn.preprocessing import StandardScaler
    
    data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(data)

    Mehr erfahren: scikit-learn/Standardizationarrow-up-right

Last updated