Page cover

Datenkodierung

Die Datenkodierung, hier das One-Hot-Encoding, ist ein weiterer Schritt in der Datenvorverarbeitung für maschinelles Lernen. Es ermöglicht die Umwandlung kategorialer Merkmale in eine Form, die von ML-Algorithmen besser verarbeitet werden kann. Diese Technik ist besonders relevant, wenn die kategorialen Merkmale keine natürliche Rangfolge besitzen oder wenn sie als nicht-numerische Werte vorliegen (wie beispielsweise Farben). Beim One-Hot-Encoding wird jedes kategoriale Merkmal in eine binäre Matrix umgewandelt. Dabei wird jede Kategorie des Merkmals in eine eigene Spalte der Matrix transformiert. Wenn das Merkmal eine bestimmte Kategorie aufweist, wird in dieser Spalte eine 1 eingetragen, andernfalls eine 0. Dies ermöglicht es dem Algorithmus, die Anwesenheit oder Abwesenheit bestimmter Merkmalsausprägungen zu erkennen, ohne eine implizite Rangfolge zwischen den Kategorien anzunehmen.

Dieses Codebeispiel zeigt, wie mit der Python-Bibliothek pandas kategoriale Daten mithilfe der One-Hot-Encoding-Methode in numerische Form umgewandelt werden.

import pandas as pd

data = pd.DataFrame({'Farbe': ['Rot', 'Grün', 'Blau', 'Rot', 'Gelb']})
encoded_data = pd.get_dummies(data, columns=['Farbe'])

Mehr erfahren: wandb/One-Hot Encoding

Last updated