Page cover

Datensammlung

Die Datensammlung beinhaltet das Beschaffen von Daten, die für das ML-Projekt relevant sind. Diese Daten können aus verschiedenen Quellen stammen, darunter Sensoren (Daten, die selbst erfasst wurden), Online-Datenbanken oder APIs (Programmierschnittstellen, die den Zugriff auf bestimmte Daten oder Dienste ermöglichen). Im Folgenden werden die Open-Source Datensätze vorgestellt, die in den Kapiteln zu maschinelles Lernen und TinyML zur Veranschaulichung verwendet werden. In diesem Abschnitt werden außerdem verschiedene Aspekte der Datensammlung aufgegriffen, darunter die Auswahl geeigneter Datenquellen, das Labeling von Daten sowie Methoden zur Datenaufnahme und -verarbeitung.

Open-Source-Datensätze

Ein Beispiel für einen Open-Source Datensatz ist der Iris-Datensatzarrow-up-right (engl. für Schwertlilie), welcher bereits in vielen ML-Bibliotheken enthalten ist. Der Iris-Datensatz ist eine vordefinierte Sammlung von Messungen, die die Blütenmerkmale von drei verschiedenen Schwertlilien-Arten repräsentieren. Er wird häufig in ML-Projekten verwendet, um Algorithmen für Klassifikations- und Mustererkennungsaufgaben zu trainieren und zu evaluieren.

Der Modified National Institute of Standards and Technology (MNIST)-Datensatzarrow-up-right ist ein bekannter Benchmark für die Bilderkennung und besteht aus handgeschriebenen Ziffern von null bis neun. Der MNIST-Datensatz konzentriert sich ausschließlich auf handgeschriebene Ziffern in einem standardisierten Format. Jede Instanz im MNIST-Datensatz ist ein 28x28 Pixel großes Graustufenbild, das eine einzelne handgeschriebene Ziffer darstellt. Der Datensatz wird häufig für die Entwicklung und Evaluierung von Bilderkennungsalgorithmen verwendet.

Datenaufnahme

Die Datensammlung ist ein entscheidender Schritt in jedem Machine-Learning-Projekt. Sie umfasst das Beschaffen und Aufbereiten von Daten, die für das Training und die Evaluation von Modellen benötigt werden. Folgende Punkte sind bei der Datensammlung zu beachten.

  • Datenaufnahme gemäß den Grundregeln: Bei der Datenaufnahme sollten grundlegende Prinzipien wie Realitätsnähe, Qualität, Varianz, Quantität, Fehlervermeidung, Aktualität, Datenschutz und Ethik beachtet werden.

  • Datenlabeling:

    Die Daten können folgendermaßen gelabelt werden:

    • Jedem Datenpunkt wird manuell ein Label zugeordnet.

    • Nur einem Teil der Daten wird manuell ein Label zugewiesen, die restlichen Label werden daraufhin automatisiert vergeben.

    • Das Labeln der Daten wird komplett automatisiert.

  • Format der Daten: Die Datenaufnahme kann in verschiedenen Formaten erfolgen, darunter tabellarisch, in einer Verzeichnisstruktur oder als Dateien mit entsprechenden Labels.

  • Datenlesefunktionen in Python-Bibliotheken: In Python-Bibliotheken wie TensorFlow, PyTorch und scikit-learn stehen verschiedene Funktionen zur Verfügung, um Daten aus verschiedenen Quellen zu lesen und zu verarbeiten.

Mehr erfahren: TensorFlow/Datasetsarrow-up-right, PyTorch/Datasetsarrow-up-right, scikit-learn/Dataset loading utilitiesarrow-up-right, kaggle/Datasetsarrow-up-right, Papers With Code/Datasetsarrow-up-right, Hugging Face/Datasetsarrow-up-right, Data.Gov/Datasetarrow-up-right, scikit-learn/The Digit Datasetarrow-up-right, TensorFlow/mnistarrow-up-right

Last updated