
Datenexploration
import numpy as np data = [10, 20, 30, 40, 50] # Durchschnitt berechnen mean = np.mean(data) # Median berechnen median = np.median(data) # Standardabweichung berechnen std_dev = np.std(data)import matplotlib.pyplot as plt from sklearn.datasets import load_iris # Laden des Iris-Datensatzes iris = load_iris() data = iris.data # Auswahl eines Features (z. B. das erste Feature: 'Sepal Length (cm)') feature_index = 0 feature_name = iris.feature_names[feature_index] # Erstellen des Histogramms für das ausgewählte Feature plt.figure(figsize=(8, 6)) plt.hist(data[:, feature_index], bins=10) plt.title(f'Histogramm von {feature_name}') plt.xlabel('Werte') plt.ylabel('Häufigkeit') plt.show()import pandas as pd from sklearn.datasets import load_iris # Iris-Datensatz laden iris = load_iris() # Den Iris-Datensatz in ein pandas DataFrame umwandeln data = pd.DataFrame(data=iris.data, columns=iris.feature_names) # Berechnung der Korrelationsmatrix des DataFrames correlation_matrix = data.corr()import pandas as pd from sklearn.datasets import load_iris from sklearn.cluster import KMeans # Laden des Iris-Datensatzes iris = load_iris() iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names) # Initialisierung des K-Means-Algorithmus mit der Anzahl der Cluster kmeans = KMeans(n_clusters=3, random_state=42) # Training des K-Means-Algorithmus mit den bereitgestellten Daten kmeans.fit(iris_df) # Zuordnung der Datenpunkte zu den Clustern clusters = kmeans.predict(iris_df)import pandas as pd data = pd.DataFrame(...) # Berechnung der Anzahl der fehlenden Werte (NaN, None) in jeder Spalte des DataFrames missing_values = data.isnull().sum()
Last updated