
Halbüberwachtes Lernen (engl. Semi-Supervised Learning)
Halbüberwachtes Lernen ist ein Bereich des maschinellen Lernens, der Merkmale sowohl aus überwachten als auch unüberwachten Lernansätzen vereint. In diesem Ansatz werden Trainingsdaten verwendet, die teilweise gelabelt und teilweise ungelabelt sind. Im Gegensatz zum vollständig überwachten Lernen, bei dem alle Trainingsdaten gelabelt sind, erlaubt Modellen des halbüberwachten Lernens, von der zusätzlichen Information aus ungelabelten Daten zu profitieren. Es werden hier die Techniken Self-Training und Co-Training vorgestellt, die es Modellen des halbüberwachten Lernens ermöglichen, die Qualität und Menge der gelabelten Daten schrittweise zu verbessern, indem sie Informationen aus ungelabelten Daten nutzen oder Modelle gemeinsam trainieren. Der Prozess kann in mehreren Schritten erfolgen:
Üblicher überwachter Lernprozess: Beginnend mit den gelabelten Daten wird das Modell initial trainiert, indem es die vorhandenen Labels nutzt, um Muster und Zusammenhänge zu lernen.
Erweiterung durch ungelabelte Daten: Nach dem überwachten Training wird das Modell mit den ungelabelten Daten weitertrainiert. Hierbei versucht es, die zugrundeliegenden Strukturen der Daten zu erfassen und seine Vorhersagefähigkeiten zu verbessern.
Verbesserung durch iteratives Training: Der Prozess, der Nutzung gelabelter und ungelabelter Daten, kann iterativ wiederholt werden. Das Modell wird weiter verbessert, indem es zwischen gelabelten und ungelabelten Daten wechselt.
Codebeispiele für halbüberwachtes Lernen sind in einem Notebook auf Colab und GitHub zusammengetragen.
Nachstehend werden die Vor- und Nachteile des halbüberwachten Lernens näher erläutert:
Vorteile:
Effiziente Nutzung von gelabelten und ungelabelten Daten: Durch die Kombination von gelabelten und ungelabelten Daten können Modellen des halbüberwachten Lernens wertvolle Informationen aus einer umfangreichen Menge von Daten gewinnen, was zu einer effizienteren Nutzung der verfügbaren Ressourcen führt.
Reduzierte Anfälligkeit für Überanpassung: Durch die Integration von Informationen aus ungelabelten Daten können Modelle des halbüberwachten Lernens robuster gegenüber Überanpassung sein, da sie nicht ausschließlich auf gelabelte Daten angewiesen sind.
Nachteile:
Die Qualität der Informationen aus ungelabelten Daten kann erheblich variieren und ist stark von der Repräsentativität der Daten abhängig.
Modelle des halbüberwachten Lernens müssen robust gegenüber Fehlklassifikationen auf ungelabelten Daten sein, um sicherzustellen, dass die Qualität der erweiterten gelabelten Daten nicht beeinträchtigt wird.
Insgesamt bietet halbüberwachtes Lernen eine leistungsstarke Methode, um das Beste aus beiden Welten, gelabelte und ungelabelte Daten, zu kombinieren und Modelle mit verbesserten Leistungen zu erstellen. Halbüberwachtes Lernen findet Anwendung, insbesondere wenn das Sammeln von gelabelten Daten teuer oder zeitaufwändig ist.
Mehr erfahren: IBM/What is semi-supervised learning?, AlexSoft/Semi-Supervised Learning, Explained with Examples, V7Labs/The Ultimate Guide to Semi-Supervised Learning
Last updated