Einführung
- Bei Big-Data-Anwendungen nutzt man statistische Methoden, um Daten zu separieren. Logische Regel Sets eignen sich nicht sehr gut, da sie nur mit viel Aufwand in der Lage sind, Unschärfe abzubilden.
- Es gibt eine Pipeline, nach der man in den meisten Fällen vorgehen sollte und die dabei hilft, den Prozess des Machine Learning zu verbildlichen.
- Supervised Learning wird benutzt, wenn man Datensätze und einen zu lernenden Zielwert definieren kann. Ist das nicht der Fall, kann man Unsupervised Learning nutzen, um Daten zu clustern und sich ein Überblick über die Struktur der Daten zu verschaffen.
Klassifikation und Regression
- Es gibt zwei wichtige Formen, wie man das Ergebnis von einem Machine Learning Experiment ausdrücken kann. Die Klassifikation zeigt die Konfidenz (ähnlich der Wahrscheinlichkeit) an, mit der ein Datenpunkt zu einer Klasse gehört. Im Gegensatz dazu schätzt die Regression einen bestimmten Wert.
Was sind Daten?
- Daten benötigen eine Annotation (ein Label oder Zielwert), damit eine Maschine weiß, was sie lernen muss. Diese Zielwerte können Klassenbezeichnungen ({payer, nopayer}) oder reellwertige Angaben sein (21.99, 17.99)
Vom Feature zum Vektor
- Für das Machine Learning benötigt man einen Feature-Vektor, der das Feature so codiert, dass es ein Algorithmus separieren kann. Deshalb muss der Feature-Vektor für verschiedene Klassen oder Zielwerte auch verschiedene Werte aufweisen. Ist das nicht der Fall, kann der der Algorithmus auch nicht lernen.
- Bei dem Schritt der Feature-Extraktion können diverse Fehler auftreten. FeatureDarstellungen sollten also immer konsistent sein.
Prototyping
- Mittels bestimmten Programmen kann man die Feature-Vektoren testen. Dabei benötigt man keinerlei Programmierkenntnisse sondern nur ein grobes Verständnis der Algorithmen.
Bekannte ML Verfahren
- Es existieren verschiedene Algorithmen, die diverse Vor- und Nachteile haben und sich für bestimmte Anwendungen besser eignen als andere. Prinzipiell sind sie aber vergleichbar.
Messen und Einschätzen
- Es existieren verschiedene Metriken, um den Erfolg eines Klassifikators zu messen. Sie basieren auf binärer Klassifikation. Benutzt man ein, durch die Anzahl der Repräsentanten der Klassen, unausgeglichenes Datenset, so sollte man, um die Genauigkeit zu messen, die F-Measure benutzen.
- Es gibt mehrere Möglichkeiten einen Regressor zu beurteilen. In den meisten Fällen kann man die Metriken der binären Klassifikation wählen. Fehlerklassen sind ebenfalls ein beliebtes Mittel. Welche Option man wählen sollte, hängt von der Art der Anwendung ab.
Over- und Underfitting
- Over- und Under-Fitting des Klassifikators ist zu vermeiden, da der Klassifikator das Training-Set entweder auswendig lernt oder einen zu einfachen Ansatz wählt, um die Daten zu separieren.