ML für Non Techies: Was sind Daten?

Daten für eine Klassifikation Nach dem man entschieden hat, ob man einen Klassifikator oder einen Regressor implementieren will, kommt es darauf an, die richtigen Daten bereitzustellen sowie die richtigen Labels zu ermitteln. Ein Label beschreibt den Datensatz. Der Vorgang der Label-Bestimmung nennt sich Annotation. Ein Beispiel:

24,android,male,payer 18,ios,male,nopayer

In diesem Fall sind die Daten durch ein Komma separiert. Die Datensätze zeigen das Alter, Plattform, Geschlecht und das Label, ob der User bereits bezahlt hat oder nicht. Mit diesem Datenset würde sich ein Klassifikator trainieren lassen, der zwischen den Klassen {payer, nopayer} (also ein Nutzer der in der Vergangenheit bereit war zu bezahlen [payer] und ein Nutzer der nicht dazu bereit war [nonpayer]) entscheidet.

Daten für eine Regression

24,android,male,17.99 18,ios,male,0.0 43,ios,male,30.00

Mit diesem Datenset könnte man einen Regressor trainieren, der anhand der Attribute schätzen soll, wie hoch der monetäre Customer Lifetime Value (CLV) eines Users (erklärt: Wieviel Geld hat der Nutzer auf der Plattform ausgegeben?) ist.Das Label ist hier ein Wert in einer Währung (Euro, Dollar, etc).

Wann benötige ich das Label?

Regressoren sowie Klassifikatoren werden mit solchen Datensets trainiert. Diese Labels werden natürlich nur während des Trainings genutzt. Nach dem Training (im produktiven Einsatz des Modells) werden dann die Labels geschätzt. Learning 5 Daten benötigen eine Annotation (ein Label oder Zielwert), damit eine Maschine weiß, was sie lernen muss. Diese Zielwerte können Klassenbezeichnungen ({payer, nopayer}) oder reellwertige Angaben sein (21.99, 17.99). Alles klar? Weiter gehts! > Haben Sie Fragen? Wir bieten Consulting zu diesem Thema an. Zu unseren Angeboten.]]>