Daten für eine Klassifikation Nach dem man entschieden hat, ob man einen Klassifikator oder einen Regressor implementieren will, kommt es darauf an, die richtigen Daten bereitzustellen sowie die richtigen Labels zu ermitteln. Ein Label beschreibt den Datensatz. Der Vorgang der Label-Bestimmung nennt sich Annotation. Ein Beispiel:
24,android,male,payer 18,ios,male,nopayerIn diesem Fall sind die Daten durch ein Komma separiert. Die Datensätze zeigen das Alter, Plattform, Geschlecht und das Label, ob der User bereits bezahlt hat oder nicht. Mit diesem Datenset würde sich ein Klassifikator trainieren lassen, der zwischen den Klassen {payer, nopayer} (also ein Nutzer der in der Vergangenheit bereit war zu bezahlen [payer] und ein Nutzer der nicht dazu bereit war [nonpayer]) entscheidet.
Daten für eine Regression
24,android,male,17.99 18,ios,male,0.0 43,ios,male,30.00Mit diesem Datenset könnte man einen Regressor trainieren, der anhand der Attribute schätzen soll, wie hoch der monetäre Customer Lifetime Value (CLV) eines Users (erklärt: Wieviel Geld hat der Nutzer auf der Plattform ausgegeben?) ist.Das Label ist hier ein Wert in einer Währung (Euro, Dollar, etc).