Aus Daten werden Vektoren Nachdem man die passenden Datensätze ausgewählt hat und diese mit einem Label versehen hat, folgt der nächste Schritt. Die Daten müssen nun in einen Vektor transformiert werden:  0,1,0,0,0,1,0,1,0,0,0,0,1,1} . So könnte ein möglicher Feature-Vektor aussehen. Die Anzahl der Features (durch das Komma separierte Zahlenwerte), die man für die Darstellung der Daten im Vektor benutzt, nennt man Dimensionen. Dieser Schritt sollte vom Engineer verstanden werden. Der Manager muss lediglich wissen, dass es diesen Schritt gibt und welche Probleme damit einher gehen können:

  • Wählt man eine ungünstige Codierung der Features, kann es passieren, dass sich die Features nicht gut separieren lassen.
  • Ist die Codierung des Features während Trainings-, Test-, Validations- und Production-Phase nicht konsistent, erhält man keine konsistenten Ergebnisse.

Wie entstehen Vektoren aus Daten?

Das Programm das aus den Daten die Features die Vektoren formt, nennt sich Feature-Extraktor.
{24, anda, male} → {0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1} {18, ios, male} → {1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1}
Wie wir im Bespiel sehen können, existieren für die beiden verschiedenen Datensätze zwei verschiedene Darstellungen des Feature-Vektors. Datensätze mit identischen Attributen hätten auch die gleiche Darstellung im Feature-Raum. Durch diese unterschiedliche Codierung lernt die Machine Learning Anwendungen Datenpunkte zu unterscheiden. Learning 6 Für das Machine Learning benötigt man einen Feature-Vektor, der das Feature so codiert, dass es ein Algorithmus separieren kann. Deshalb muss der Feature-Vektor für verschiedene Klassen oder Zielwerte auch verschiedene Werte aufweisen. Ist das nicht der Fall, kann der der Algorithmus auch nicht lernen. Learning 7 Bei dem Schritt der Feature Extraktion können diverse Fehler auftreten. Feature-Darstellungen sollten also immer konsistent sein. Alles klar? Weiter gehts! > Haben Sie Fragen? Wir bieten Consulting zu diesem Thema an. Zu unseren Angeboten.]]>