Category: Machine Learning

Data Sets für Machine Teacher 2021

Jeder benötigt Daten! Besonders jeder, der mit Machine Learning Modellen arbeitet und diese füttern muss. Damit das Suchen ein Ende hat, gibt es hier eine kuratierte Liste von offenen Datensätzen für wichtige Anwendungsfälle.

Speech Processing

  • TIMIT Speech Corpus: Klassifikation von Phonemen – Link
  • 2000HUB5: Baidu Datenset in englischer Sprache – Link
  • LibriSpeech: 500 Stunden Aufnahmen von Hörbüchern in englisch – Link
  • VoxForge: Sauber gesprochenes Englisch – Link
  • CHIME: 4 Sprecher in geräuschstarken Umgebungen – Link
  • TED-LIUM: Aufnahmen und Transkripte von TED-Talks – Link

Sentiment Analysis

  • JHU Sentiments – Link
  • IMDB: Filmrezensionen zur Analyse – Link
  • Stanford Sentiment: Sentiment Annotationen in Englisch der StanfordU – Link

Recommendation Systems

  • MovieLens: Datenset mit verschiedenen Filmen und Meta-Daten – Link
  • Jester: Witze empfehlen – Link
  • Netflix Prize: Videos und Serien empfehlen – Link
  • Book-Crossing dataset: Bücher empfehlen – Link

Question Answering Systems

  • MaluubaNewsQA: 120K Q&A Datenpunkte von CNN – Link
  • Quora QA: Auch mit semantischen Labels – Link
  • CMUD QA Data: Hauptsächlich faktoide Fragen/Antworten – Link
  • Maluuba GO Dialogue: Zielorientierte Konversationen (geeignet für Chatbots) – Link
  • bAbi: Synthetisches Datenset für QA-Tasks von Facebook Research – Link
  • Children Book Test: Question + Context  zu Antwort Annotation von Project Gutenberg Büchern – Link

Music Processing

  • Piano-midi.de: Vielzahl von Piano-Musikstücken – Link
  • Nottingham Datenbank:  Folk Musik – Link
  • MuseData: Klassische Musik – Link
  • JSB Chorales: Klassische Musik – Link

Image Processing

  • Imagenet: Bekanntes Datenset für DeepLearning mit WordNet Kategorien – Link
  • MNIST: Klassisches Letter Datenset – Link
  • CIFAR10: 32×32 Patches in Kategorien – Link
  • Caltech: Bilder aus 101 Kategorien – Link
  • Caltech 256: Bilder aus 256 Kategorien – Link 
  • SVHN: Hausnummern und -schilder – Link
  • NORB: Verschiedene Geräte und Spielzeuge – Link
  • Pascal VOC: Verschiedene Image Recognition Challenges – Link
  • Labelme: Annotierte Bilder (verschiedene Annotationen) – Link
  • COIL 20: Objekte mit 360° Darstellungen – Link
  • COIL100: Objekte mit 360° Darstellungen – Link

Health & Environmental Forecasts

  • ECDC: Krankheiten und Infektionen und ihre Verbreitung – Link
  • Merck MAC: Welche Aktivität weisen Moleküle auf – Link
  • Molecules and Musk: Moleküle – Link

Government & Population Data

  • DataUSA: Daten und Visualisierungen der USA – Link
  • EUGender: Genderspezifische Statistiken der EU – Link
  • NLNational: Niederlande National Register – Link
  • UNDPP: Development Programm der UN – Link

Face Recognition

  • Labelled Faces in the Wild: 13k Bilder aus dem Web mit Namen der Personen – Link
  • Olivetti: Verschiedene Fotos mehrerer Personen – Link
  • Multi-Pie: Datenset der CMU – Link
  • Face-in-Action: Verschiedene Gesichter mit Annotationen – Link
  • JACFEE: Gesichtsausdrücke / Emotionen von asiatischen und kaukasischen Gesichtern – Link
  • FERET: Facial Recognition Annotationen – Link
  • mmifacedb: Labels für Facial Expressions – Link
  • IndianFaceDatabase: Landmarks für Faces – Link
  • Yale Face Database: Face Recognition Datenbank der Yale University – Link, Link

Video Processing

  • Youtube-8M – Youtube Datenset mit verschiedenen Labels für Unterstanding Tasks – Link

Text Processing

  • QWONE – 20 newsgroups to words – Link
  • Reuters (RCV*) Corpuses: text/topic prediction – Link
  • Penn Treebank : Next word prediction – Link
  • Broadcast News for corpus creation and next word prediction – Link

Weiteres

  • University of California, Irvine – Link
  • Caesar0301 auf Github – Link
  • Wikipedias Liste mit öffentlichen Datensets – Link
  • BigMLs Liste mit Datensets – Link

5 coole Anwendungen für Deep Learning

Viele halten es für einen Hype, aber es gibt auch Anwendungen, in denen Deep Learning uns schon ernsthaft helfen kann. Egal ob im Bereich Computer Vision, Natural Language Processing oder Creation, Deep Learning Anwendungen werden in den nächsten Jahren immer häufiger auftreten. Hier ein paar Anwendungen, die aktuell schon möglich sind.

1. Bring deinem Auto bei, wie ein Mensch zu lenken

Es ist kein Problem mehr, ein eigenes Auto dazu zu bringen, zu lenken wie ein Mensch. Das einzige, was man dazu braucht, ist etwas Technik, ein Auto, ein paar Kameras und dieses Paper als Bauanleitung. Damit kann jeder ein selbstfahrendes Auto nachbauen. Das ganze läuft mit Torch 7. Eine gute Simulationsumgebung hierfür ist dann wohl Grand Theft Auto.

2. Bau dir ein intelligentes Tagging-System für deine Bilder

Resultate von Projekt deepimagesent. Credits: Stanford.edu

Resultate von Projekt deepimagesent. Credits: Stanford.edu

Bilder zu beschreiben, haben Deep Learning Netze ebenfalls gelernt. Besonders spannend wird es, wenn man eine große Bildersammlung hat und nun herausfinden will, was in diesen Bildern enthalten ist. Dazu bieten sich verschiedene Programme u.a. NeuralTalk von Andrej Karpathy an. Wie das Ganze funktioniert, lernt man hier (sogar mit passender Demo).

 

3. Male wie ein richtiger Künstler

neural-doodle

Beispiel von Neural Doodle. Credits: alexjc

Neural Doodle heißt das Tool. Man kann mit den, für eine Landschaftszeichnung üblichen, Farben ein Bild malen. Danach transformiert ein Netz das simple Bild in ein Kunstwerk. Dabei nutzt das Netz die Farbkombinationen als Annotation und versucht aus diesen Annotationen das ursprüngliche Kunstwerk wieder herzustellen. Dabei kann man zwischen verschiedenen Stilen wählen. Es hängt ganz davon ab, was man dem Netzwerk zeigt.

 

4. Entwickle deinen eigenen Font

Eigene Fonts entwickeln mit deep-fonts. Credits: erikbern

Eigene Fonts entwickeln mit deep-fonts. Credits: erikbern

Jeder Designer hat schonmal eine Schrift benötigt, die genau nach seinen Wünschen aussieht. Wie wäre es mit einer grafischen Oberfläche, auf der man verschiedene Regler nach links und rechts schieben kann. Was man erhält sind verschiedene Fonts, die das Neuronale Netz passend zu den Eingaben anpasst.

50.000 Schriftarten hat der Autor von deep-fonts benutzt, um das Netzwerk zu trainieren. Hier erhält man den Code und das trainierte Netz für die eigenen Spielereien.

5. Höre und komponiere klassische Musik

Neuronale Netze komponieren sogar Musik. Sie klingt bereits so, als würde jemand am Klavier sitzen und nur persönlich für uns spielen. Damit können in der Zukunft auch professionelle Komponisten und Interpreten ihre Musik von einer KI überarbeiten lassen oder sogar einem Mastering unterziehen. Das ist besonders spannend für Musiker, die noch kein Plattenlabel haben und trotzdem ein Platte in ordentlicher Qualität produzieren wollen. Vielleicht ist das sogar noch eine Marktlücke. 😉 Nachfolgend könnt ihr hören, wie das klingen kann. Mehr Infos dazu findet ihr hier.

5 weitere Anwendungen für Deep Learning lest ihr in unserem zweiten Teil der Serie.