Category: Machine Learning

Data Sets f├╝r Machine Teacher 2021

Jeder ben├Âtigt Daten! Besonders jeder, der mit Machine Learning Modellen arbeitet und diese f├╝ttern muss. Damit das Suchen ein Ende hat, gibt es hier eine kuratierte Liste von offenen Datens├Ątzen f├╝r wichtige Anwendungsf├Ąlle.

Speech Processing

  • TIMIT Speech Corpus: Klassifikation von Phonemen┬á– Link
  • 2000HUB5: Baidu Datenset in englischer Sprache –┬áLink
  • LibriSpeech: 500 Stunden Aufnahmen von H├Ârb├╝chern in englisch –┬áLink
  • VoxForge: Sauber gesprochenes Englisch –┬áLink
  • CHIME: 4 Sprecher in ger├Ąuschstarken Umgebungen –┬áLink
  • TED-LIUM: Aufnahmen und Transkripte von TED-Talks –┬áLink

Sentiment Analysis

  • JHU Sentiments –┬áLink
  • IMDB: Filmrezensionen zur Analyse –┬áLink
  • Stanford Sentiment: Sentiment Annotationen in Englisch der StanfordU –┬áLink

Recommendation Systems

  • MovieLens:┬áDatenset mit verschiedenen Filmen und Meta-Daten – Link
  • Jester: Witze empfehlen – Link
  • Netflix Prize: Videos und Serien empfehlen – Link
  • Book-Crossing dataset: B├╝cher empfehlen – Link

Question Answering Systems

  • MaluubaNewsQA: 120K Q&A Datenpunkte von CNN –┬áLink
  • Quora QA: Auch mit semantischen Labels –┬áLink
  • CMUD QA Data: Haupts├Ąchlich faktoide Fragen/Antworten –┬áLink
  • Maluuba GO Dialogue: Zielorientierte Konversationen (geeignet f├╝r Chatbots) –┬áLink
  • bAbi: Synthetisches Datenset f├╝r QA-Tasks von Facebook Research –┬áLink
  • Children┬áBook Test: Question + Context ┬ázu Antwort Annotation von Project Gutenberg B├╝chern –┬áLink

Music Processing

  • Piano-midi.de: Vielzahl von Piano-Musikst├╝cken – Link
  • Nottingham Datenbank: ┬áFolk Musik – Link
  • MuseData: Klassische Musik – Link
  • JSB Chorales: Klassische Musik – Link

Image Processing

  • Imagenet: Bekanntes Datenset f├╝r DeepLearning mit WordNet Kategorien – Link
  • MNIST: Klassisches Letter Datenset – Link
  • CIFAR10: 32×32 Patches in Kategorien – Link
  • Caltech: Bilder aus 101 Kategorien – Link
  • Caltech 256: Bilder aus 256 Kategorien – Link┬á
  • SVHN: Hausnummern und -schilder – Link
  • NORB: Verschiedene Ger├Ąte und Spielzeuge – Link
  • Pascal VOC: Verschiedene Image Recognition Challenges┬á– Link
  • Labelme: Annotierte Bilder (verschiedene Annotationen) – Link
  • COIL 20: Objekte mit 360┬░ Darstellungen – Link
  • COIL100:┬áObjekte mit 360┬░ Darstellungen – Link

Health & Environmental Forecasts

  • ECDC: Krankheiten und Infektionen und ihre Verbreitung┬áÔÇô┬áLink
  • Merck MAC: Welche Aktivit├Ąt weisen Molek├╝le auf ÔÇô┬áLink
  • Molecules and Musk: Molek├╝le ÔÇô┬áLink

Government & Population Data

  • DataUSA: Daten und Visualisierungen der USA –┬áLink
  • EUGender: Genderspezifische Statistiken der EU –┬áLink
  • NLNational: Niederlande National Register –┬áLink
  • UNDPP: Development Programm der UN –┬áLink

Face Recognition

  • Labelled Faces in the Wild: 13k Bilder aus dem Web mit Namen der Personen – Link
  • Olivetti: Verschiedene Fotos mehrerer Personen – Link
  • Multi-Pie: Datenset der CMU┬á– Link
  • Face-in-Action: Verschiedene Gesichter mit Annotationen – Link
  • JACFEE: Gesichtsausdr├╝cke / Emotionen von asiatischen und kaukasischen Gesichtern – Link
  • FERET: Facial Recognition Annotationen┬á– Link
  • mmifacedb: Labels f├╝r Facial Expressions – Link
  • IndianFaceDatabase: Landmarks f├╝r Faces – Link
  • Yale Face Database: Face Recognition Datenbank der Yale University┬á– Link, Link

Video Processing

  • Youtube-8M – Youtube Datenset mit verschiedenen Labels f├╝r Unterstanding Tasks –┬áLink

Text Processing

  • QWONE – 20 newsgroups to words – Link
  • Reuters (RCV*) Corpuses: text/topic prediction – Link
  • Penn Treebank : Next word prediction – Link
  • Broadcast News for corpus creation and next word prediction – Link

Weiteres

  • University of California, Irvine┬á–┬áLink
  • Caesar0301 auf Github – Link
  • Wikipedias Liste mit ├Âffentlichen Datensets – Link
  • BigMLs Liste mit Datensets – Link

5 coole Anwendungen f├╝r Deep Learning

Viele halten es f├╝r einen Hype, aber es gibt auch Anwendungen, in denen Deep Learning uns schon ernsthaft helfen kann. Egal ob im Bereich Computer Vision, Natural Language Processing oder Creation, Deep Learning Anwendungen werden in den n├Ąchsten Jahren immer h├Ąufiger auftreten. Hier ein paar Anwendungen, die aktuell schon m├Âglich sind.

1. Bring deinem Auto bei, wie ein Mensch zu lenken

Es ist kein Problem mehr, ein eigenes Auto dazu zu bringen, zu lenken wie ein Mensch. Das einzige, was man dazu braucht, ist etwas Technik, ein Auto, ein paar Kameras und dieses Paper als Bauanleitung. Damit kann jeder ein selbstfahrendes Auto nachbauen. Das ganze l├Ąuft mit Torch 7. Eine gute Simulationsumgebung hierf├╝r ist dann wohl Grand Theft Auto.

2. Bau dir ein intelligentes Tagging-System f├╝r deine Bilder

Resultate von Projekt deepimagesent. Credits: Stanford.edu

Resultate von Projekt deepimagesent. Credits: Stanford.edu

Bilder zu beschreiben, haben Deep Learning Netze ebenfalls gelernt. Besonders spannend wird es, wenn man eine gro├če Bildersammlung hat und nun herausfinden will, was in diesen Bildern enthalten ist. Dazu bieten sich verschiedene Programme u.a. NeuralTalk von Andrej Karpathy an. Wie das Ganze funktioniert, lernt man hier┬á(sogar mit passender Demo).

 

3. Male wie ein richtiger Künstler

neural-doodle

Beispiel von Neural Doodle. Credits: alexjc

Neural Doodle hei├čt das Tool. Man┬ákann mit den, f├╝r eine Landschaftszeichnung ├╝blichen, Farben ein Bild malen. Danach transformiert ein Netz das simple Bild in ein Kunstwerk. Dabei nutzt das Netz die Farbkombinationen als Annotation und versucht aus diesen Annotationen das urspr├╝ngliche Kunstwerk wieder herzustellen. Dabei kann man zwischen verschiedenen Stilen w├Ąhlen. Es h├Ąngt ganz davon ab, was man dem Netzwerk zeigt.

 

4. Entwickle deinen eigenen Font

Eigene Fonts entwickeln mit deep-fonts. Credits: erikbern

Eigene Fonts entwickeln mit deep-fonts. Credits: erikbern

Jeder Designer hat schonmal eine Schrift ben├Âtigt, die genau nach seinen W├╝nschen aussieht. Wie w├Ąre es mit einer grafischen Oberfl├Ąche, auf der man verschiedene Regler nach links und rechts schieben kann. Was man erh├Ąlt sind verschiedene Fonts, die das Neuronale Netz passend zu den┬áEingaben anpasst.

50.000 Schriftarten hat der Autor von deep-fonts benutzt, um das Netzwerk zu trainieren. Hier erh├Ąlt man den Code und das trainierte Netz f├╝r die eigenen Spielereien.

5. H├Âre und komponiere klassische Musik

Neuronale Netze komponieren sogar Musik. Sie klingt bereits so, als w├╝rde jemand am Klavier sitzen und nur pers├Ânlich f├╝r uns spielen. Damit k├Ânnen in der Zukunft auch professionelle Komponisten und Interpreten ihre Musik von einer KI ├╝berarbeiten lassen oder sogar einem Mastering unterziehen. Das ist besonders spannend f├╝r Musiker, die noch kein Plattenlabel haben und trotzdem ein Platte in ordentlicher Qualit├Ąt produzieren wollen. Vielleicht ist das sogar noch eine Marktl├╝cke. ­čśë Nachfolgend k├Ânnt ihr h├Âren, wie das klingen kann. Mehr Infos dazu findet ihr hier.

5 weitere Anwendungen f├╝r Deep Learning lest ihr in unserem zweiten Teil der Serie.