Speech Processing

  • TIMIT Speech Corpus: Klassifikation von Phonemen – Link
  • 2000HUB5: Baidu Datenset in englischer Sprache – Link
  • LibriSpeech: 500 Stunden Aufnahmen von Hörbüchern in englisch – Link
  • VoxForge: Sauber gesprochenes Englisch – Link
  • CHIME: 4 Sprecher in geräuschstarken Umgebungen – Link
  • TED-LIUM: Aufnahmen und Transkripte von TED-Talks – Link

Sentiment Analysis

  • JHU Sentiments – Link
  • IMDB: Filmrezensionen zur Analyse – Link
  • Stanford Sentiment: Sentiment Annotationen in Englisch der StanfordU – Link

Recommendation Systems

  • MovieLens: Datenset mit verschiedenen Filmen und Meta-Daten – Link
  • Jester: Witze empfehlen – Link
  • Netflix Prize: Videos und Serien empfehlen – Link
  • Book-Crossing dataset: Bücher empfehlen – Link

Question Answering Systems

  • MaluubaNewsQA: 120K Q&A Datenpunkte von CNN – Link
  • Quora QA: Auch mit semantischen Labels – Link
  • CMUD QA Data: Hauptsächlich faktoide Fragen/Antworten – Link
  • Maluuba GO Dialogue: Zielorientierte Konversationen (geeignet für Chatbots) – Link
  • bAbi: Synthetisches Datenset für QA-Tasks von Facebook Research – Link
  • Children Book Test: Question + Context  zu Antwort Annotation von Project Gutenberg Büchern – Link

Music Processing

  • Piano-midi.de: Vielzahl von Piano-Musikstücken – Link
  • Nottingham Datenbank:  Folk Musik – Link
  • MuseData: Klassische Musik – Link
  • JSB Chorales: Klassische Musik – Link

Image Processing

  • Imagenet: Bekanntes Datenset für DeepLearning mit WordNet Kategorien – Link
  • MNIST: Klassisches Letter Datenset – Link
  • CIFAR10: 32×32 Patches in Kategorien – Link
  • Caltech: Bilder aus 101 Kategorien – Link
  • Caltech 256: Bilder aus 256 Kategorien – Link 
  • SVHN: Hausnummern und -schilder – Link
  • NORB: Verschiedene Geräte und Spielzeuge – Link
  • Pascal VOC: Verschiedene Image Recognition Challenges – Link
  • Labelme: Annotierte Bilder (verschiedene Annotationen) – Link
  • COIL 20: Objekte mit 360° Darstellungen – Link
  • COIL100: Objekte mit 360° Darstellungen – Link

Health & Environmental Forecasts

  • ECDC: Krankheiten und Infektionen und ihre Verbreitung – Link
  • Merck MAC: Welche Aktivität weisen Moleküle auf – Link
  • Molecules and Musk: Moleküle – Link

Government & Population Data

  • DataUSA: Daten und Visualisierungen der USA – Link
  • EUGender: Genderspezifische Statistiken der EU – Link
  • NLNational: Niederlande National Register – Link
  • UNDPP: Development Programm der UN – Link

Face Recognition

  • Labelled Faces in the Wild: 13k Bilder aus dem Web mit Namen der Personen – Link
  • Olivetti: Verschiedene Fotos mehrerer Personen – Link
  • Multi-Pie: Datenset der CMU – Link
  • Face-in-Action: Verschiedene Gesichter mit Annotationen – Link
  • JACFEE: Gesichtsausdrücke / Emotionen von asiatischen und kaukasischen Gesichtern – Link
  • FERET: Facial Recognition Annotationen – Link
  • mmifacedb: Labels für Facial Expressions – Link
  • IndianFaceDatabase: Landmarks für Faces – Link
  • Yale Face Database: Face Recognition Datenbank der Yale University – Link, Link

Video Processing

  • Youtube-8M – Youtube Datenset mit verschiedenen Labels für Unterstanding Tasks – Link

Text Processing

  • QWONE – 20 newsgroups to words – Link
  • Reuters (RCV*) Corpuses: text/topic prediction – Link
  • Penn Treebank : Next word prediction – Link
  • Broadcast News for corpus creation and next word prediction – Link

Weiteres

  • University of California, Irvine – Link
  • Caesar0301 auf Github – Link
  • Wikipedias Liste mit öffentlichen Datensets – Link
  • BigMLs Liste mit Datensets – Link
[:]]]>