Category: Machine Learning

Data Sets für Machine Teacher 2021

Jeder benötigt Daten! Besonders jeder, der mit Machine Learning Modellen arbeitet und diese füttern muss. Damit das Suchen ein Ende hat, gibt es hier eine kuratierte Liste von offenen Datensätzen für wichtige Anwendungsfälle.

Speech Processing

  • TIMIT Speech Corpus: Klassifikation von Phonemen – Link
  • 2000HUB5: Baidu Datenset in englischer Sprache – Link
  • LibriSpeech: 500 Stunden Aufnahmen von Hörbüchern in englisch – Link
  • VoxForge: Sauber gesprochenes Englisch – Link
  • CHIME: 4 Sprecher in geräuschstarken Umgebungen – Link
  • TED-LIUM: Aufnahmen und Transkripte von TED-Talks – Link

Sentiment Analysis

  • JHU Sentiments – Link
  • IMDB: Filmrezensionen zur Analyse – Link
  • Stanford Sentiment: Sentiment Annotationen in Englisch der StanfordU – Link

Recommendation Systems

  • MovieLens: Datenset mit verschiedenen Filmen und Meta-Daten – Link
  • Jester: Witze empfehlen – Link
  • Netflix Prize: Videos und Serien empfehlen – Link
  • Book-Crossing dataset: Bücher empfehlen – Link

Question Answering Systems

  • MaluubaNewsQA: 120K Q&A Datenpunkte von CNN – Link
  • Quora QA: Auch mit semantischen Labels – Link
  • CMUD QA Data: Hauptsächlich faktoide Fragen/Antworten – Link
  • Maluuba GO Dialogue: Zielorientierte Konversationen (geeignet für Chatbots) – Link
  • bAbi: Synthetisches Datenset für QA-Tasks von Facebook Research – Link
  • Children Book Test: Question + Context  zu Antwort Annotation von Project Gutenberg Büchern – Link

Music Processing

  • Piano-midi.de: Vielzahl von Piano-Musikstücken – Link
  • Nottingham Datenbank:  Folk Musik – Link
  • MuseData: Klassische Musik – Link
  • JSB Chorales: Klassische Musik – Link

Image Processing

  • Imagenet: Bekanntes Datenset für DeepLearning mit WordNet Kategorien – Link
  • MNIST: Klassisches Letter Datenset – Link
  • CIFAR10: 32×32 Patches in Kategorien – Link
  • Caltech: Bilder aus 101 Kategorien – Link
  • Caltech 256: Bilder aus 256 Kategorien – Link 
  • SVHN: Hausnummern und -schilder – Link
  • NORB: Verschiedene Geräte und Spielzeuge – Link
  • Pascal VOC: Verschiedene Image Recognition Challenges – Link
  • Labelme: Annotierte Bilder (verschiedene Annotationen) – Link
  • COIL 20: Objekte mit 360° Darstellungen – Link
  • COIL100: Objekte mit 360° Darstellungen – Link

Health & Environmental Forecasts

  • ECDC: Krankheiten und Infektionen und ihre Verbreitung – Link
  • Merck MAC: Welche Aktivität weisen Moleküle auf – Link
  • Molecules and Musk: Moleküle – Link

Government & Population Data

  • DataUSA: Daten und Visualisierungen der USA – Link
  • EUGender: Genderspezifische Statistiken der EU – Link
  • NLNational: Niederlande National Register – Link
  • UNDPP: Development Programm der UN – Link

Face Recognition

  • Labelled Faces in the Wild: 13k Bilder aus dem Web mit Namen der Personen – Link
  • Olivetti: Verschiedene Fotos mehrerer Personen – Link
  • Multi-Pie: Datenset der CMU – Link
  • Face-in-Action: Verschiedene Gesichter mit Annotationen – Link
  • JACFEE: Gesichtsausdrücke / Emotionen von asiatischen und kaukasischen Gesichtern – Link
  • FERET: Facial Recognition Annotationen – Link
  • mmifacedb: Labels für Facial Expressions – Link
  • IndianFaceDatabase: Landmarks für Faces – Link
  • Yale Face Database: Face Recognition Datenbank der Yale University – Link, Link

Video Processing

  • Youtube-8M – Youtube Datenset mit verschiedenen Labels für Unterstanding Tasks – Link

Text Processing

  • QWONE – 20 newsgroups to words – Link
  • Reuters (RCV*) Corpuses: text/topic prediction – Link
  • Penn Treebank : Next word prediction – Link
  • Broadcast News for corpus creation and next word prediction – Link

Weiteres

  • University of California, Irvine – Link
  • Caesar0301 auf Github – Link
  • Wikipedias Liste mit öffentlichen Datensets – Link
  • BigMLs Liste mit Datensets – Link