Jeder benötigt Daten! Besonders jeder, der mit Machine Learning Modellen arbeitet und diese füttern muss. Damit das Suchen ein Ende hat, gibt es hier eine kuratierte Liste von offenen Datensätzen für wichtige Anwendungsfälle.
Speech Processing
- TIMIT Speech Corpus: Klassifikation von Phonemen – Link
- 2000HUB5: Baidu Datenset in englischer Sprache – Link
- LibriSpeech: 500 Stunden Aufnahmen von Hörbüchern in englisch – Link
- VoxForge: Sauber gesprochenes Englisch – Link
- CHIME: 4 Sprecher in geräuschstarken Umgebungen – Link
- TED-LIUM: Aufnahmen und Transkripte von TED-Talks – Link
Sentiment Analysis
- JHU Sentiments – Link
- IMDB: Filmrezensionen zur Analyse – Link
- Stanford Sentiment: Sentiment Annotationen in Englisch der StanfordU – Link
Recommendation Systems
- MovieLens: Datenset mit verschiedenen Filmen und Meta-Daten – Link
- Jester: Witze empfehlen – Link
- Netflix Prize: Videos und Serien empfehlen – Link
- Book-Crossing dataset: Bücher empfehlen – Link
Question Answering Systems
- MaluubaNewsQA: 120K Q&A Datenpunkte von CNN – Link
- Quora QA: Auch mit semantischen Labels – Link
- CMUD QA Data: Hauptsächlich faktoide Fragen/Antworten – Link
- Maluuba GO Dialogue: Zielorientierte Konversationen (geeignet für Chatbots) – Link
- bAbi: Synthetisches Datenset für QA-Tasks von Facebook Research – Link
- Children Book Test: Question + Context zu Antwort Annotation von Project Gutenberg Büchern – Link
Music Processing
- Piano-midi.de: Vielzahl von Piano-Musikstücken – Link
- Nottingham Datenbank: Folk Musik – Link
- MuseData: Klassische Musik – Link
- JSB Chorales: Klassische Musik – Link
Image Processing
- Imagenet: Bekanntes Datenset für DeepLearning mit WordNet Kategorien – Link
- MNIST: Klassisches Letter Datenset – Link
- CIFAR10: 32×32 Patches in Kategorien – Link
- Caltech: Bilder aus 101 Kategorien – Link
- Caltech 256: Bilder aus 256 Kategorien – Link
- SVHN: Hausnummern und -schilder – Link
- NORB: Verschiedene Geräte und Spielzeuge – Link
- Pascal VOC: Verschiedene Image Recognition Challenges – Link
- Labelme: Annotierte Bilder (verschiedene Annotationen) – Link
- COIL 20: Objekte mit 360° Darstellungen – Link
- COIL100: Objekte mit 360° Darstellungen – Link
Health & Environmental Forecasts
- ECDC: Krankheiten und Infektionen und ihre Verbreitung – Link
- Merck MAC: Welche Aktivität weisen Moleküle auf – Link
- Molecules and Musk: Moleküle – Link
Government & Population Data
- DataUSA: Daten und Visualisierungen der USA – Link
- EUGender: Genderspezifische Statistiken der EU – Link
- NLNational: Niederlande National Register – Link
- UNDPP: Development Programm der UN – Link
Face Recognition
- Labelled Faces in the Wild: 13k Bilder aus dem Web mit Namen der Personen – Link
- Olivetti: Verschiedene Fotos mehrerer Personen – Link
- Multi-Pie: Datenset der CMU – Link
- Face-in-Action: Verschiedene Gesichter mit Annotationen – Link
- JACFEE: Gesichtsausdrücke / Emotionen von asiatischen und kaukasischen Gesichtern – Link
- FERET: Facial Recognition Annotationen – Link
- mmifacedb: Labels für Facial Expressions – Link
- IndianFaceDatabase: Landmarks für Faces – Link
- Yale Face Database: Face Recognition Datenbank der Yale University – Link, Link
Video Processing
- Youtube-8M – Youtube Datenset mit verschiedenen Labels für Unterstanding Tasks – Link
Text Processing
- QWONE – 20 newsgroups to words – Link
- Reuters (RCV*) Corpuses: text/topic prediction – Link
- Penn Treebank : Next word prediction – Link
- Broadcast News for corpus creation and next word prediction – Link
Weiteres
- University of California, Irvine – Link
- Caesar0301 auf Github – Link
- Wikipedias Liste mit öffentlichen Datensets – Link
- BigMLs Liste mit Datensets – Link