Speech Processing
- TIMIT Speech Corpus: Klassifikation von Phonemen – Link
- 2000HUB5: Baidu Datenset in englischer Sprache – Link
- LibriSpeech: 500 Stunden Aufnahmen von Hörbüchern in englisch – Link
- VoxForge: Sauber gesprochenes Englisch – Link
- CHIME: 4 Sprecher in geräuschstarken Umgebungen – Link
- TED-LIUM: Aufnahmen und Transkripte von TED-Talks – Link
Sentiment Analysis
- JHU Sentiments – Link
- IMDB: Filmrezensionen zur Analyse – Link
- Stanford Sentiment: Sentiment Annotationen in Englisch der StanfordU – Link
Recommendation Systems
- MovieLens: Datenset mit verschiedenen Filmen und Meta-Daten – Link
- Jester: Witze empfehlen – Link
- Netflix Prize: Videos und Serien empfehlen – Link
- Book-Crossing dataset: Bücher empfehlen – Link
Question Answering Systems
- MaluubaNewsQA: 120K Q&A Datenpunkte von CNN – Link
- Quora QA: Auch mit semantischen Labels – Link
- CMUD QA Data: Hauptsächlich faktoide Fragen/Antworten – Link
- Maluuba GO Dialogue: Zielorientierte Konversationen (geeignet für Chatbots) – Link
- bAbi: Synthetisches Datenset für QA-Tasks von Facebook Research – Link
- Children Book Test: Question + Context zu Antwort Annotation von Project Gutenberg Büchern – Link
Music Processing
- Piano-midi.de: Vielzahl von Piano-Musikstücken – Link
- Nottingham Datenbank: Folk Musik – Link
- MuseData: Klassische Musik – Link
- JSB Chorales: Klassische Musik – Link
Image Processing
- Imagenet: Bekanntes Datenset für DeepLearning mit WordNet Kategorien – Link
- MNIST: Klassisches Letter Datenset – Link
- CIFAR10: 32×32 Patches in Kategorien – Link
- Caltech: Bilder aus 101 Kategorien – Link
- Caltech 256: Bilder aus 256 Kategorien – Link
- SVHN: Hausnummern und -schilder – Link
- NORB: Verschiedene Geräte und Spielzeuge – Link
- Pascal VOC: Verschiedene Image Recognition Challenges – Link
- Labelme: Annotierte Bilder (verschiedene Annotationen) – Link
- COIL 20: Objekte mit 360° Darstellungen – Link
- COIL100: Objekte mit 360° Darstellungen – Link
Health & Environmental Forecasts
- ECDC: Krankheiten und Infektionen und ihre Verbreitung – Link
- Merck MAC: Welche Aktivität weisen Moleküle auf – Link
- Molecules and Musk: Moleküle – Link
Government & Population Data
- DataUSA: Daten und Visualisierungen der USA – Link
- EUGender: Genderspezifische Statistiken der EU – Link
- NLNational: Niederlande National Register – Link
- UNDPP: Development Programm der UN – Link
Face Recognition
- Labelled Faces in the Wild: 13k Bilder aus dem Web mit Namen der Personen – Link
- Olivetti: Verschiedene Fotos mehrerer Personen – Link
- Multi-Pie: Datenset der CMU – Link
- Face-in-Action: Verschiedene Gesichter mit Annotationen – Link
- JACFEE: Gesichtsausdrücke / Emotionen von asiatischen und kaukasischen Gesichtern – Link
- FERET: Facial Recognition Annotationen – Link
- mmifacedb: Labels für Facial Expressions – Link
- IndianFaceDatabase: Landmarks für Faces – Link
- Yale Face Database: Face Recognition Datenbank der Yale University – Link, Link
Video Processing
- Youtube-8M – Youtube Datenset mit verschiedenen Labels für Unterstanding Tasks – Link
Text Processing
- QWONE – 20 newsgroups to words – Link
- Reuters (RCV*) Corpuses: text/topic prediction – Link
- Penn Treebank : Next word prediction – Link
- Broadcast News for corpus creation and next word prediction – Link