Month: August 2021

Data Sets fĂĽr Machine Teacher 2021

Jeder benötigt Daten! Besonders jeder, der mit Machine Learning Modellen arbeitet und diese füttern muss. Damit das Suchen ein Ende hat, gibt es hier eine kuratierte Liste von offenen Datensätzen für wichtige Anwendungsfälle.

Speech Processing

  • TIMIT Speech Corpus: Klassifikation von Phonemen – Link
  • 2000HUB5: Baidu Datenset in englischer Sprache – Link
  • LibriSpeech: 500 Stunden Aufnahmen von HörbĂĽchern in englisch – Link
  • VoxForge: Sauber gesprochenes Englisch – Link
  • CHIME: 4 Sprecher in geräuschstarken Umgebungen – Link
  • TED-LIUM: Aufnahmen und Transkripte von TED-Talks – Link

Sentiment Analysis

  • JHU Sentiments – Link
  • IMDB: Filmrezensionen zur Analyse – Link
  • Stanford Sentiment: Sentiment Annotationen in Englisch der StanfordU – Link

Recommendation Systems

  • MovieLens: Datenset mit verschiedenen Filmen und Meta-Daten – Link
  • Jester: Witze empfehlen – Link
  • Netflix Prize: Videos und Serien empfehlen – Link
  • Book-Crossing dataset: BĂĽcher empfehlen – Link

Question Answering Systems

  • MaluubaNewsQA: 120K Q&A Datenpunkte von CNN – Link
  • Quora QA: Auch mit semantischen Labels – Link
  • CMUD QA Data: Hauptsächlich faktoide Fragen/Antworten – Link
  • Maluuba GO Dialogue: Zielorientierte Konversationen (geeignet fĂĽr Chatbots) – Link
  • bAbi: Synthetisches Datenset fĂĽr QA-Tasks von Facebook Research – Link
  • Children Book Test: Question + Context  zu Antwort Annotation von Project Gutenberg BĂĽchern – Link

Music Processing

  • Piano-midi.de: Vielzahl von Piano-MusikstĂĽcken – Link
  • Nottingham Datenbank:  Folk Musik – Link
  • MuseData: Klassische Musik – Link
  • JSB Chorales: Klassische Musik – Link

Image Processing

  • Imagenet: Bekanntes Datenset fĂĽr DeepLearning mit WordNet Kategorien – Link
  • MNIST: Klassisches Letter Datenset – Link
  • CIFAR10: 32×32 Patches in Kategorien – Link
  • Caltech: Bilder aus 101 Kategorien – Link
  • Caltech 256: Bilder aus 256 Kategorien – Link 
  • SVHN: Hausnummern und -schilder – Link
  • NORB: Verschiedene Geräte und Spielzeuge – Link
  • Pascal VOC: Verschiedene Image Recognition Challenges – Link
  • Labelme: Annotierte Bilder (verschiedene Annotationen) – Link
  • COIL 20: Objekte mit 360° Darstellungen – Link
  • COIL100: Objekte mit 360° Darstellungen – Link

Health & Environmental Forecasts

  • ECDC: Krankheiten und Infektionen und ihre Verbreitung – Link
  • Merck MAC: Welche Aktivität weisen MolekĂĽle auf – Link
  • Molecules and Musk: MolekĂĽle – Link

Government & Population Data

  • DataUSA: Daten und Visualisierungen der USA – Link
  • EUGender: Genderspezifische Statistiken der EU – Link
  • NLNational: Niederlande National Register – Link
  • UNDPP: Development Programm der UN – Link

Face Recognition

  • Labelled Faces in the Wild: 13k Bilder aus dem Web mit Namen der Personen – Link
  • Olivetti: Verschiedene Fotos mehrerer Personen – Link
  • Multi-Pie: Datenset der CMU – Link
  • Face-in-Action: Verschiedene Gesichter mit Annotationen – Link
  • JACFEE: GesichtsausdrĂĽcke / Emotionen von asiatischen und kaukasischen Gesichtern – Link
  • FERET: Facial Recognition Annotationen – Link
  • mmifacedb: Labels fĂĽr Facial Expressions – Link
  • IndianFaceDatabase: Landmarks fĂĽr Faces – Link
  • Yale Face Database: Face Recognition Datenbank der Yale University – Link, Link

Video Processing

  • Youtube-8M – Youtube Datenset mit verschiedenen Labels fĂĽr Unterstanding Tasks – Link

Text Processing

  • QWONE – 20 newsgroups to words – Link
  • Reuters (RCV*) Corpuses: text/topic prediction – Link
  • Penn Treebank : Next word prediction – Link
  • Broadcast News for corpus creation and next word prediction – Link

Weiteres

  • University of California, Irvine – Link
  • Caesar0301 auf Github – Link
  • Wikipedias Liste mit öffentlichen Datensets – Link
  • BigMLs Liste mit Datensets – Link

Podcasts zum Thema Machine Learning & Data

Diesmal gibt es eine Hör-Empfehlung für Podcasts zu den Themen Machine Learning, Data & Analytics.


1-QzMbmbhRIpGstQJcMV6S1wThis Week in Machine Learning & AI

TWiML&AI bringt auf wöchentlicher Basis ein neuen Podcast zum Thema Machine Learning und Künstliche Intelligenz. Dabei werden nicht nur reine Machine Learning Themen besprochen, sondern auch öfter das bigger picture erläutert. Niveau: Fortgeschritten. Zum Podcast / Zur Webseite.

 

1-w1mAks253oWyFOXm2uGFLgTalking Machines

Einer der besten Podcasts zum Thema! Ein ausgezeichneter Host interviewt ausgezeichnete Gäste zum Thema Machine Learning. Dadurch das viele Gäste selbst in der Wirtschaft aktiv sind, können sie viele nützliche Einsichten in ihre Arbeit geben. Niveau: Fortgeschritten. Zum Podcast / Zur Webseite.

1-SrSCXTNvUHzENik8GMhsNQMachine Learning 101

Dieser Podcast versteht sich eigentlich als Anfänger-Medium. Allerdings werden einige Themen auch sehr tiefgründig behandelt, so dass es auch für Fortgeschrittene interessant sein kann. Im Grunde ist es der beste Einsteiger-Pod. Niveau: Anfänger. Zum Podcast / Zur Webseite.

 

1-IIubHPYAypUV3_RES997EgThe Data Skeptic

Ein guter Einstieg in die Themen Data Science und Machine Learning. Es gibt hier Interviews mit Forschern und Praktikern zu hören. Niveau: Anfänger / Fortgeschritten. Zum Podcast / Zur Webseite.

 

 

1-j_3y1tnXwNRdS5yVb9YAhwLinear Digressions

Katie Malone und Ben Jaffe sind eure Hosts und führen Sie nicht nur durch Machine Learning Themen, sondern auch durch Fallstricke im Bereich Data Science. Sehr hörenswert. Niveau: Fortgeschritten. Zum Podcast / Zur Webseite.