Audio Generation - Machine Rockstars

September 2017 – Audio-Visual Speech Enhancement Based on Multimodal Deep Convolutional Neural Network Jen-Cheng Hou et al. Die Autoren stellen ein Audio-Visual Deep CNN (AVDCNN) Speech Enhancement Modell vor. Sie kombinieren dabei ein CNN das multimodal Speech Enhancement durchführt. Multimodal, weil sie dazu Daten aus zwei Modalitäten benutzen: Audio- und Videodaten. Im Vergleich schlägt ihre Arbeit den aktuellen State-of-the-Art. [Zum Paper] März 2017 – Deep Voice: Real-time Neural Text-to-Speech Arik et al. Die Veröffentlichung legt den Grundstein für ein komplettes End-To-End TTS System. Es besteht grundlegend aus 5 verschiedenen Subsystemen: Segmentation für Phoneme-Tokenizierung, ein Modell zur Überführung von Graphemen, ein Vorhersagemodell für die Dauer von Phonemen, ein Vorhersagemodell für Frequenzen und das Modell das zur Sprach-Synthese benutzt wird. Außerdem werden einige GPU- sowie CPU-Optimierungen gezeigt. [Zum Paper] September 2016 – WaveNet: A Generative Model for Raw Audio Aäron van den Oord et al. Das System WaveNet wird vorgestellt. Es arbeitet auf der Frequenzebene und lässt viele Teile der darüber liegenden Strukturen vom generativen Modell lernen. Hinter dem Projekt steht das Team von Google DeepMind, die eine ähnliche Struktur bereits in anderen Systemen erfolgreich nutzten. [Zum Paper]]]>