Tag: Image Processing

PatternNet & PatternLRP – UnBlackboxing von Neuronalen Netzen

In unserer Rubrik Paper Review┬ástellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen f├╝r euch das┬áWesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht.┬áViel Spa├č!

Main Takeaway – Was ist neu

Neuronale Netze werden h├Ąufig als Black-Boxen gesehen. Man kann die Entscheidungen des Klassifikators nicht so einfach einsehen, wie man das gern m├Âchte. Um diese Einschr├Ąnkungen aufzuheben, stellen die Autoren in dem Paper die beiden Systeme PatternNet und PatternLRP vor.┬áHier gehts zum Paper.

Takeaways

  • Die Gewichte im ersten Layer zwischen Input Space und ersten Hiddenlayer sagen nicht aus, wie wichtig ein Feature ist.
  • Es gibt verschiedene Ans├Ątze, um den Zusammenhang zwischen Input und Output in neuronalen Netzen sichtbar zu machen.

Worum geht es

patternnet-002

Verschiedene Ans├Ątze, um Zusammenh├Ąnge von Input und Output zu visualisieren. Quelle: Figure 1 – PatternNet and PatternLRP Improving the interpretability of neural networks

Um dem Thema n├Ąher zu kommen, werden zuerst lineare Modelle beleuchtet und bereits existierende Explanation-Methoden vorgestellt. Danach wird eine┬áObjective Function zur Messung der Qualit├Ąt von Neuronweisen Explanation-Methoden eingef├╝hrt. Basierend darauf werden zwei neue Systeme eingef├╝hrt.

Um Klassifikatorentscheidungen sichtbar zu machen, werden Methoden benutzt, die eine R├╝ckprojektion in den Input-Space m├Âglich machen u.a. saliency maps (Aktivierungsmuster), DeConvNet, Guided BackProp (GBP), Layer-wise Relevance Propagation (LRP) und Deep Taylor Decomposition (DTD).

Daf├╝r werden die beiden Systeme PatternNet und PatternLRP vorgeschlagen. Diese unterschieden sich in der Form der Ausgabe und benutzen jeweils verschiedene Methoden, um beispielsweise Rauschen zu minimieren.

Experimente & Daten

patternnet-001

Man sieht den Vergleich verschiedener Verfahren sowie deren Output (Experiment: Qualitative evaluation). Quelle: Figure 7 – PatternNet and PatternLRP Improving the interpretability of neural networks.

Die Autoren haben 3 verschiedene Experimente durchgef├╝hrt. Gr├Â├čtenteils beschr├Ąnkt sich die Auswertung aber auf ein qualitative Auswertung der Daten.

 

  • Measuring the quality of signal estimators – Anhand einer Correlation-Metrik wird gemessen, wie gut die Muster wiedererkannt werden. Als Baseline dient dabei eine Zufallssch├Ątzung.
  • Image degradation – Das Bild wird in 9×9 Pixel gro├če Patches zerlegt. Danach wird die Aktivierung der der Heat-Map als Zahl gemessen und die Patches nach dem Grad der Aktivierung absteigend geordnet.
  • Qualitative evaluation – Existierende und die beiden vorgestellten Verfahren wurden an den selben Bildern getestet und durch Visual Inspection (Ansehen der Bilder) die Qualit├Ąt entschieden.




Fortf├╝hrend

F├╝r fortf├╝hrende Arbeiten und Experimente bietet das Paper keine Perspektive.

Lust zu lesen? Hier gehts zum Paper.

Ähnliche Arbeiten

  • Matthew D Zeiler and Rob Fergus. Visualizing and understanding convolutional networks. In European Conference on Computer Vision, pages 818ÔÇô833. Springer, 2014.
  • Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox, and Martin Riedmiller. Striving for simplicity: The all convolutional net. In ICLR, 2015.
  • Luisa M Zintgraf, Taco S Cohen, Tameem Adel, and Max Welling. Visualizing deep neural network decisions: Prediction difference analysis. In ICLR, 2017
  • Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman. Deep inside convolutional networks: Visualising image classification models and saliency maps. In ICLR, 2014.
  • Jason Yosinski, Jeff Clune, Thomas Fuchs, and Hod Lipson. Understanding neural networks through deep visualization. In ICML Workshop on Deep Learning, 2015.
  • Anh Nguyen, Alexey Dosovitskiy, Jason Yosinski, Thomas Brox, and Jeff Clune. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks. In Advances in Neural Information Processing Systems, pages 3387ÔÇô3395, 2016.
  • David Baehrens, Timon Schroeter, Stefan Harmeling, Motoaki Kawanabe, Katja Hansen, and Klaus-Robert Muller. How to explain individual classification decisions. ┬Ę Journal of Machine Learning Research, 11(Jun):1803ÔÇô1831, 2010.
  • Sebastian Bach, Alexander Binder, Gregoire Montavon, Frederick Klauschen, Klaus-Robert ┬┤ Muller, and Wojciech Samek. On pixel-wise explanations for non-linear classifier decisions by ┬Ę layer-wise relevance propagation. PloS one, 10(7):e0130140, 2015.
  • Gregoire Montavon, Sebastian Lapuschkin, Alexander Binder, Wojciech Samek, and Klaus- ┬┤ Robert Muller. Explaining nonlinear classification decisions with deep taylor decomposition. ┬Ę Pattern Recognition, 65:211ÔÇô222, 2017.

Semantic Style Transfer – Von der Bitmap zum Kunstwerk

In unserer Rubrik Paper Review┬ástellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen f├╝r euch das┬áWesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht.┬áViel Spa├č!

Was ist neu

Das Paper stellt einen Ansatz vor, wie man generative Neuronale Netze und semantische Annotationen zusammen benutzen kann. Dabei k├Ânnen die Labels auf Pixelebene gesetzt werden.┬áHier gehts zum Paper.

Worum geht es

semantic-map

Quelle: Figure 3 von Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artwork

Das Paper “Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artwork” von┬áAlex J. Champandard┬ábesch├Ąftigt sich mit dem pixelbasierten Labeln f├╝r die Image-Synthese. Der Anwendungsfall ist der semantische Transfer von Wissen aus einem Gem├Ąlde (oder Portrait) zu einem sehr simplen Bitmap. Dabei werden CNNs (Convolutional Neural Networks) – also mehrschichtige Netze genutzt. Die Motivation f├╝r die Ver├Âffentlichung waren folgende┬áProbleme:

  • Die bisherigen Modelle waren urspr├╝nglich f├╝r die Klassifikation gebaut und nicht f├╝r den Zweck des Style Transfer.
  • Die bisherigen Ans├Ątze, wie zusammenh├Ąngende Layer die Informationen von anderen Layern nutzen, ist nicht optimal.

Der Autor stellt ein Verfahren vor, das die L├╝cke zwischen generativen Modellen und dem Labeln auf Pixelebene schlie├čt. Dabei wird auch gezeigt, wie sich diese Methode in verschiedene bereits bestehende Algorithmen eingliedern l├Ąsst.

 

Experimente & Daten

Die Experimente sind nicht sehr umfangreich. Es wurden 4 semantische Labels für Hintergrund, Kleidung, Gesicht und Haare benutzt. Die Genauigkeit wurde mit Visual Inspection festgestellt und durch die Änderung verschiedener Parameter optimiert.




 

Fortf├╝hrend

Der Algorithmus in diesem Paper kann f├╝r verschiedene Typen von Bildern angepasst werden. Damit sind vor allem verschiedene Kunststile gemeint, die man nutzen k├Ânnte. Ebenfalls k├Ânnte man die Anzahl der Annotationen resp. Labels erweitern, um komplexere Bilder zu synthetisieren.

Lust zu lesen? Hier gehts zum Paper.

Ähnliche Arbeiten

  • Hertzmann, A.; Jacobs, C.; Oliver, N.; Curless, B.; and Salesin, D. 2001. Image analogies. SIGGRAPH Conference Proceedings.
  • Gatys, L. A.; Ecker, A. S.; and Bethge, M. 2015. A neural algorithm of artistic style. CoRR abs/1508.06576.
  • Li, C., and Wand, M. 2016. Combining markov random fields and convolutional neural networks for image synthesis. abs/1601.04589.
  • Thoma, M. 2016. A survey of semantic segmentation. CoRR abs/1602.06541.
  • Yang, Y.; Zhao, H.; You, L.; Tu, R.; Wu, X.; and Jin, X. 2015. Semantic portrait color transfer with internet images. Multimedia Tools and Applications 1ÔÇô19.

 

 

 

 

 

 

 

Predictive Art – Kunst und Machine Learning

So kann jeder ein K├╝nstler werden. Fr├╝her ben├Âtigte man viel Training und viel Zeit, um ein Bild zu malen, Musik zu komponieren und andere k├╝nstlerische Neigungen auszuleben. Mit Deep Learning kann nun theoretisch jeder zum “K├╝nstler” werden und Kunstwerke erstellen lassen. Mit diesen Tools werdet ihr zum K├╝nstler.

Von der Bitmap zum Kunstwerk

Darstellung wie NeuralDoodle das Bild erstellt

Credits: github/alexjc

Mit Neural Doodle ist es m├Âglich aus einer einfachen Bitmap ein komplexes Kunstwerk zu machen. Das funktioniert mit semantischen Transfer-Learning. Das spannende ist, dass die Maschine die Bedeutung im Bild einsch├Ątzen kann und das Bild dann so komponiert, wie es passen sollte. Diese Parameter k├Ânnen noch einem Tuning unterzogen werden, wodurch die abstraktesten Bilder entstehen k├Ânnen.

Das schwarzwei├če Farbbild

Bild eines schwarzwei├čen Leuchtturms sowie eines colorierten.

Credits: github/pavelgonchar

ColorNet hilft dabei, Schwarzwei├č-Bildern wieder Leben einzuhauchen. Auch hier kommt semantisches Transfer-Learning zum Einsatz. Mit einer selbstgemalten Bleistiftskizze k├Ânnte man somit schnell ein sch├Ânes coloriertes Bild erhalten.

 

Semantisches Bildverst├Ąndnis

Das der Algorithmus nicht nur nach einem Regelset arbeitet, sondern semantische Beziehungen lernt, ist hier besonders wichtig. Damit kann man in Zukunft durchaus spielen. Bilder k├Ânnten dann merkw├╝rdige, surreale oder anst├Â├čige Situationen komponieren. Apropos komponieren, auch f├╝r Texte sowie Musik gibt es spannende Modelle.

Der Geschichtenerz├Ąhler

Bild das neural Storyteller nutzt, um eine Geschichte zu erz├Ąhlen.

Credits: github/ryankiros

Ein einfaches Bild gen├╝gt als Input und der Neural-Storyteller erz├Ąhlt dir eine Geschichte zu dem Bild. Ein gut dokumentierter Urlaub w├╝rde ausreichen, um eine spannende Geschichte zu erz├Ąhlen. Vielleicht kann man dabei sogar seinen Urlaub noch einmal durch eine Maschine reflektieren. Was aber viel wichtiger ist: man kann erlebtes oder eben nicht erlebtes in Bildern ausdr├╝cken und so den Zugang zu einer Story finden.

Klingt das nicht spannend? Filme k├Ânnten wie B├╝cher wahrgenommen werden, sogar f├╝r blinde Menschen ist das spannend.

Predictive Music

Logo Deepjazz

Credits: github/jisungk

Ein Blick in die Zukunft der Musik gibt Biaxial-RNN-Music und DeepJazz. Musik kann aus verschiedenen kleinen Patches von Musikst├╝cken komponiert werden. Weiche ├ťberg├Ąnge, harte ├ťberg├Ąnge, dramatisch oder entspannt. Das alles kann der Algorithmus leisten. So k├Ânnte in Zukunft Musik komponiert werden. Musik k├Ânnte somit vom linearen Medium zum personalisierten Erleben werden. Spannend, wenn man bedenkt, dass viele Medien aktuell von linear zu personalisiert wechseln und somit immer mehr Menschen und Zielgruppen ansprechen.



Was bleibt?

F├╝r K├╝nstler entstehen in diesen Tagen viele Tools, die ihnen helfen k├Ânnen, ├╝ber ihre Kunst zu reflektieren. Was sieht der Algorithmus in meiner Kunst? Wie interpretiert er sie? Au├čerdem k├Ânnen diese Algorithmen helfen, denn richtig eingesetzt, f├Ârdern sie die Kreativit├Ąt der K├╝nstler. Kunst und K├╝nstliche Intelligenz kann Hand in Hand gehen. Kunst k├Ânnte sich vom linearen Medium zum personalisierten Erleben verschieben und somit f├╝r verschiedene Zielgruppen viel interessanter werden. Auch in der Werbung k├Ânnten diese Algorithmen Anwendung finden: personalisierte Sounds, Bilder und Texte, die sich je nach Person und deren Einstellung sowie Emotionen ver├Ąndert.
K├╝nstliche Intelligenz ist f├╝r die Kunst ein interessantes Reflektionsmedium!

Na, wer ist ein guter Junge? – DeepDoggo

DeepDoggo beantwortet die Frage: “Na, wer ist ein guter Junge?” mit Deep Learning. Ben Lengerich von der┬áCarnegie Mellon University hat DeepDoggo gebaut und ein Paper dazu ver├Âffentlicht.

deepdoggo2Er nutzt das Inception-v3 Modell [Szegedy et al., 2016]. Dabei wurde der Output vom letzten Pooling-Layer benutzt, um zwischen good dog und bad dog zu separieren.

Daf├╝r wurde ein Datenset von Google benutzt. Nach einer Google Suche wurden 360 Bilder f├╝r bad dogs und 585 Bilder f├╝r good dogs benutzt.

Mit seinem Modell erreichte er eine Accuracy von 73.0%. Damit ist er 11.1% besser als eine Baseline, bei der jeder Hund als guter Junge┬áklassifiziert wird. Bei dieser Form von Baseline handelt es sich um einen ZeroR-Klassifikator, der sich in allen F├Ąllen f├╝r die Klasse entscheidet, die am meisten Samples im Training-Set bereitstellt.

Lengerich sieht die Anwendung f├╝r DeepDoggo vor allem im Hundetraining, argumentiert das aber eher scherzhaft. Im Allgemeinen ist die Anwendung DeepDoggo scherzhafter Natur und das bereitgestellte Paper dazu auch.




Hier gehts zum Paper von Ben Lengerich.

Referenzen

[Szegedy et al., 2016]┬áSzegedy, Christian, Vanhoucke, Vincent, Ioffe, Sergey, Shlens, Jon, and Wojna, Zbigniew. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2818ÔÇô2826, 2016.