Category: Paper Review

6 Mythen zum Thema Deep Fakes

Das Center for Data Ethics and Innovation hat einen Report über das Thema Desinformation und DeepFakes veröffentlicht. Der Report bietet vieles! U.a. wird gezeigt, wie Deep Fakes enstehen und wie sich falsche Informationen verbreiten. Darauf werde ich in anderen Beiträgen zurückkommen. Hier geht es um die 6 Mythen zum Thema Deep Fakes.

(Extrahiert aus dem Report: Snapshot Paper – Deepfakes and Audiovisual Disinformation)

Deep Fakes treten vorwiegend in Form von Gesichtsaustausch in Videos auf. 

Realität: Es gibt vier Typen von Deep Fakes: Gesichtsersatz, Gesichtsnachstellung, Gesichtserzeugung und Audiosynthese.

Deepfakes tauchen auf Social-Media-Plattformen in groĂźer Zahl auf

Realität: Auf Social-Media-Plattformen sind nur wenige politische Deepfakes aufgetaucht. Die Anzahl der gefälschten pornografischen Videos gibt jedoch Anlass zur Sorge.

Jeder kann ausgefeilte Deepfakes erstellen, die die Messlatte der Glaubwürdigkeit sprengen. 

Realität: Während unterstützende Software wie FakeApp es mehr Menschen ermöglicht hat, sich mit Deepfakes zu beschäftigen, erfordert die hochqualitative Audio- und Bildsynthese immer noch beträchtliches Fachwissen.

Die beste Methode zum Erkennen von Deepfakes besteht in physiologischen Tests (dem “Eye Blinking”-Test).

Realität: Die physiologische Untersuchung von Videos kann langsam und unzuverlässig sein. Für ein systematisches Screening von Deepfakes sind AI-basierte Tools erforderlich, mit denen die Erkennung gefälschter Inhalte teilweise automatisiert werden kann. Die Tools müssen außerdem regelmäßig aktualisiert werden.

Neue Gesetze sind eine schnelle Lösung für den Umgang mit Deepfakes. 

Realität: Versuche, Gesetze gegen Deepfakes zu erlassen, können sich als wirkungslos erweisen, da es sehr schwierig ist, die Herkunft der behandelten Inhalte zu bestimmen. Die Gesetzgebung könnte auch den nützlichen Einsatz visueller und akustischer Manipulationen gefährden.

Deepfakes sind wie mit Photoshop erstellte Bilder. Die Menschen werden sich an sie gewöhnen. 

Realität: Dies ist eine Annahme, keine Tatsache. Es gibt nur unzureichende Untersuchungen darüber, wie Deepfakes das Verhalten und die Überzeugungen der Zuschauer beeinflussen.

Paper Review – Language Modeling, Deep vs. Diverse Architecture und Sentiment Analysis

Wir sind im Sommermodus. Aktuell basteln wir an einem Plan, wie wir euch ab Herbst weiter mit spannenden Artikeln aus der Machine Learning Szene begeistern können.

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

In Neural Networks Compression for Language Modeling werden RNNs komprimiert. Hier handelt es sich um RNNs, die verschiedene Text-Klassifizierungen durchfĂĽhren. Das ist besonders wichtig fĂĽr Mobile Devices, die dadurch mehrschichtige Netze effizienter abspeichern können. Bereits im Juli haben wir euch im Paper Reivew das Paper Towards Evolutional Compression vorgestellt – dort werden ähnliche Algorithmen verwendet. Hier gehts zum Paper.

Der Autor von Deep vs. Diverse Architectures for Classification Problems vergleicht verschiedene Netz-Architekturen für verschiedene Aufgaben. Es stellt sich heraus, dass sich für einige Aufgaben Deep-Learning-Architekturen besonders eignen. Allerdings lassen sich auch Aufgaben finden, die mit kleineren (unkomplexeren) Architekturen lösen lassen. Deep-Learning ist also nicht die sofort die Allzweckwaffe. Wofür ihr welche Algorithmen benutzen solltet, lest hier hier. Hier gehts zum Paper.

In Sentiment Analysis by Joint Learning of Word Embeddings and Classifier von Prathusha Kameswara Sarma und Bill Sethares wird Supervised Word Embeddings for Sentiment Analysis vorgestellt. Mit dieser Struktur erreichen sie auf verschiedenen Datenbanken in ihren Experiments den State-of-the-Art bezüglich AUC. In einigen Fällen sind sie damit sogar genauer als die aktuell bekannten Ergebnisse. SWESA ist dabei ein sehr flexibles Konstrukt. Hier gehts zum Paper.

 

Am Rand erwähnt

Paper Review – Sentence Generation und Sentiments mit Emojis

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

In SenGen: Sentence Generating Neural Variational Topic Model zeigen die Autoren, dass ein Satz die kleinste Einheit beim Topic Modeling ist. Im Gegensatz zu vielen anderen Modellen, die Bag of Words (also Wörter) benutzen, um ein Topic-Modell aufzubauen, verwenden wie einen Satz. in den Experimenten vergleichen sie ihren Ansatz gegen die aktuellen State-of-the-Art Ansätze: LDA, NVDM, NVLDA und ProdLDA. Hier gehts zum Paper.

Die Autoren von Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm haben versucht Texte auf Emojis zu mappen. Sie nutzen dabei große Datasets und vergleichen sich mit anderen auch sehr aktuellen Forschungsergebnissen. Hier gehts zum Paper.

 

Am Rand erwähnt

 

 

Paper Review – Kreativität messen, Language Models und CNN Kompression

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

A Machine Learning Approach for Evaluating Creative Artifacts von IBM Research India versuchen anhand von Film-Datenbanken und deren Kritiken zu erkennen, woran man Kreativität messen kann. Sie kommen zu dem Schluss, dass der Grad von “Unexpectedness” (also Unerwartbarkeit) mit der Kreativität eines filmischen Werkes korreliert. Hier gehts zum Paper.

Syllable-aware Neural Language Models: A Failure to Beat Character-aware Ones. Das Paper beschäftigt sich mit NLM (Neural Language Modeling). Es wird gezeigt das silbenbasierte Modelle zwar keine bessere Genauigkeit gegenüber vergleichbaren State-of-the-Art Modellen haben, allerdings reduzieren sie die Anzahl der Parameter und sparsamer bezüglich der Computation Time. Hier gehts zum Paper.

In Towards Evolutional Compression stellen die Autoren einen Algorithmus vor, der sich benutzen lässt, um aufwändige mehrschichtige Architekturen Neuronaler Netze so zu verkleinern, dass sie an die Genauigkeit der ursprünglichen Netze heranreichen. Die Motivation für diese Arbeit sehen die Autoren in dem größer werdenden Interesse, komplexe CNNs auch auf Smartphones zu benutzen. Hier gehts zum Paper.

Am Rand erwähnt

Semantic Analysis mit Rhetoric Structure Theory

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

Takeaways – Was ist neu

Bisherige Ansätze für Sentiment-Analyse nutzten entweder klassische Maschine-Learning-Verfahren oder aber Deep Learning mit regulären LSTM (Long Short Term Memory) Komponenten. Dieser Ansatz tauscht herkömmliche LSTMs mit, auf Rhetoric Structure Theory basierenden, RST-LSTM. Dadurch kann ein Uplift in der Genauigkeit erzielt werden. Hier gehts zum Paper.

Takeaways

  • Durch die Rhetoric Structure Theory ist es möglich, das Netz noch besser zu machen.
  • RST-LSTM werden anstatt linear in eine Baumstruktur geschalten. Dadurch können sie auch komplexere Texte verarbeiten.

Worum geht es

Der Aufbau der Experimentation-Pipeline. Auch die Optimierungsschritte "Leaf insertion" und "Node reordering" sind zu sehen. Quelle: Figure 3 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Der Aufbau der Experimentation-Pipeline. Auch die Optimierungsschritte “Leaf insertion” und “Node reordering” sind zu sehen. Quelle: Figure 3 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Im Gegensatz  zu vielen herkömmlichen Ansätzen wie N-Grams oder Bag-of-Words im Bereich der Sentiment Analysis (Stimmungsanalyse, Emotionsanalyse) benutzen die Autoren sogenannte “Discourse Trees”. Das bedeutet, es werden Phrasen nach semantischen Gesichtspunkten in einen Entscheidungsbaum gehangen und dann mit emotionalen Werten und Polarität versehen. Die Struktur nennen die Autoren RST-LSTM (Rhetoric Structure Theory – Long Short Term Memory). Dabei wird die natĂĽrliche Sprache in sogenannte EDUs (Elementary Discourse Units) hierarchisch eingeteilt.  Solche Strukturen haben sich bereits beim Zusammenfassen von Zeitungsartikeln bewährt.

rst-lstm-003

Links sieht man eine herkömmliche LSTM-Struktur. Rechts sieht man die hierachische Struktur wie sie in diesem Ansatz genutzt wird. Quelle: Figure 7 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Es wird ein neuronales Netz benutzt, das diese Abwandlung dieser LSTM-Struktur beherbergt und das somit mehr Kapazität für komplexe Discourse hat als herkömmliche Netze.

 

Experimente & Daten

Es wurden zur Evaluation zwei Datensets herangezogen:

Der vorgestellte Ansatz wurde mit den aktuellen State-of-the-Art-Methoden verglichen. Durch verschiedene Veränderungen an Parametern sowie der Struktur der Discourse Trees konnte ein besseres Ergebnis erzielt werden. Auf dem IMDb Datenset erreicht der Ansatz lt. F1-Score: 84.9 % sowie auf dem Rotten Tomato Set: 79,6 % F1-Score. Das bedeutet ein Uplift zur Baseline von 4.33 % und 3.16 %.

FortfĂĽhrend

Aktuell werden die Trees noch manuell angepasst. Zukünftig könnte man die Autoencoder der EDUs viel spezifischer nach verschiedenen Trainingsepochen anpassen und somit eine bessere Codierung erreichen.

Lust zu lesen? Hier gehts zum Paper.

Ähnliche Arbeiten

  • K. Xu, S. S. Liao, J. Li, Y. Song, Mining comparative opinions from 32 customer reviews for competitive intelligence, Decision Support Systems 50 (2011) 743–754.
  • A. Bhattacherjee, An empirical analysis of the antecedents of electronic commerce service continuance, Decision Support Systems 32 (2001) 201– 214.
  • B. Pang, L. Lee, Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales, in: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL ’05), 2005, pp. 115–124.
  • X. Yu, Y. Liu, X. Huang, A. An, Mining online reviews for predicting sales performance: A case study in the movie domain, IEEE Transactions on Knowledge and Data Engineering 24 (2012) 720–734.
  • S. Tirunillai, G. J. Tellis, Does chatter really matter? Dynamics of usergenerated content and stock performance, Marketing Science 31 (2012) 198–215.
  • S. Feuerriegel, H. Prendinger, News-based trading strategies, Decision Support Systems 90 (2016) 65–74.
  • N. Pröllochs, S. Feuerriegel, D. Neumann, Negation scope detection in sentiment analysis: Decision support for news-driven trading, Decision Support Systems 88 (2016) 67–75.
  • H. Rui, Y. Liu, A. Whinston, Whose and what chatter matters? The effect of tweets on movie sales, Decision Support Systems 55 (2013) 863–870.

PatternNet & PatternLRP – UnBlackboxing von Neuronalen Netzen

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

Main Takeaway – Was ist neu

Neuronale Netze werden häufig als Black-Boxen gesehen. Man kann die Entscheidungen des Klassifikators nicht so einfach einsehen, wie man das gern möchte. Um diese Einschränkungen aufzuheben, stellen die Autoren in dem Paper die beiden Systeme PatternNet und PatternLRP vor. Hier gehts zum Paper.

Takeaways

  • Die Gewichte im ersten Layer zwischen Input Space und ersten Hiddenlayer sagen nicht aus, wie wichtig ein Feature ist.
  • Es gibt verschiedene Ansätze, um den Zusammenhang zwischen Input und Output in neuronalen Netzen sichtbar zu machen.

Worum geht es

patternnet-002

Verschiedene Ansätze, um Zusammenhänge von Input und Output zu visualisieren. Quelle: Figure 1 – PatternNet and PatternLRP Improving the interpretability of neural networks

Um dem Thema näher zu kommen, werden zuerst lineare Modelle beleuchtet und bereits existierende Explanation-Methoden vorgestellt. Danach wird eine Objective Function zur Messung der Qualität von Neuronweisen Explanation-Methoden eingeführt. Basierend darauf werden zwei neue Systeme eingeführt.

Um Klassifikatorentscheidungen sichtbar zu machen, werden Methoden benutzt, die eine Rückprojektion in den Input-Space möglich machen u.a. saliency maps (Aktivierungsmuster), DeConvNet, Guided BackProp (GBP), Layer-wise Relevance Propagation (LRP) und Deep Taylor Decomposition (DTD).

DafĂĽr werden die beiden Systeme PatternNet und PatternLRP vorgeschlagen. Diese unterschieden sich in der Form der Ausgabe und benutzen jeweils verschiedene Methoden, um beispielsweise Rauschen zu minimieren.

Experimente & Daten

patternnet-001

Man sieht den Vergleich verschiedener Verfahren sowie deren Output (Experiment: Qualitative evaluation). Quelle: Figure 7 – PatternNet and PatternLRP Improving the interpretability of neural networks.

Die Autoren haben 3 verschiedene Experimente durchgeführt. Größtenteils beschränkt sich die Auswertung aber auf ein qualitative Auswertung der Daten.

 

  • Measuring the quality of signal estimators – Anhand einer Correlation-Metrik wird gemessen, wie gut die Muster wiedererkannt werden. Als Baseline dient dabei eine Zufallsschätzung.
  • Image degradation – Das Bild wird in 9×9 Pixel groĂźe Patches zerlegt. Danach wird die Aktivierung der der Heat-Map als Zahl gemessen und die Patches nach dem Grad der Aktivierung absteigend geordnet.
  • Qualitative evaluation – Existierende und die beiden vorgestellten Verfahren wurden an den selben Bildern getestet und durch Visual Inspection (Ansehen der Bilder) die Qualität entschieden.




FortfĂĽhrend

FĂĽr fortfĂĽhrende Arbeiten und Experimente bietet das Paper keine Perspektive.

Lust zu lesen? Hier gehts zum Paper.

Ähnliche Arbeiten

  • Matthew D Zeiler and Rob Fergus. Visualizing and understanding convolutional networks. In European Conference on Computer Vision, pages 818–833. Springer, 2014.
  • Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox, and Martin Riedmiller. Striving for simplicity: The all convolutional net. In ICLR, 2015.
  • Luisa M Zintgraf, Taco S Cohen, Tameem Adel, and Max Welling. Visualizing deep neural network decisions: Prediction difference analysis. In ICLR, 2017
  • Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman. Deep inside convolutional networks: Visualising image classification models and saliency maps. In ICLR, 2014.
  • Jason Yosinski, Jeff Clune, Thomas Fuchs, and Hod Lipson. Understanding neural networks through deep visualization. In ICML Workshop on Deep Learning, 2015.
  • Anh Nguyen, Alexey Dosovitskiy, Jason Yosinski, Thomas Brox, and Jeff Clune. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks. In Advances in Neural Information Processing Systems, pages 3387–3395, 2016.
  • David Baehrens, Timon Schroeter, Stefan Harmeling, Motoaki Kawanabe, Katja Hansen, and Klaus-Robert Muller. How to explain individual classification decisions. ¨ Journal of Machine Learning Research, 11(Jun):1803–1831, 2010.
  • Sebastian Bach, Alexander Binder, Gregoire Montavon, Frederick Klauschen, Klaus-Robert ´ Muller, and Wojciech Samek. On pixel-wise explanations for non-linear classifier decisions by ¨ layer-wise relevance propagation. PloS one, 10(7):e0130140, 2015.
  • Gregoire Montavon, Sebastian Lapuschkin, Alexander Binder, Wojciech Samek, and Klaus- ´ Robert Muller. Explaining nonlinear classification decisions with deep taylor decomposition. ¨ Pattern Recognition, 65:211–222, 2017.

NeuroNER – Named Entity Recognition

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

Was ist neu

Die Autoren präsentieren einen Ansatz, der Deep Learning für den klassischen Named Entity Task benutzt. Dabei geht es darum, Orte, Personen und andere Entitäten in Texten zu finden. Außerdem stellen sie mit BRAT einen visuellen Annotator vor. Hier gehts zum Paper.

Worum geht es

training-neuroner

Trainingsprozess von NeuroNER. Figure 1 aus NeuroNER: an easy-to-use program for named-entity recognition based on neural networks

Named Entity Recognition ist eine Aufgabe, die meist auf Corpora beruht, die mühevoll annotiert wurden. Diese Corpora werden in Modelle umgewandelt und meist nicht mitgeliefert. Das macht eine erneute Annotation beziehungsweise eine erweiterte Annotation sowie ein darauf folgendes Re-Training der Modelle unmöglich. NeuroNER bietet diese Möglichkeit. Es besteht aus 2 Komponenten:

  • NeuroNER Modell – Ein Deep Learning Netz, basierend auf einer bestimmten Variante von RNNs (Recurrent Neural Networks) die sogenannten LSTM (Long Short Term Memory) mit 3 Ebenen: Character-enhanced token-embedding layer, Label prediction layer & Label sequence optimization layer.
  • BRAT – Ein webbasiertes Annotations-Tool fĂĽr Trainingsdaten. Das Tool ermöglicht es, sehr schnell neue Annotationen zum Korpus hinzuzufĂĽgen.
prediction-neuroner

Prediction und Evaluation. Figure 1 von NeuroNER: an easy-to-use program for named-entity recognition based on neural networks

Bei NeuroNER liegt der Fokus auf Usability. Durch ihr Annotationstool und die enge Verzahnung zum Modelltraining gelingt das den Autoren auch besser als den bisherigen Ansätzen.. Es existieren schon einige vortrainierte Modelle, die man nutzen kann. Die Visualisierung des Trainings kann Live eingesehen werden. DafĂĽr bringt das Tool eigene Graphen mit. AuĂźerdem kann TensorBoard benutzt werden – eine webbasierte Software von Tensorflow, um das Training zu kontrollieren und Insights zu erlangen.

Experimente & Daten

Die Experimente sind nicht sehr umfangreich. Es existiert ein Vergleich mit dem aktuellen State-of-the-Art Ansatz:

  • State of the Art [Passos et al.] –  CoNLL 2003: 90.9%, i2b2: 97.9%
  • NeuroNER – CoNLL: 90.5%, i2b2: 97.7%

auf den zwei Datensätzen CoNLL und i2b2. Dabei schneidet NeuroNER nicht signifikant besser oder schlechter ab. Im Vergleich zu dem State of the Art von Passos et al. bietet NeuroNER allerdings eine durchsichtigere Architektur sowie das visuelle Annotations- und Trainings-Tool.




FortfĂĽhrend

FĂĽr fortfĂĽhrende Arbeiten und Experimente bietet das Paper keine Perspektive.

Lust zu lesen? Hier gehts zum Paper.

Ähnliche Arbeiten

  • Guergana K Savova, James J Masanz, Philip V Ogren, Jiaping Zheng, Sunghwan Sohn, Karin C KipperSchuler, and Christopher G Chute. 2010. Mayo clinical text analysis and knowledge extraction system (ctakes): architecture, component evaluation and applications. Journal of the American Medical Informatics Association 17(5):507–513.
  • HC Cho, N Okazaki, M Miwa, and J Tsujii. 2010. Nersuite: a named entity recognition toolkit. Tsujii Laboratory, Department of Information Science, University of Tokyo, Tokyo, Japan .
  • William Boag, Kevin Wacome, Tristan Naumann, and Anna Rumshisky. 2015. Cliner: A lightweight tool for clinical named entity recognition. American Medical Informatics Association (AMIA) Joint Summits on Clinical Research Informatics (poster) .
  • Robert Leaman, Graciela Gonzalez, et al. 2008. Banner: an executable survey of advances in biomedical named entity recognition. In Pacific symposium on biocomputing. volume 13, pages 652–663.

Semantic Style Transfer – Von der Bitmap zum Kunstwerk

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

Was ist neu

Das Paper stellt einen Ansatz vor, wie man generative Neuronale Netze und semantische Annotationen zusammen benutzen kann. Dabei können die Labels auf Pixelebene gesetzt werden. Hier gehts zum Paper.

Worum geht es

semantic-map

Quelle: Figure 3 von Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artwork

Das Paper “Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artwork” von Alex J. Champandard beschäftigt sich mit dem pixelbasierten Labeln fĂĽr die Image-Synthese. Der Anwendungsfall ist der semantische Transfer von Wissen aus einem Gemälde (oder Portrait) zu einem sehr simplen Bitmap. Dabei werden CNNs (Convolutional Neural Networks) – also mehrschichtige Netze genutzt. Die Motivation fĂĽr die Veröffentlichung waren folgende Probleme:

  • Die bisherigen Modelle waren ursprĂĽnglich fĂĽr die Klassifikation gebaut und nicht fĂĽr den Zweck des Style Transfer.
  • Die bisherigen Ansätze, wie zusammenhängende Layer die Informationen von anderen Layern nutzen, ist nicht optimal.

Der Autor stellt ein Verfahren vor, das die Lücke zwischen generativen Modellen und dem Labeln auf Pixelebene schließt. Dabei wird auch gezeigt, wie sich diese Methode in verschiedene bereits bestehende Algorithmen eingliedern lässt.

 

Experimente & Daten

Die Experimente sind nicht sehr umfangreich. Es wurden 4 semantische Labels für Hintergrund, Kleidung, Gesicht und Haare benutzt. Die Genauigkeit wurde mit Visual Inspection festgestellt und durch die Änderung verschiedener Parameter optimiert.




 

FortfĂĽhrend

Der Algorithmus in diesem Paper kann für verschiedene Typen von Bildern angepasst werden. Damit sind vor allem verschiedene Kunststile gemeint, die man nutzen könnte. Ebenfalls könnte man die Anzahl der Annotationen resp. Labels erweitern, um komplexere Bilder zu synthetisieren.

Lust zu lesen? Hier gehts zum Paper.

Ähnliche Arbeiten

  • Hertzmann, A.; Jacobs, C.; Oliver, N.; Curless, B.; and Salesin, D. 2001. Image analogies. SIGGRAPH Conference Proceedings.
  • Gatys, L. A.; Ecker, A. S.; and Bethge, M. 2015. A neural algorithm of artistic style. CoRR abs/1508.06576.
  • Li, C., and Wand, M. 2016. Combining markov random fields and convolutional neural networks for image synthesis. abs/1601.04589.
  • Thoma, M. 2016. A survey of semantic segmentation. CoRR abs/1602.06541.
  • Yang, Y.; Zhao, H.; You, L.; Tu, R.; Wu, X.; and Jin, X. 2015. Semantic portrait color transfer with internet images. Multimedia Tools and Applications 1–19.

 

 

 

 

 

 

 

Na, wer ist ein guter Junge? – DeepDoggo

DeepDoggo beantwortet die Frage: “Na, wer ist ein guter Junge?” mit Deep Learning. Ben Lengerich von der Carnegie Mellon University hat DeepDoggo gebaut und ein Paper dazu veröffentlicht.

deepdoggo2Er nutzt das Inception-v3 Modell [Szegedy et al., 2016]. Dabei wurde der Output vom letzten Pooling-Layer benutzt, um zwischen good dog und bad dog zu separieren.

DafĂĽr wurde ein Datenset von Google benutzt. Nach einer Google Suche wurden 360 Bilder fĂĽr bad dogs und 585 Bilder fĂĽr good dogs benutzt.

Mit seinem Modell erreichte er eine Accuracy von 73.0%. Damit ist er 11.1% besser als eine Baseline, bei der jeder Hund als guter Junge klassifiziert wird. Bei dieser Form von Baseline handelt es sich um einen ZeroR-Klassifikator, der sich in allen Fällen für die Klasse entscheidet, die am meisten Samples im Training-Set bereitstellt.

Lengerich sieht die Anwendung fĂĽr DeepDoggo vor allem im Hundetraining, argumentiert das aber eher scherzhaft. Im Allgemeinen ist die Anwendung DeepDoggo scherzhafter Natur und das bereitgestellte Paper dazu auch.




Hier gehts zum Paper von Ben Lengerich.

Referenzen

[Szegedy et al., 2016] Szegedy, Christian, Vanhoucke, Vincent, Ioffe, Sergey, Shlens, Jon, and Wojna, Zbigniew. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2818–2826, 2016.