Tag: Deep Learning

6 Mythen zum Thema Deep Fakes

Das¬†Center for Data Ethics and Innovation¬†hat einen Report √ľber das Thema Desinformation und DeepFakes ver√∂ffentlicht. Der Report bietet vieles! U.a. wird gezeigt, wie Deep Fakes enstehen und wie sich falsche Informationen verbreiten. Darauf werde ich in anderen Beitr√§gen zur√ľckkommen. Hier geht es um die 6 Mythen zum Thema Deep Fakes.

(Extrahiert aus dem Report: Snapshot Paper РDeepfakes and Audiovisual Disinformation)

Deep Fakes treten vorwiegend in Form von Gesichtsaustausch in Videos auf. 

Realität: Es gibt vier Typen von Deep Fakes: Gesichtsersatz, Gesichtsnachstellung, Gesichtserzeugung und Audiosynthese.

Deepfakes tauchen auf Social-Media-Plattformen in großer Zahl auf

Realität: Auf Social-Media-Plattformen sind nur wenige politische Deepfakes aufgetaucht. Die Anzahl der gefälschten pornografischen Videos gibt jedoch Anlass zur Sorge.

Jeder kann ausgefeilte Deepfakes erstellen, die die Messlatte der Glaubw√ľrdigkeit sprengen.¬†

Realit√§t:¬†W√§hrend unterst√ľtzende Software wie FakeApp es mehr Menschen erm√∂glicht hat, sich mit Deepfakes zu besch√§ftigen, erfordert die hochqualitative Audio- und Bildsynthese immer noch betr√§chtliches Fachwissen.

Die beste Methode zum Erkennen von Deepfakes besteht in physiologischen Tests¬†(dem “Eye Blinking”-Test).

Realit√§t:¬†Die physiologische Untersuchung von Videos kann langsam und unzuverl√§ssig sein. F√ľr ein systematisches Screening von Deepfakes sind AI-basierte Tools erforderlich, mit denen die Erkennung gef√§lschter Inhalte teilweise automatisiert werden kann. Die Tools m√ľssen au√üerdem regelm√§√üig aktualisiert werden.

Neue Gesetze sind eine schnelle L√∂sung f√ľr den Umgang mit Deepfakes.¬†

Realit√§t:¬†Versuche, Gesetze gegen Deepfakes zu erlassen, k√∂nnen sich als wirkungslos erweisen, da es sehr schwierig ist, die Herkunft der behandelten Inhalte zu bestimmen. Die Gesetzgebung k√∂nnte auch den n√ľtzlichen Einsatz visueller und akustischer Manipulationen gef√§hrden.

Deepfakes sind wie mit Photoshop erstellte Bilder. Die Menschen werden sich an sie gewöhnen. 

Realit√§t:¬†Dies ist eine Annahme, keine Tatsache. Es gibt nur unzureichende Untersuchungen dar√ľber, wie Deepfakes das Verhalten und die √úberzeugungen der Zuschauer beeinflussen.

Deep Learning mit Python und Keras

Python ist f√ľr viele Einsteiger die Sprache der Wahl, wenn sie mit neuartigen Frameworks etwas aufbauen wollen. Im Bereich des Deep-Learnings ist das √§hnlich. Hier bietet sich Python in Kombination mit Keras an. Das Buch Deep Learning mit Python und Keras von Fran√ßois Chollet besch√§ftigt sich genau mit diesem Thema.

Die Beispiele sind sehr vielfältig, was auch ein sehr großes Plus dieses Buches ist.

Das Buch startet mit einer kurzen Einleitung zum Thema Deep Learning. Was bedeutet das “Deep” in Deep Learning, was kann Deep Learning leisten und welche Versprechen bringt die K√ľnstliche Intelligenz im Generellen mit sich. Bevor das Buch sich mit Keras und Deep Learning Verfahren besch√§ftigt, gibt es erstmal einen Ausflug in die Welt der probabilistischen Modellierung. Was sind Kernel? Welche Verfahren wurden vor dem Deep Learning eingesetzt?

Hier liefert das Buch auch die n√∂tigen technischen und mathematischen Grundlagen zum Verstehen des Sachverhaltes. Der Autor geht davon aus, dass sogar mathematische Anf√§nger die Materie durchdringen k√∂nnen, auch wenn sie keine tiefergreifende Ausbildung haben. Das Verst√§ndnis dar√ľber, wie bestimmte Medien (Bilder, Video, Audio, Text) codiert sind, ist essenziell beim Deep Learning. Deshalb werden diese anf√§nglich erkl√§rt. Danach folgt eine Einf√ľhrung in k√ľnstliche neuronale Netze, die sozusagen die Vorg√§nger des heutigen Deep Learnings sind.

Nachdem sich das Buch mit einfacheren Methoden besch√§ftigt hat, begibt sich der Autor zu den praktischen Problemen, die er mit Deep Learning Methoden l√∂st. Dazu verwendet er das Framework Keras (der Autor selbst ist der f√ľhrende Entwickler hinter diesem Framework). Die Beispiele sind sehr vielf√§ltig, was auch ein sehr gro√ües Plus dieses Buches ist. Hier werden Datenbanken wie IMDb und Reuters (Nachrichten) angezapft. Das Buch besch√§ftigt sich also mit der Klassifizierung von Texten und Bildern.

Ein weiterer spannender Punkt im Bezug auf Deep Learning ist das Generative Deep Learning. Anf√§nglich wurden Sequenzen aus Daten zur klassifiziert. Beim Generativen Deep Learning werden eben solche Texte, Bilder oder Audiost√ľcke selbst erzeugt. Nachdem man sich also mit dem praktischen Thema des Deep Learnings besch√§ftigt hat, lernt man noch, wie man in Zukunft verschiedene Medien selbst generieren lassen kann.

Unser Fazit: Das Buch liefert ein gelungenen praktischen Exkurs in die Welt des Machine Learnings mit der Sprache Python. Wenn ihr einen schnellen Einstieg sucht und schnell mit Hilfe von Beispielen an ein Ziel kommt, dann ist dieses Buch genau die richtige Empfehlung f√ľr euch.

Hier geht es zum Buch!

ReWork – Deep Learning Summit London 2018

Außergewöhnliche Speaker
Entdecken Sie Fortschritte in den Bereichen tiefes Lernen und intelligente k√ľnstliche Intelligenz von den weltweit f√ľhrenden Innovatoren. Lernen Sie von den Branchenexperten f√ľr Sprach- und Bilderkennung, neuronale Netze und Big Data. Erfahren Sie, wie tiefes Lernen die Kommunikation, die Herstellung, das Gesundheitswesen und den Transport beeinflusst.

Entdecken sie emerging Trends
Der Gipfel wird die M√∂glichkeiten aufzeigen, wie Trends im Bereich des tiefen Lernens und deren Auswirkungen auf Wirtschaft und Gesellschaft vorangetrieben werden k√∂nnen. Wird schlaue k√ľnstliche Intelligenz der menschlichen Intelligenz endlich Konkurrenz machen? Erfahren Sie die neuesten technologischen Fortschritte und Branchentrends von einem globalen Experten-Team.

Erweitern Sie Ihr Netzwerk
Eine einzigartige Gelegenheit, mit Gesch√§ftsf√ľhrern, einflussreichen Technologen, Datenwissenschaftlern und Unternehmern zu interagieren, die die Deep Learning Revolution f√ľhren. Lernen Sie von und verbinden Sie sich mit √ľber 300 Brancheninnovatoren, die Best Practices teilen, um die intelligente Revolution der k√ľnstlichen Intelligenz voranzutreiben.

Wer sollte teilnehmen?

  • Data Scientists
  • Data Engineers
  • Machine Learning Scientists
  • Developers
  • Entrepreneurs
  • Director of Engineering
  • Big Data Experts

AI Conference (O’Reilly) 2018

Erfahren Sie, wie Sie die neuesten KI-Durchbr√ľche und Best Practices f√ľr Ihr Unternehmen anwenden k√∂nnen.
Die Artificial Intelligence Conference bringt die wachsende KI-Community zusammen, um die wichtigsten Probleme und faszinierenden Innovationen in der angewandten K√ľnstlichen Intelligenz zu erforschen. Wir werden uns mit praktischen Gesch√§ftsanwendungen, √ľberzeugenden Anwendungsf√§llen, grundsoliden technischen F√§higkeiten, Zerrei√üungen erfolgreicher AI-Projekte und Dissektionen von Fehlern in diesen Schl√ľsselthemen befassen:

AI im Unternehmen: Executive Briefings, Fallstudien und Use Cases, branchenspezifische Anwendungen
Der Einfluss von KI auf Wirtschaft und Gesellschaft: Automatisierung, Sicherheit, Regulierung
Implementieren von AI-Projekten: Anwendungen, Tools, Architektur, Sicherheit
Interaktion mit AI: Design, Metriken, Produktmanagement, Bots
Modelle und Methoden: Algorithmen, Vision / Sprache / Emotion, Deep Learning, Daten, Training
Sind Sie ein Entwickler, Konstrukteur, Designer oder Produktmanager, der die KI nutzt, um das n√§chste gro√üartige Produkt oder den n√§chsten Service Ihres Unternehmens zu entwickeln? Oder eine F√ľhrungskraft, ein Unternehmer oder Innovator, die vor schwierigen strategischen Entscheidungen stehen, um die Auswirkungen von KI auf Ihre Organisation zu steuern? Begleiten Sie uns bei Artificial Intelligence und erleben Sie eine un√ľbertroffene Tiefe und Breite an technischen Inhalten – mit einem laserscharfen Fokus auf die wichtigsten KI-Entwicklungen f√ľr Unternehmen.

Welche Deep Learning Frameworks gibt es?

Stand Deep Learning Frameworks 2017. Credits: Indra den Bakker

Stand Deep Learning Frameworks 2017. Credits: Indra den Bakker

Wie sah die Landschaft der Deep Learning Frameworks im abgelaufenen Jahr 2017 aus? Die 5 großen Player Google, Microsoft, Amazon und Facebook stecken hinter den bekanntesten und meist benutzten Frameworks.

Was wird das Jahr 2018 bringen? Einige Zeichen stehen auf Konsolidierung der Frameworks, Entwicklerteams von einigen Frameworks wollen sich sogar anderen Entwicklern anschließen, um ein neues Framework zu bauen.

Mehr dazu lest ihr im Artikel von Indra den Bakker

 

So funktioniert Recommendation bei Spotify

Rot markiert. Recommendation bei Spotify (Credit: Chris Johnson, Spotify)

Rot markiert. Recommendation bei Spotify (Credit: Chris Johnson, Spotify)

Empfehlungssystemen begegnet man √ľberall im Internet. Auch bei Spotify¬†arbeitet man mit State-of-the-Art Systemen im Bereich Recommendation.

Drei verschiedene Systeme werden bei Spotify dazu benutzt, um euch die Musik vorzuschlagen, die euch sehr wahrscheinlich gefallen könnte.

Dabei bedient sich Spotify an Metadaten der Tracks, liest die Logs der gespielten Musik und durchsucht sogar Blogs und News nach verschiedenen Artikeln. Diese Informationen werden dann benutzt, um euch einen neuen Track zu empfehlen.

Diese 3 Methoden benutzt Spotify

Kollaboratives Filtern – “Wer X geh√∂rt hat, hat auch Y geh√∂rt.” Amazon nutzt beispielsweise Kollaboratives Filtern, um euch zu zeigen, welche Produkte jemand noch gekauft hat, der √§hnliche Produkte wie ihr kaufte. Das funktioniert zum Beispiel √ľber Matrixfaktorisierung.

Natural Language Processing – Die Songtexte und Beschreibungen werden mit Natural Language Processing durchsucht und nach Schl√ľsselw√∂rtern sortiert. √Ąhnliche Textpassagen und Phrasen sprechen f√ľr eine √Ąhnlichkeit. Schwierig wird es, wenn der Track sehr wenige bis garkeine Lyrics enth√§lt. Daf√ľr gibt es noch eine dritte Form der Recommendation.

Audio Material – Auf den reinen Audiosignalen wird ein neuronales Netz (Deep Learning) angewandt. Dieses Netz erkennt √Ąhnlichkeiten in den Frequenenzen. Es nutzt auch weitere Features, um die √Ąhnlichkeit eines Songs zu bestimmen. So kann man vor allem Songs bewerten, die √ľber keine Lyrics verf√ľgen und bisher selten geh√∂rt wurden (also keine Chance f√ľr Kollaboratives Filtern h√§tten).

Ihr findet das Thema spannend? Hier gibt es den längeren Artikel dazu.

Paper Review – Language Modeling, Deep vs. Diverse Architecture und Sentiment Analysis

Wir sind im Sommermodus. Aktuell basteln wir an einem Plan, wie wir euch ab Herbst weiter mit spannenden Artikeln aus der Machine Learning Szene begeistern können.

In unserer Rubrik¬†Paper Review¬†stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen f√ľr euch das¬†Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht.¬†Viel Spa√ü!

In¬†Neural Networks Compression for Language Modeling werden RNNs komprimiert. Hier handelt es sich um RNNs, die verschiedene Text-Klassifizierungen durchf√ľhren. Das ist besonders wichtig f√ľr Mobile Devices, die dadurch mehrschichtige Netze effizienter abspeichern k√∂nnen. Bereits im Juli haben wir euch im Paper Reivew das Paper Towards Evolutional Compression vorgestellt – dort werden √§hnliche Algorithmen verwendet.¬†Hier gehts zum Paper.

Der¬†Autor von Deep vs. Diverse Architectures for Classification Problems vergleicht verschiedene Netz-Architekturen f√ľr verschiedene Aufgaben. Es stellt sich heraus, dass sich f√ľr einige Aufgaben Deep-Learning-Architekturen besonders eignen. Allerdings lassen sich auch Aufgaben finden, die mit kleineren (unkomplexeren) Architekturen l√∂sen lassen. Deep-Learning ist also nicht die sofort die Allzweckwaffe. Wof√ľr ihr welche Algorithmen benutzen solltet, lest hier hier.¬†Hier gehts zum Paper.

In Sentiment Analysis by Joint Learning of Word Embeddings and Classifier¬†von¬†Prathusha Kameswara Sarma und Bill Sethares wird¬†Supervised Word Embeddings for Sentiment Analysis¬†vorgestellt. Mit dieser Struktur erreichen sie auf verschiedenen Datenbanken in ihren Experiments den State-of-the-Art bez√ľglich AUC. In einigen F√§llen sind sie damit sogar genauer als die aktuell bekannten Ergebnisse. SWESA ist dabei ein sehr flexibles Konstrukt. Hier gehts zum Paper.

 

Am Rand erwähnt

Semantic Analysis mit Rhetoric Structure Theory

In unserer Rubrik Paper Review¬†stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen f√ľr euch das¬†Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht.¬†Viel Spa√ü!

Takeaways ‚Äď Was ist neu

Bisherige Ans√§tze f√ľr Sentiment-Analyse nutzten entweder klassische Maschine-Learning-Verfahren oder aber Deep Learning mit regul√§ren LSTM (Long Short Term Memory) Komponenten. Dieser Ansatz tauscht herk√∂mmliche LSTMs mit, auf Rhetoric Structure Theory basierenden, RST-LSTM. Dadurch kann ein Uplift in der Genauigkeit erzielt werden. Hier gehts zum Paper.

Takeaways

  • Durch die Rhetoric Structure Theory ist es m√∂glich, das Netz noch besser zu machen.
  • RST-LSTM werden anstatt linear in eine Baumstruktur geschalten. Dadurch k√∂nnen sie auch komplexere Texte verarbeiten.

Worum geht es

Der Aufbau der Experimentation-Pipeline. Auch die Optimierungsschritte "Leaf insertion" und "Node reordering" sind zu sehen. Quelle: Figure 3 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Der Aufbau der Experimentation-Pipeline. Auch die Optimierungsschritte “Leaf insertion” und “Node reordering” sind zu sehen. Quelle: Figure 3 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Im Gegensatz ¬†zu vielen herk√∂mmlichen Ans√§tzen wie N-Grams oder Bag-of-Words im Bereich der Sentiment Analysis (Stimmungsanalyse, Emotionsanalyse) benutzen die Autoren sogenannte “Discourse Trees”. Das bedeutet, es werden Phrasen nach semantischen Gesichtspunkten in einen Entscheidungsbaum gehangen und dann mit emotionalen Werten und Polarit√§t versehen. Die Struktur nennen die Autoren RST-LSTM (Rhetoric Structure Theory – Long Short Term Memory). Dabei wird die nat√ľrliche Sprache in sogenannte EDUs (Elementary Discourse Units) hierarchisch eingeteilt. ¬†Solche Strukturen haben sich bereits beim Zusammenfassen von Zeitungsartikeln bew√§hrt.

rst-lstm-003

Links sieht man eine herkömmliche LSTM-Struktur. Rechts sieht man die hierachische Struktur wie sie in diesem Ansatz genutzt wird. Quelle: Figure 7 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Es wird ein neuronales Netz benutzt, das diese Abwandlung dieser¬†LSTM-Struktur beherbergt und das somit mehr Kapazit√§t f√ľr komplexe Discourse hat als herk√∂mmliche Netze.

 

Experimente & Daten

Es wurden zur Evaluation zwei Datensets herangezogen:

Der vorgestellte Ansatz wurde mit den aktuellen State-of-the-Art-Methoden verglichen. Durch verschiedene Veränderungen an Parametern sowie der Struktur der Discourse Trees konnte ein besseres Ergebnis erzielt werden. Auf dem IMDb Datenset erreicht der Ansatz lt. F1-Score: 84.9 % sowie auf dem Rotten Tomato Set: 79,6 % F1-Score. Das bedeutet ein Uplift zur Baseline von 4.33 % und 3.16 %.

Fortf√ľhrend

Aktuell werden die Trees noch manuell angepasst. Zuk√ľnftig k√∂nnte man die Autoencoder der EDUs viel spezifischer nach verschiedenen Trainingsepochen anpassen und somit eine bessere Codierung erreichen.

Lust zu lesen? Hier gehts zum Paper.

√Ąhnliche Arbeiten

  • K. Xu, S. S. Liao, J. Li, Y. Song, Mining comparative opinions from 32 customer reviews for competitive intelligence, Decision Support Systems 50 (2011) 743‚Äď754.
  • A. Bhattacherjee, An empirical analysis of the antecedents of electronic commerce service continuance, Decision Support Systems 32 (2001) 201‚Äď 214.
  • B. Pang, L. Lee, Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales, in: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL ‚Äô05), 2005, pp. 115‚Äď124.
  • X. Yu, Y. Liu, X. Huang, A. An, Mining online reviews for predicting sales performance: A case study in the movie domain, IEEE Transactions on Knowledge and Data Engineering 24 (2012) 720‚Äď734.
  • S. Tirunillai, G. J. Tellis, Does chatter really matter? Dynamics of usergenerated content and stock performance, Marketing Science 31 (2012) 198‚Äď215.
  • S. Feuerriegel, H. Prendinger, News-based trading strategies, Decision Support Systems 90 (2016) 65‚Äď74.
  • N. Pr√∂llochs, S. Feuerriegel, D. Neumann, Negation scope detection in sentiment analysis: Decision support for news-driven trading, Decision Support Systems 88 (2016) 67‚Äď75.
  • H. Rui, Y. Liu, A. Whinston, Whose and what chatter matters? The effect of tweets on movie sales, Decision Support Systems 55 (2013) 863‚Äď870.

PatternNet & PatternLRP – UnBlackboxing von Neuronalen Netzen

In unserer Rubrik Paper Review¬†stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen f√ľr euch das¬†Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht.¬†Viel Spa√ü!

Main Takeaway – Was ist neu

Neuronale Netze werden häufig als Black-Boxen gesehen. Man kann die Entscheidungen des Klassifikators nicht so einfach einsehen, wie man das gern möchte. Um diese Einschränkungen aufzuheben, stellen die Autoren in dem Paper die beiden Systeme PatternNet und PatternLRP vor. Hier gehts zum Paper.

Takeaways

  • Die Gewichte im ersten Layer zwischen Input Space und ersten Hiddenlayer sagen nicht aus, wie wichtig ein Feature ist.
  • Es gibt verschiedene Ans√§tze, um den Zusammenhang zwischen Input und Output in neuronalen Netzen sichtbar zu machen.

Worum geht es

patternnet-002

Verschiedene Ansätze, um Zusammenhänge von Input und Output zu visualisieren. Quelle: Figure 1 РPatternNet and PatternLRP Improving the interpretability of neural networks

Um dem Thema n√§her zu kommen, werden zuerst lineare Modelle beleuchtet und bereits existierende Explanation-Methoden vorgestellt. Danach wird eine¬†Objective Function zur Messung der Qualit√§t von Neuronweisen Explanation-Methoden eingef√ľhrt. Basierend darauf werden zwei neue Systeme eingef√ľhrt.

Um Klassifikatorentscheidungen sichtbar zu machen, werden Methoden benutzt, die eine R√ľckprojektion in den Input-Space m√∂glich machen u.a. saliency maps (Aktivierungsmuster), DeConvNet, Guided BackProp (GBP), Layer-wise Relevance Propagation (LRP) und Deep Taylor Decomposition (DTD).

Daf√ľr werden die beiden Systeme PatternNet und PatternLRP vorgeschlagen. Diese unterschieden sich in der Form der Ausgabe und benutzen jeweils verschiedene Methoden, um beispielsweise Rauschen zu minimieren.

Experimente & Daten

patternnet-001

Man sieht den Vergleich verschiedener Verfahren sowie deren Output (Experiment: Qualitative evaluation). Quelle: Figure 7 – PatternNet and PatternLRP Improving the interpretability of neural networks.

Die Autoren haben 3 verschiedene Experimente durchgef√ľhrt. Gr√∂√ütenteils beschr√§nkt sich die Auswertung aber auf ein qualitative Auswertung der Daten.

 

  • Measuring the quality of signal estimators – Anhand einer Correlation-Metrik wird gemessen, wie gut die Muster wiedererkannt werden. Als Baseline dient dabei eine Zufallssch√§tzung.
  • Image degradation – Das Bild wird in 9×9 Pixel gro√üe Patches zerlegt. Danach wird die Aktivierung der der Heat-Map als Zahl gemessen und die Patches nach dem Grad der Aktivierung absteigend geordnet.
  • Qualitative evaluation – Existierende und die beiden vorgestellten Verfahren wurden an den selben Bildern getestet und durch Visual Inspection (Ansehen der Bilder) die Qualit√§t entschieden.




Fortf√ľhrend

F√ľr fortf√ľhrende Arbeiten und Experimente bietet das Paper keine Perspektive.

Lust zu lesen? Hier gehts zum Paper.

√Ąhnliche Arbeiten

  • Matthew D Zeiler and Rob Fergus. Visualizing and understanding convolutional networks. In European Conference on Computer Vision, pages 818‚Äď833. Springer, 2014.
  • Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox, and Martin Riedmiller. Striving for simplicity: The all convolutional net. In ICLR, 2015.
  • Luisa M Zintgraf, Taco S Cohen, Tameem Adel, and Max Welling. Visualizing deep neural network decisions: Prediction difference analysis. In ICLR, 2017
  • Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman. Deep inside convolutional networks: Visualising image classification models and saliency maps. In ICLR, 2014.
  • Jason Yosinski, Jeff Clune, Thomas Fuchs, and Hod Lipson. Understanding neural networks through deep visualization. In ICML Workshop on Deep Learning, 2015.
  • Anh Nguyen, Alexey Dosovitskiy, Jason Yosinski, Thomas Brox, and Jeff Clune. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks. In Advances in Neural Information Processing Systems, pages 3387‚Äď3395, 2016.
  • David Baehrens, Timon Schroeter, Stefan Harmeling, Motoaki Kawanabe, Katja Hansen, and Klaus-Robert Muller. How to explain individual classification decisions. ¬® Journal of Machine Learning Research, 11(Jun):1803‚Äď1831, 2010.
  • Sebastian Bach, Alexander Binder, Gregoire Montavon, Frederick Klauschen, Klaus-Robert ¬ī Muller, and Wojciech Samek. On pixel-wise explanations for non-linear classifier decisions by ¬® layer-wise relevance propagation. PloS one, 10(7):e0130140, 2015.
  • Gregoire Montavon, Sebastian Lapuschkin, Alexander Binder, Wojciech Samek, and Klaus- ¬ī Robert Muller. Explaining nonlinear classification decisions with deep taylor decomposition. ¬® Pattern Recognition, 65:211‚Äď222, 2017.

NeuroNER – Named Entity Recognition

In unserer Rubrik Paper Review¬†stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen f√ľr euch das¬†Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht.¬†Viel Spa√ü!

Was ist neu

Die Autoren pr√§sentieren einen Ansatz, der Deep Learning f√ľr den klassischen Named Entity Task benutzt. Dabei geht es darum, Orte, Personen und andere Entit√§ten in Texten zu finden. Au√üerdem stellen sie mit BRAT einen visuellen Annotator vor.¬†Hier gehts zum Paper.

Worum geht es

training-neuroner

Trainingsprozess von NeuroNER. Figure 1 aus NeuroNER: an easy-to-use program for named-entity recognition based on neural networks

Named Entity Recognition ist eine Aufgabe, die meist auf Corpora beruht, die m√ľhevoll annotiert wurden. Diese Corpora werden in Modelle umgewandelt und meist nicht mitgeliefert. Das macht eine erneute Annotation beziehungsweise eine erweiterte Annotation sowie ein darauf folgendes Re-Training der Modelle unm√∂glich. NeuroNER bietet diese M√∂glichkeit. Es besteht aus 2 Komponenten:

  • NeuroNER Modell – Ein Deep Learning Netz, basierend auf einer bestimmten Variante von RNNs (Recurrent Neural Networks) die sogenannten LSTM (Long Short Term Memory) mit 3 Ebenen:¬†Character-enhanced token-embedding layer, Label prediction layer & Label sequence optimization layer.
  • BRAT – Ein webbasiertes Annotations-Tool f√ľr Trainingsdaten. Das Tool erm√∂glicht es, sehr schnell neue Annotationen zum Korpus hinzuzuf√ľgen.
prediction-neuroner

Prediction und Evaluation. Figure 1 von NeuroNER: an easy-to-use program for named-entity recognition based on neural networks

Bei NeuroNER liegt der Fokus auf Usability. Durch ihr Annotationstool und die enge Verzahnung zum Modelltraining gelingt das den Autoren auch besser als den bisherigen Ans√§tzen.. Es existieren schon einige vortrainierte Modelle, die man nutzen kann. Die Visualisierung des Trainings kann Live eingesehen werden. Daf√ľr bringt das Tool eigene Graphen mit. Au√üerdem kann TensorBoard benutzt werden – eine webbasierte Software von Tensorflow, um das Training zu kontrollieren und Insights zu erlangen.

Experimente & Daten

Die Experimente sind nicht sehr umfangreich. Es existiert ein Vergleich mit dem aktuellen State-of-the-Art Ansatz:

  • State of the Art [Passos et al.] – ¬†CoNLL 2003: 90.9%, i2b2: 97.9%
  • NeuroNER¬†– CoNLL: 90.5%, i2b2: 97.7%

auf den zwei Datensätzen CoNLL und i2b2. Dabei schneidet NeuroNER nicht signifikant besser oder schlechter ab. Im Vergleich zu dem State of the Art von Passos et al. bietet NeuroNER allerdings eine durchsichtigere Architektur sowie das visuelle Annotations- und Trainings-Tool.




Fortf√ľhrend

F√ľr fortf√ľhrende Arbeiten und Experimente bietet das Paper keine Perspektive.

Lust zu lesen? Hier gehts zum Paper.

√Ąhnliche Arbeiten

  • Guergana K Savova, James J Masanz, Philip V Ogren, Jiaping Zheng, Sunghwan Sohn, Karin C KipperSchuler, and Christopher G Chute. 2010. Mayo clinical text analysis and knowledge extraction system (ctakes): architecture, component evaluation and applications. Journal of the American Medical Informatics Association 17(5):507‚Äď513.
  • HC Cho, N Okazaki, M Miwa, and J Tsujii. 2010. Nersuite: a named entity recognition toolkit. Tsujii Laboratory, Department of Information Science, University of Tokyo, Tokyo, Japan .
  • William Boag, Kevin Wacome, Tristan Naumann, and Anna Rumshisky. 2015. Cliner: A lightweight tool for clinical named entity recognition. American Medical Informatics Association (AMIA) Joint Summits on Clinical Research Informatics (poster) .
  • Robert Leaman, Graciela Gonzalez, et al. 2008. Banner: an executable survey of advances in biomedical named entity recognition. In Pacific symposium on biocomputing. volume 13, pages 652‚Äď663.

Predictive Art – Kunst und Machine Learning

So kann jeder ein K√ľnstler werden. Fr√ľher ben√∂tigte man viel Training und viel Zeit, um ein Bild zu malen, Musik zu komponieren und andere k√ľnstlerische Neigungen auszuleben. Mit Deep Learning kann nun theoretisch jeder zum “K√ľnstler” werden und Kunstwerke erstellen lassen. Mit diesen Tools werdet ihr zum K√ľnstler.

Von der Bitmap zum Kunstwerk

Darstellung wie NeuralDoodle das Bild erstellt

Credits: github/alexjc

Mit Neural Doodle ist es möglich aus einer einfachen Bitmap ein komplexes Kunstwerk zu machen. Das funktioniert mit semantischen Transfer-Learning. Das spannende ist, dass die Maschine die Bedeutung im Bild einschätzen kann und das Bild dann so komponiert, wie es passen sollte. Diese Parameter können noch einem Tuning unterzogen werden, wodurch die abstraktesten Bilder entstehen können.

Das schwarzweiße Farbbild

Bild eines schwarzweißen Leuchtturms sowie eines colorierten.

Credits: github/pavelgonchar

ColorNet hilft dabei, Schwarzweiß-Bildern wieder Leben einzuhauchen. Auch hier kommt semantisches Transfer-Learning zum Einsatz. Mit einer selbstgemalten Bleistiftskizze könnte man somit schnell ein schönes coloriertes Bild erhalten.

 

Semantisches Bildverständnis

Das der Algorithmus nicht nur nach einem Regelset arbeitet, sondern semantische Beziehungen lernt, ist hier besonders wichtig. Damit kann man in Zukunft durchaus spielen. Bilder k√∂nnten dann merkw√ľrdige, surreale oder anst√∂√üige Situationen komponieren. Apropos komponieren, auch f√ľr Texte sowie Musik gibt es spannende Modelle.

Der Geschichtenerzähler

Bild das neural Storyteller nutzt, um eine Geschichte zu erzählen.

Credits: github/ryankiros

Ein einfaches Bild gen√ľgt als Input und der Neural-Storyteller erz√§hlt dir eine Geschichte zu dem Bild. Ein gut dokumentierter Urlaub w√ľrde ausreichen, um eine spannende Geschichte zu erz√§hlen. Vielleicht kann man dabei sogar seinen Urlaub noch einmal durch eine Maschine reflektieren. Was aber viel wichtiger ist: man kann erlebtes oder eben nicht erlebtes in Bildern ausdr√ľcken und so den Zugang zu einer Story finden.

Klingt das nicht spannend? Filme k√∂nnten wie B√ľcher wahrgenommen werden, sogar f√ľr blinde Menschen ist das spannend.

Predictive Music

Logo Deepjazz

Credits: github/jisungk

Ein Blick in die Zukunft der Musik gibt Biaxial-RNN-Music und DeepJazz. Musik kann aus verschiedenen kleinen Patches von Musikst√ľcken komponiert werden. Weiche √úberg√§nge, harte √úberg√§nge, dramatisch oder entspannt. Das alles kann der Algorithmus leisten. So k√∂nnte in Zukunft Musik komponiert werden. Musik k√∂nnte somit vom linearen Medium zum personalisierten Erleben werden. Spannend, wenn man bedenkt, dass viele Medien aktuell von linear zu personalisiert wechseln und somit immer mehr Menschen und Zielgruppen ansprechen.



Was bleibt?

F√ľr K√ľnstler entstehen in diesen Tagen viele Tools, die ihnen helfen k√∂nnen, √ľber ihre Kunst zu reflektieren. Was sieht der Algorithmus in meiner Kunst? Wie interpretiert er sie? Au√üerdem k√∂nnen diese Algorithmen helfen, denn richtig eingesetzt, f√∂rdern sie die Kreativit√§t der K√ľnstler. Kunst und K√ľnstliche Intelligenz kann Hand in Hand gehen. Kunst k√∂nnte sich vom linearen Medium zum personalisierten Erleben verschieben und somit f√ľr verschiedene Zielgruppen viel interessanter werden. Auch in der Werbung k√∂nnten diese Algorithmen Anwendung finden: personalisierte Sounds, Bilder und Texte, die sich je nach Person und deren Einstellung sowie Emotionen ver√§ndert.
K√ľnstliche Intelligenz ist f√ľr die Kunst ein interessantes Reflektionsmedium!

Na, wer ist ein guter Junge? – DeepDoggo

DeepDoggo beantwortet die Frage: “Na, wer ist ein guter Junge?” mit Deep Learning. Ben Lengerich von der¬†Carnegie Mellon University hat DeepDoggo gebaut und ein Paper dazu ver√∂ffentlicht.

deepdoggo2Er nutzt das Inception-v3 Modell [Szegedy et al., 2016]. Dabei wurde der Output vom letzten Pooling-Layer benutzt, um zwischen good dog und bad dog zu separieren.

Daf√ľr wurde ein Datenset von Google benutzt. Nach einer Google Suche wurden 360 Bilder f√ľr bad dogs und 585 Bilder f√ľr good dogs benutzt.

Mit seinem Modell erreichte er eine Accuracy von 73.0%. Damit ist er 11.1% besser als eine Baseline, bei der jeder Hund als guter Junge¬†klassifiziert wird. Bei dieser Form von Baseline handelt es sich um einen ZeroR-Klassifikator, der sich in allen F√§llen f√ľr die Klasse entscheidet, die am meisten Samples im Training-Set bereitstellt.

Lengerich sieht die Anwendung f√ľr DeepDoggo vor allem im Hundetraining, argumentiert das aber eher scherzhaft. Im Allgemeinen ist die Anwendung DeepDoggo scherzhafter Natur und das bereitgestellte Paper dazu auch.




Hier gehts zum Paper von Ben Lengerich.

Referenzen

[Szegedy et al., 2016]¬†Szegedy, Christian, Vanhoucke, Vincent, Ioffe, Sergey, Shlens, Jon, and Wojna, Zbigniew. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2818‚Äď2826, 2016.

 

5 coole Anwendungen f√ľr Deep Learning

Viele halten es f√ľr einen Hype, aber es gibt auch Anwendungen, in denen Deep Learning uns schon ernsthaft helfen kann. Egal ob im Bereich Computer Vision, Natural Language Processing oder Creation, Deep Learning Anwendungen werden in den n√§chsten Jahren immer h√§ufiger auftreten. Hier ein paar Anwendungen, die aktuell schon m√∂glich sind.

1. Bring deinem Auto bei, wie ein Mensch zu lenken

Es ist kein Problem mehr, ein eigenes Auto dazu zu bringen, zu lenken wie ein Mensch. Das einzige, was man dazu braucht, ist etwas Technik, ein Auto, ein paar Kameras und dieses Paper als Bauanleitung. Damit kann jeder ein selbstfahrendes Auto nachbauen. Das ganze l√§uft mit Torch 7. Eine gute Simulationsumgebung hierf√ľr ist dann wohl Grand Theft Auto.

2. Bau dir ein intelligentes Tagging-System f√ľr deine Bilder

Resultate von Projekt deepimagesent. Credits: Stanford.edu

Resultate von Projekt deepimagesent. Credits: Stanford.edu

Bilder zu beschreiben, haben Deep Learning Netze ebenfalls gelernt. Besonders spannend wird es, wenn man eine große Bildersammlung hat und nun herausfinden will, was in diesen Bildern enthalten ist. Dazu bieten sich verschiedene Programme u.a. NeuralTalk von Andrej Karpathy an. Wie das Ganze funktioniert, lernt man hier (sogar mit passender Demo).

 

3.¬†Male wie ein richtiger K√ľnstler

neural-doodle

Beispiel von Neural Doodle. Credits: alexjc

Neural Doodle hei√üt das Tool. Man¬†kann mit den, f√ľr eine Landschaftszeichnung √ľblichen, Farben ein Bild malen. Danach transformiert ein Netz das simple Bild in ein Kunstwerk. Dabei nutzt das Netz die Farbkombinationen als Annotation und versucht aus diesen Annotationen das urspr√ľngliche Kunstwerk wieder herzustellen. Dabei kann man zwischen verschiedenen Stilen w√§hlen. Es h√§ngt ganz davon ab, was man dem Netzwerk zeigt.

 

4. Entwickle deinen eigenen Font

Eigene Fonts entwickeln mit deep-fonts. Credits: erikbern

Eigene Fonts entwickeln mit deep-fonts. Credits: erikbern

Jeder Designer hat schonmal eine Schrift ben√∂tigt, die genau nach seinen W√ľnschen aussieht. Wie w√§re es mit einer grafischen Oberfl√§che, auf der man verschiedene Regler nach links und rechts schieben kann. Was man erh√§lt sind verschiedene Fonts, die das Neuronale Netz passend zu den¬†Eingaben anpasst.

50.000 Schriftarten hat der Autor von deep-fonts benutzt, um das Netzwerk zu trainieren. Hier erh√§lt man den Code und das trainierte Netz f√ľr die eigenen Spielereien.

5. Höre und komponiere klassische Musik

Neuronale Netze komponieren sogar Musik. Sie klingt bereits so, als w√ľrde jemand am Klavier sitzen und nur pers√∂nlich f√ľr uns spielen. Damit k√∂nnen in der Zukunft auch professionelle Komponisten und Interpreten ihre Musik von einer KI √ľberarbeiten lassen oder sogar einem Mastering unterziehen. Das ist besonders spannend f√ľr Musiker, die noch kein Plattenlabel haben und trotzdem ein Platte in ordentlicher Qualit√§t produzieren wollen. Vielleicht ist das sogar noch eine Marktl√ľcke. ūüėČ Nachfolgend k√∂nnt ihr h√∂ren, wie das klingen kann. Mehr Infos dazu findet ihr hier.

5 weitere Anwendungen f√ľr Deep Learning lest ihr in unserem zweiten Teil der Serie.

 

flyAI – Das Schicksal von Hausfliegen wird berechnet

Wir hei√üen eine der sinnlosesten KI powered Kunst-Installationen auf dem KI-Blog willkommen. Die Rede ist von flyAI. David Bowen hei√üt der K√ľnstler.¬†Er nutzt TensorFlow und das damit vortrainierte Image Recognition Modell, um das Schicksal von Hausfliegen zu bestimmen. Dabei m√ľssen die Fliegen vor einer Kamera landen und von dem Tensorflow-Modell dahinter als Fliege klassifiziert werden, um Sauerstoff und N√§hrstoffe zu bekommen. Falls die Fliegen es nicht schaffen, sich vor der Kamera blicken zu lassen, m√ľssen sie vorerst auf N√§hrstoffe verzichten.




Diese Kunst-Installation zeigt wunderbar, was passiert, wenn unreife K√ľnstler auf Zwang mit der Zeit gehen wollen. Inspiriert wurde er von Nick Bostroms neuem Buch Superintelligence (welches ich hier echt empfehlen kann). Das Buch gibt es hier auf deutsch und hier auf englisch. F√ľr einen Artikel auf Vice hat es dennoch f√ľr Bowen gereicht.

 

 

Monthly Summary – Das war der Dezember 2016

Was ist im Dezember passiert? Welche Schlagzeilen dominierten die News und was gibt es neues aus der Wissenschaft? Wir fassen alle relevanten Informationen zusammen und berichten √ľber die kommenden Trends. Unser Monthly Summary ist eine Zusammenfassung f√ľr Entscheider, Management oder Entwickler aus den Bereichen K√ľnstliche Intelligenz und Informationstechnologien. Diesen Monat haben wir aus 293 Artikeln das Relevanteste¬†zusammengefasst.

Im Spotlight: Service, Service, Servie

In diesem Monat drehte sich alles um die Automatisierung von Service-Dienstleistungen. Eigentlich ein vern√ľnftiger Schritt, denn die meisten Service-Anfragen sind schnell beantwortet und fast immer identisch. Menschen sollten sich auf die schwerl√∂sbaren Probleme konzentrieren. Diese Firmen haben im Dezember vorgelegt:

  • Starbucks will schnelleren Service anbieten und auf Bots setzen. Hier gehts zum Artikel.
  • IBM hat sich auch fest vorgenommen, Service zu automatisieren, schreibt die adWeek.
  • Auch Meedia sieht Chat-Bots als den digitalen Trend im kommenden Jahr. Hier gehts zum Artikel.

 

Neues aus der Wirtschaft

Bier brauen war bisher immer in der Hand von Menschen. Nun hat sich eine k√ľnstliche Intelligenz auf den Weg gemacht, das beste Bier der Welt zu brauen. In London sitzt ein Startup, dass es sich zur Aufgabe gemacht hat, iterativ Bier zu brauen. Sie sammeln das Feedback der Kunden. Auf Basis dieser Informationen braut das Unternehmen dann Bier. Hier gehts zum Artikel √ľber IntelligentX.

ApplyMagicSauce – was verr√§t¬†Facebook dem Politiker?¬†Der Dezember war auch der Monat, in dem die Nachwehen der U.S.-Pr√§sidentschaftswahlen zu sp√ľren waren – n√§mlich in Form von Marketing. Alexander Nix von Cambridge Analytica berichtete dar√ľber, wie seine Firma Donald Trump dazu verholfen haben soll, Pr√§sident zu werden. Auch viele Firmenkunden soll Cambridge Analytica bereits¬†haben. Auf der Seite ApplyMagicSauce kann man sich selbst screenen. Viel Spa√ü dabei!

Audi präsentiert Einpark-Algorithmen auf der NIPS. Auf einer der größten Fachkonferenzen hat Audi in einem Showcase verschiedene Strategien zum automatisierten Einparken vorgestellt. Dabei wurde ein Audi Q2 Modell im Maßstab 1:8 benutzt. Das System nennt sich zFAS (zentrales Fahrerassistenzsteuergerät) und wurde zusammen mit NVIDIA entwickelt. Audi arbeitet schon seit einigen Jahren zusammen mit NVIDIA an dieser und anderen Technologien. Hier gehts zum Artikel.

Wie Price Waterhouse Cooper die Versicherungsbranche verunsichert. PWC hat Anfang des Jahres eine Studie plus Report zum Thema Machine Learning in der Versicherungsbranche ver√∂ffentlicht. Nun springen Geico (gro√üer Versicherungskonzern in den USA) und weitere Mitbewerber auf diesen Zug auf und k√ľndigen an, dass das Ausf√ľllen von Formularen zuk√ľnftig KI-assistiert verlaufen soll. Hier gehts zum Report von PWC vom M√§rz.

Kurz notiert.¬†Amazon mit einer weiteren Promo f√ľr die Zustellung per Drohne. Eine KI f√ľr Personaler. Apple f√§ngt endlich auch mal an Forschungen √∂ffentlich zu machen: superrealistische Fotos. Adobe launcht Adobe Sensei.

 

Neues aus der Wissenschaft

Eine KI die eine Kolonie von Fliegen bewacht. In Minnesota hat ein Forscherteam ein Projekt namens flyAI auf die Beine gestellt. Dabei wurde eine KI installiert, die eine Kolonie von Fliegen bewacht. Sie regelt alles, was die Fliegen zum leben brauchen. Hier gehts zum Artikel √ľber flyAI.

Beg√ľnstigt AI das Erstellen von Fakes? Ja, absolut. L√§sst man sich die Frage durch den Kopf gehen, denkt man direkt¬†an Fake-Identit√§ten, die sich textlich mit einem Menschen auseinander setzen. Hier gehen wir aber einen Schritt weiter: Bilder! Und nicht von nur von menschlichen Identit√§ten. Prinzipiell kann eine Intelligenz die gen√ľgend Bilder gesehen hat, um abstrakte Konzepte zu lernen, alles faken. Geht nicht? Hier geht es zum Artikel √ľber Fake-Images mithilfe von Deep Learning. Oder: Artikel √ľberspringen und direkt zum Paper.

 

Notable Papers

Florian Tram√©r et al. (Polytech Lausanne, Cornell University und University of North Carolina) haben untersucht, wie man Modelle von Anbietern √ľber API-Calls nachbauen kann. Hierbei geht es darum, die Datenpunkte die man dem Dienstleister schickt, als eigene Trainingsdaten zu verstehen, die man nachfolgend nutzen kann, um eigene Modelle zu trainieren. Hier gehts zu¬†Stealing Machine Learning Models via Prediction APIs.

VńĪt Perzina und Jan M. Swart (Univerzita Karlova und Institute of Information Theory and Automation of the ASCR Praha) wenden das¬†Stigler-Luckock Modell auf den B√ľcherverkauf sowie¬†-lagerung an und gehen der Frage nach: How many market makers does a market need?

Huan Song et al. (Arizona State University, Lawrence Livermore National Labs und IBM T.J. Watson Research Center) experimentieren mit verschiedenen Kernel-Funktionen und gehen der Frage nach, wie man mehrere Kernels von verschiedenen oder gleichartigen Klassifikatoren miteinander verheiraten kann. Dabei legen sie das Augenmerk auf statistische Kernel- und Aggregationsfunktionen Рauch mit Deep Learning ähnlichen Methoden. Hier gehts zu A Deep Learning Approach to Multiple Kernel Fusion.

Ankesh Anand, Tanmoy Chakraborty und Noseong Park (Indian Institute of Technology, University of Maryland, University of North Carolina) sind dem Thema Clickbaits nachgegangen. Sie haben ein Neuronales Netzwerk trainiert, um Clickbaits zu identifizieren. Laut ihrer Experimente arbeitet das Modell richtig gut. √úberzeugt euch selbst, hier gehts zu You won’t believe what happened next!

√úber den Tellerrand

Technik ist immer ideell. Erst unsere Anwendung der Technik er√∂ffnet den Raum f√ľr Wertung. Deshalb ist es wichtig, dass man sich mit der Philosophie und Ethik hinter den Maschinen besch√§ftigt. Hier haben wir 2 Artikel gesammelt, die helfen sollen, √ľber den Tellerrand zu schauen.

Sangbae Kim baut Roboter, die in Krisen eingesetzt werden können. Warum er es macht und vor allem wie, darum geht es hier.

Kognitionsforscher Joscha Bach dar√ľber wie sich Menschen und Roboter entwickeln. Er sagt: Unser Geist liegt in Fesseln.

Das war der Dezember! Danke f√ľrs Lesen. Wir sind offen f√ľr Verbesserungen und Vorschl√§ge. Kontaktiert uns auf Twitter.

Amazon Go – Der disruptive Supermarkt der Zukunft

Viele Vision√§re hatten sowas erst in 4 bis 5 Jahren auf dem Zettel. Nun kann der automatisierte Supermarkt schon viel schneller Realit√§t und konkurrenzf√§hig werden, als von vielen gewollt. Amazon stellte heut Amazon Go vor. Es ist der erste Supermarkt, der komplett ohne Personal im Front Office auskommt. Aber wie funktionierts? Laut Amazon werden dabei lang erprobte Deep Learning Modelle f√ľr die Verhaltensanalyse verwendet.

Nach dem Einchecken per Smartphone, kann sich der Kunde jedes Produkt aus dem Regal nehmen, was ihm gefällt. Schlaue Computer Vision Algorithmen verstehen die Aktionen der User und buchen die Artikel problemlos auf das Amazon-Konto des Users.

In Seattle soll der erste Markt im Fr√ľhling 2017 an den Start gehen. Wir sind gespannt und beobachten den Fortschritt von Amazon Go!

Deep Learning – So gelingt der Einstieg!

Deep Learning ist in vielen Bereichen der KI-Forschung und der praktischen wirtschaftlichen Anwendungen von maschinellem Lernen ¬†zum State-of-the-Art geworden – vor allem bei Aufgaben mit¬†Bildern und Texten. Es klingt wie ein komplett neues und aufregendes Verfahren, entpuppt sich aber als¬†ein Zusammensetzen von bereits vorhandenen Komponenten des Machine Learning. Je nachdem wie tief man in die Materie einsteigen will, muss man sich vorher mit Formen der Merkmalsextraktion sowie mit k√ľnstlichen neuronalen Netzen besch√§ftigen. Deep Learning bedeutet n√§mlich im Grunde folgendes:

  • Ein mehrschichtiges k√ľnstliches neuronales Netz (multi layer)
  • Jede Schicht (Layer) hat eine bestimmte Funktion & f√ľhrt verschiedene Operationen aus
  • Man entwirft verschiedene Architekturen dieser Netze – verschiedene Verschaltungen von Layern





Diese Layer haben verschiedene Funktionen. Die meistbenutzten Konzepte werden nachfolgend dargestellt:

  • INPUT [32x32x3] Funktioniert im Grunde √§hnlich¬†wie eine Retina. Die Matrix in diesem Layer besteht aus den RGB-Bildpunkten (3) und entspricht der Gr√∂√üe des Bildes in diesem Beispiel: 32×32 Pixel.

    Quelle: Wikipedia

    Quelle: Wikipedia

  • CONV (Convolutional Layer) Dieser Layer berechnet Features f√ľr lokale Regionen im Input. Die meistgenutzte Funktion hier ist ein Skalarprodukt der Werte in den verschiedenen Regionen berechnet. Setzt man 12 verschiedene Filter ein, erh√§lt man 12 Ergebnismatrizen. Dieser Dieser Layer produziert also eine Matrix mit den Dimensionen: [32x32x12].
  • RELU (Rectified Linear Unit) In diesem Layer werden relativ simple Funktionen angewendet, √§hnlich wie max(x, 0). Werte werden hier nicht ver√§ndert, daf√ľr aber eventuell auf einen Threshold-Wert gesetzt. Wir erhalten also wieder eine Matrix mit den Dimensionen¬†[32x32x12].
  • POOL (Pooling) wird genutzt, um ein Downsampling auszuf√ľhren. F√ľr POOL gibt es verschiedene Operationen, eine davon ist¬†Max-Pooling- Dabei wird aus einer n x n Matrix der gr√∂√üte Wert gew√§hlt. Beispielsweise mit dem Output [16x16x12]. Das entspricht einem Faktor von 0.5.
  • FC (fully connected) In diesem Layer sind alle Neuronen einer Schicht miteinander verbunden. Hier passiert auch¬†der meiste Lernaufwand. F√ľr den Fall, dass ein Netz zwischen 10 Klassen entscheiden muss, w√§ren die Dimensionen hier [1x1x10].

Eine Beispiel-Architektur w√§re eine serielle Verschaltung folgender Layer:¬†¬†[INPUT – CONV – RELU – POOL – FC]. Hier werden zuerst verschiedene gefaltete Features aus dem Bild extrahiert. Danach wird ein bestimmtes Muster aus den extrahierten Features herausgeschnitten (entschieden nach Thresholds). Mit diesen Features wird nur ein Downsampling durchgef√ľhrt. Nach dem Downsampling der gefilterten und gefalteten Features wird nun der Layer angesprochen, der aus den Repr√§sentationen die verschiedenen Klassen entscheidet. Im Vergleich zu einem Ein-Layer-Netzwerk (auch shallow genannt) wird hier viel mehr Aufwand betrieben, um Features zu extrahieren.

Mehr √ľber die¬†Vergangenheit von Deep Learning und der Sch√∂nheit von lernenden Maschinen, erf√§hrt man in Ben Vigoras Talk mit dem Titel “When Machines Have Ideas”. Er redet dar√ľber, was lernen wirklich bedeutet und was das Interessante¬†an lernenden Maschinen ist.

Hugo Larochelle redet in “The Deep End of Deep Learning” √ľber den langen Weg, den Deep Learning gehen musste, bis es zum Buzzword wurde. Sehr interessant ist dabei auch, dass es diverse Ans√§tze zum Thema Deep Learning schon viel eher gab.

Um die 2 vorherigen Videos abzurunden, sollte man sich diesen Talk von Andrej Karpathy ansehen. Er ist Teil des Labs der Stanford University und war maßgeblich an der Weiterentwicklung des initialen Begriffs Deep Learning beteiligt.

Nach diesen Ausf√ľhrungen zum Thema Deep Learning hat¬†man eine Intuition f√ľr das aktuell am meisten gehypte Thema der KI-Forschung bekommen. Falls ihr euch fragt, wie es nun weiter geht oder gar Lust habt, ein Projekt mit Deep Learning Frameworks umzusetzen, dann werdet ihr hier f√ľndig:




DeepMind lernt jetzt StarCraft II

Nachdem Google DeepMinds AlphaGo mit Lee Sedol den weltweit besten Go-Spieler geschlagen hat, versucht das Team¬†hinter der Google-Akquisition nun, die n√§chste Nuss zu knacken. Mit StarCraft II haben sie sich dabei eine besonders schwere¬†Nuss¬†herausgesucht. StarCraft ist nicht rundenbasiert, sondern ein sogenanntes Echtzeitspiel. Die Entscheidungen die DeepMind trifft, m√ľssen also schnell und akkurat sein. Dennoch kann man das Gelernte aus AlphaGo wenigstens teilweise anwenden, denn beide Spiele (Go und StarCraft) haben eine Gemeinsamkeit. Betrachten wir das Spielverhalten von Schach, Go und StarCraft, wird dies deutlicher:

  • ¬†Schach
    • Strukturen sind zum Start gegeben
    • Ziel ist es, die gegnerischen Strukturen zu zerst√∂ren
  • Go
    • Strukturen sind nicht zum Start gegeben
    • Ziel ist es, eine Strukturen so aufzubauen, dass man den Gegner beherrscht
  • StarCraft
    • Strukturen sind nicht zum Start gegeben
    • Ziel ist es, gegnerische Strukturen zu zerst√∂ren und eigene Strukturen stabil zu halten

Vereinfacht gesagt: StarCraft ein Mix aus den beiden anderen vorgestellten Spielphilosophien. Ein möglicher Ansatz des DeepMind-Teams wird im Video deutlich. Der Eindruck vom Spielfeld wird in Feature Layern (Merkmalsebenen) abgebildet. Anhand dieser Darstellung kann DeepMind dann, die Strategien der Gegner abschätzen und daraus eigene Strategien entwickeln.