Tag: Sentiment Analysis

AI, Machine Learning and Sentiment Analysis Applied to Finance

K√ľnstliche Intelligenz gilt als Hauptantrieb der 4. Industriellen Revolution. Die Investitionen in KI sind mit einer ph√§nomenalen Rate gewachsen, wobei Unternehmen 2016 26-39 Mrd. USD investieren. Die Annahme im Jahr 2017 bleibt jedoch gering. Dies hat dazu gef√ľhrt, dass Unternehmen aus allen Branchen den Trend und die Innovationen nutzen konnten – von virtuellen Assistenten √ľber Cyber-Sicherheit bis hin zur Betrugserkennung und vielem mehr. Die Mehrheit der C-Level-F√ľhrungskr√§fte hat erkannt und ist damit einverstanden, dass AI sich auf ihre Branche auswirken wird. Laut einer von McKinsey durchgef√ľhrten Studie geben jedoch nur 20% der C-F√ľhrungskr√§fte zu, dass sie bereits KI-Technologie in ihren Unternehmen eingef√ľhrt haben. Es gibt also viel Spielraum f√ľr Ver√§nderungen und Verbesserungen. Es wird erwartet, dass die Finanzindustrie bei der Einf√ľhrung von KI mit einem signifikanten prognostizierten Anstieg der Ausgaben in den n√§chsten drei Jahren eine Vorreiterrolle einnehmen wird.

Paper Review – Language Modeling, Deep vs. Diverse Architecture und Sentiment Analysis

Wir sind im Sommermodus. Aktuell basteln wir an einem Plan, wie wir euch ab Herbst weiter mit spannenden Artikeln aus der Machine Learning Szene begeistern können.

In unserer Rubrik¬†Paper Review¬†stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen f√ľr euch das¬†Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht.¬†Viel Spa√ü!

In¬†Neural Networks Compression for Language Modeling werden RNNs komprimiert. Hier handelt es sich um RNNs, die verschiedene Text-Klassifizierungen durchf√ľhren. Das ist besonders wichtig f√ľr Mobile Devices, die dadurch mehrschichtige Netze effizienter abspeichern k√∂nnen. Bereits im Juli haben wir euch im Paper Reivew das Paper Towards Evolutional Compression vorgestellt – dort werden √§hnliche Algorithmen verwendet.¬†Hier gehts zum Paper.

Der¬†Autor von Deep vs. Diverse Architectures for Classification Problems vergleicht verschiedene Netz-Architekturen f√ľr verschiedene Aufgaben. Es stellt sich heraus, dass sich f√ľr einige Aufgaben Deep-Learning-Architekturen besonders eignen. Allerdings lassen sich auch Aufgaben finden, die mit kleineren (unkomplexeren) Architekturen l√∂sen lassen. Deep-Learning ist also nicht die sofort die Allzweckwaffe. Wof√ľr ihr welche Algorithmen benutzen solltet, lest hier hier.¬†Hier gehts zum Paper.

In Sentiment Analysis by Joint Learning of Word Embeddings and Classifier¬†von¬†Prathusha Kameswara Sarma und Bill Sethares wird¬†Supervised Word Embeddings for Sentiment Analysis¬†vorgestellt. Mit dieser Struktur erreichen sie auf verschiedenen Datenbanken in ihren Experiments den State-of-the-Art bez√ľglich AUC. In einigen F√§llen sind sie damit sogar genauer als die aktuell bekannten Ergebnisse. SWESA ist dabei ein sehr flexibles Konstrukt. Hier gehts zum Paper.

 

Am Rand erwähnt

Paper Review – Sentence Generation und Sentiments mit Emojis

In unserer Rubrik¬†Paper Review¬†stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen f√ľr euch das¬†Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht.¬†Viel Spa√ü!

In SenGen: Sentence Generating Neural Variational Topic Model zeigen die Autoren, dass ein Satz die kleinste Einheit beim Topic Modeling ist. Im Gegensatz zu vielen anderen Modellen, die Bag of Words (also Wörter) benutzen, um ein Topic-Modell aufzubauen, verwenden wie einen Satz. in den Experimenten vergleichen sie ihren Ansatz gegen die aktuellen State-of-the-Art Ansätze: LDA, NVDM, NVLDA und ProdLDA. Hier gehts zum Paper.

Die Autoren von Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm haben versucht Texte auf Emojis zu mappen. Sie nutzen dabei große Datasets und vergleichen sich mit anderen auch sehr aktuellen Forschungsergebnissen. Hier gehts zum Paper.

 

Am Rand erwähnt

 

 

Text to Emoji mit DeepMoji vom MIT Media Lab

DeepMoji wurde vor ein paar Tagen vom MIT Media Lab gelauncht. Die KI erkennt, wenn ein einem Text Emotionen vorkommen Рsogar Sarkasmus. Der geschriebene Text wird auf Emojis gemappt, die am besten zum Text passen. Gelernt wurde DeepMoji auf mehreren großen Corpora.

Hier gehts zum Paper von DeepMoji




Wird Sentiment Analysis Produkt-Reviews vereinfachen?

3 Minuten Lesezeit | Stimmungen und Meinungen sind wichtig. Viele Firmen sammeln diese Informationen ihrer Kunden und werten sie aus. Produkt-Reviews sind seit jeher ein wichtiger Forschungsgegenstand der Sentiment Analysis. Bisher hat es aber noch kein System geschafft, Produkt-Reviews so aufzuarbeiten, dass das Lesen Spaß macht.

Sentiment Analysis beschreibt die Extraktion von Stimmungen aus beispielsweise Texten. Die ersten Ansätze beschränkten sich auf einen Dictionary-Ansatz, bei dem hinter jedem Wort ein bestimmter Sentiment-Wert lag, deren Summe am Ende berechnet wurde (positiv oder negativ). Um mehr textuellen Kontext aus den Worten und Phrasen zu bekommen, wurden N-Gram-Modelle genutzt. Damit konnte man beispielsweise Verneinungen und Phrase detektieren. Der aktuelle State-of-the-Art arbeitet mit Deep Learning Netzen (Beispiel: A Deep Neural Architecture for Sentence-level Sentiment Classification in Twitter Social Networking).

pro-vs-con

Beste Pro vs. Contra Bewertung des Buches “Homo Deus“. Quelle:¬†amazon.com

Dadurch wird die Sentiment Analysis immer robuster. Es ergeben sich viele Anwendungsfelder, die vorher nicht möglich waren. Ein spannendes Feld sind Produkt-Reviews. Jeder kennt es, jeder hasst es. Produkt-Reviews sind meist nach Sternen sortiert. Trotzdem können die Texte der Reviews einen positiven sowie negativen Teil enthalten. Will man verstehen, warum eine Sternebewertung zustande kommt, muss man den kompletten Text lesen.

Die L√∂sung: Eingef√§rbte Textstellen (positiv / negativ) w√ľrden¬†das Lesen und Reviews vereinfachen und schnellere Kaufentscheidungen forcieren.¬†Es h√§tte also einen positiven Effekt f√ľr den K√§ufer sowie den H√§ndler.

block-review

Ein spannendes Review (Homo Deus) das von vielen Usern sicher ungelesen bleibt. Quelle: amazon.com

F√ľr wen lohnt es sich?

Von farblich aufgearbeitete Reviews könnten alle Akteure profitieren:

  • Plattformbetreiber – Reviewer k√∂nnen weiterhin ausf√ľhrliche Reviews schreiben, denn diese werden f√ľr sie aufgearbeitet. Es wird also mehr Aktivit√§t erzeugt.
  • Reviewer – K√∂nnen sich auf den Inhalt konzentrieren, das die Formatierung f√ľr sie erledigt wird. Da mehr Leute ihre ausf√ľhrlichen Reviews lesen, werden sie dadurch befl√ľgelt, mehr Content zu liefern.
  • H√§ndler – Kriegt die Reviews f√ľr sein Produkt besser aufgearbeitet und kann gegensteuern bzw. besser an den¬†die Kontrapunkten seines Produktes arbeiten.





Blut geleckt?

Du hast Blut geleckt und willst dich mit Sentiment Analysis beschäftigen. Hier zeigen wir dir, was du tun must:

  1. Lies diesen Artikel ūüėČ der Klassiker (hier)
  2. Schau dir die Demo an und beschäftige dich mit den Dokumenten (hier)
  3. Videos, Videos, Videos! Dan Jurafsky und Chris Manning auf Youtube (hier)
  4. Was ist State of the Art? Wir sagen es euch im Science Radar

Semantic Analysis mit Rhetoric Structure Theory

In unserer Rubrik Paper Review¬†stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen f√ľr euch das¬†Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht.¬†Viel Spa√ü!

Takeaways ‚Äď Was ist neu

Bisherige Ans√§tze f√ľr Sentiment-Analyse nutzten entweder klassische Maschine-Learning-Verfahren oder aber Deep Learning mit regul√§ren LSTM (Long Short Term Memory) Komponenten. Dieser Ansatz tauscht herk√∂mmliche LSTMs mit, auf Rhetoric Structure Theory basierenden, RST-LSTM. Dadurch kann ein Uplift in der Genauigkeit erzielt werden. Hier gehts zum Paper.

Takeaways

  • Durch die Rhetoric Structure Theory ist es m√∂glich, das Netz noch besser zu machen.
  • RST-LSTM werden anstatt linear in eine Baumstruktur geschalten. Dadurch k√∂nnen sie auch komplexere Texte verarbeiten.

Worum geht es

Der Aufbau der Experimentation-Pipeline. Auch die Optimierungsschritte "Leaf insertion" und "Node reordering" sind zu sehen. Quelle: Figure 3 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Der Aufbau der Experimentation-Pipeline. Auch die Optimierungsschritte “Leaf insertion” und “Node reordering” sind zu sehen. Quelle: Figure 3 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Im Gegensatz ¬†zu vielen herk√∂mmlichen Ans√§tzen wie N-Grams oder Bag-of-Words im Bereich der Sentiment Analysis (Stimmungsanalyse, Emotionsanalyse) benutzen die Autoren sogenannte “Discourse Trees”. Das bedeutet, es werden Phrasen nach semantischen Gesichtspunkten in einen Entscheidungsbaum gehangen und dann mit emotionalen Werten und Polarit√§t versehen. Die Struktur nennen die Autoren RST-LSTM (Rhetoric Structure Theory – Long Short Term Memory). Dabei wird die nat√ľrliche Sprache in sogenannte EDUs (Elementary Discourse Units) hierarchisch eingeteilt. ¬†Solche Strukturen haben sich bereits beim Zusammenfassen von Zeitungsartikeln bew√§hrt.

rst-lstm-003

Links sieht man eine herkömmliche LSTM-Struktur. Rechts sieht man die hierachische Struktur wie sie in diesem Ansatz genutzt wird. Quelle: Figure 7 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Es wird ein neuronales Netz benutzt, das diese Abwandlung dieser¬†LSTM-Struktur beherbergt und das somit mehr Kapazit√§t f√ľr komplexe Discourse hat als herk√∂mmliche Netze.

 

Experimente & Daten

Es wurden zur Evaluation zwei Datensets herangezogen:

Der vorgestellte Ansatz wurde mit den aktuellen State-of-the-Art-Methoden verglichen. Durch verschiedene Veränderungen an Parametern sowie der Struktur der Discourse Trees konnte ein besseres Ergebnis erzielt werden. Auf dem IMDb Datenset erreicht der Ansatz lt. F1-Score: 84.9 % sowie auf dem Rotten Tomato Set: 79,6 % F1-Score. Das bedeutet ein Uplift zur Baseline von 4.33 % und 3.16 %.

Fortf√ľhrend

Aktuell werden die Trees noch manuell angepasst. Zuk√ľnftig k√∂nnte man die Autoencoder der EDUs viel spezifischer nach verschiedenen Trainingsepochen anpassen und somit eine bessere Codierung erreichen.

Lust zu lesen? Hier gehts zum Paper.

√Ąhnliche Arbeiten

  • K. Xu, S. S. Liao, J. Li, Y. Song, Mining comparative opinions from 32 customer reviews for competitive intelligence, Decision Support Systems 50 (2011) 743‚Äď754.
  • A. Bhattacherjee, An empirical analysis of the antecedents of electronic commerce service continuance, Decision Support Systems 32 (2001) 201‚Äď 214.
  • B. Pang, L. Lee, Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales, in: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL ‚Äô05), 2005, pp. 115‚Äď124.
  • X. Yu, Y. Liu, X. Huang, A. An, Mining online reviews for predicting sales performance: A case study in the movie domain, IEEE Transactions on Knowledge and Data Engineering 24 (2012) 720‚Äď734.
  • S. Tirunillai, G. J. Tellis, Does chatter really matter? Dynamics of usergenerated content and stock performance, Marketing Science 31 (2012) 198‚Äď215.
  • S. Feuerriegel, H. Prendinger, News-based trading strategies, Decision Support Systems 90 (2016) 65‚Äď74.
  • N. Pr√∂llochs, S. Feuerriegel, D. Neumann, Negation scope detection in sentiment analysis: Decision support for news-driven trading, Decision Support Systems 88 (2016) 67‚Äď75.
  • H. Rui, Y. Liu, A. Whinston, Whose and what chatter matters? The effect of tweets on movie sales, Decision Support Systems 55 (2013) 863‚Äď870.