Tag: Sentiment Analysis

Paper Review – Language Modeling, Deep vs. Diverse Architecture und Sentiment Analysis

Wir sind im Sommermodus. Aktuell basteln wir an einem Plan, wie wir euch ab Herbst weiter mit spannenden Artikeln aus der Machine Learning Szene begeistern können.

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

In Neural Networks Compression for Language Modeling werden RNNs komprimiert. Hier handelt es sich um RNNs, die verschiedene Text-Klassifizierungen durchführen. Das ist besonders wichtig für Mobile Devices, die dadurch mehrschichtige Netze effizienter abspeichern können. Bereits im Juli haben wir euch im Paper Reivew das Paper Towards Evolutional Compression vorgestellt – dort werden ähnliche Algorithmen verwendet. Hier gehts zum Paper.

Der Autor von Deep vs. Diverse Architectures for Classification Problems vergleicht verschiedene Netz-Architekturen für verschiedene Aufgaben. Es stellt sich heraus, dass sich für einige Aufgaben Deep-Learning-Architekturen besonders eignen. Allerdings lassen sich auch Aufgaben finden, die mit kleineren (unkomplexeren) Architekturen lösen lassen. Deep-Learning ist also nicht die sofort die Allzweckwaffe. Wofür ihr welche Algorithmen benutzen solltet, lest hier hier. Hier gehts zum Paper.

In Sentiment Analysis by Joint Learning of Word Embeddings and Classifier von Prathusha Kameswara Sarma und Bill Sethares wird Supervised Word Embeddings for Sentiment Analysis vorgestellt. Mit dieser Struktur erreichen sie auf verschiedenen Datenbanken in ihren Experiments den State-of-the-Art bezüglich AUC. In einigen Fällen sind sie damit sogar genauer als die aktuell bekannten Ergebnisse. SWESA ist dabei ein sehr flexibles Konstrukt. Hier gehts zum Paper.

 

Am Rand erwähnt

Paper Review – Sentence Generation und Sentiments mit Emojis

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

In SenGen: Sentence Generating Neural Variational Topic Model zeigen die Autoren, dass ein Satz die kleinste Einheit beim Topic Modeling ist. Im Gegensatz zu vielen anderen Modellen, die Bag of Words (also Wörter) benutzen, um ein Topic-Modell aufzubauen, verwenden wie einen Satz. in den Experimenten vergleichen sie ihren Ansatz gegen die aktuellen State-of-the-Art Ansätze: LDA, NVDM, NVLDA und ProdLDA. Hier gehts zum Paper.

Die Autoren von Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm haben versucht Texte auf Emojis zu mappen. Sie nutzen dabei große Datasets und vergleichen sich mit anderen auch sehr aktuellen Forschungsergebnissen. Hier gehts zum Paper.

 

Am Rand erwähnt

 

 

Text to Emoji mit DeepMoji vom MIT Media Lab

DeepMoji wurde vor ein paar Tagen vom MIT Media Lab gelauncht. Die KI erkennt, wenn ein einem Text Emotionen vorkommen – sogar Sarkasmus. Der geschriebene Text wird auf Emojis gemappt, die am besten zum Text passen. Gelernt wurde DeepMoji auf mehreren großen Corpora.

Hier gehts zum Paper von DeepMoji




Wird Sentiment Analysis Produkt-Reviews vereinfachen?

3 Minuten Lesezeit | Stimmungen und Meinungen sind wichtig. Viele Firmen sammeln diese Informationen ihrer Kunden und werten sie aus. Produkt-Reviews sind seit jeher ein wichtiger Forschungsgegenstand der Sentiment Analysis. Bisher hat es aber noch kein System geschafft, Produkt-Reviews so aufzuarbeiten, dass das Lesen Spaß macht.

Sentiment Analysis beschreibt die Extraktion von Stimmungen aus beispielsweise Texten. Die ersten Ansätze beschränkten sich auf einen Dictionary-Ansatz, bei dem hinter jedem Wort ein bestimmter Sentiment-Wert lag, deren Summe am Ende berechnet wurde (positiv oder negativ). Um mehr textuellen Kontext aus den Worten und Phrasen zu bekommen, wurden N-Gram-Modelle genutzt. Damit konnte man beispielsweise Verneinungen und Phrase detektieren. Der aktuelle State-of-the-Art arbeitet mit Deep Learning Netzen (Beispiel: A Deep Neural Architecture for Sentence-level Sentiment Classification in Twitter Social Networking).

pro-vs-con

Beste Pro vs. Contra Bewertung des Buches “Homo Deus“. Quelle: amazon.com

Dadurch wird die Sentiment Analysis immer robuster. Es ergeben sich viele Anwendungsfelder, die vorher nicht möglich waren. Ein spannendes Feld sind Produkt-Reviews. Jeder kennt es, jeder hasst es. Produkt-Reviews sind meist nach Sternen sortiert. Trotzdem können die Texte der Reviews einen positiven sowie negativen Teil enthalten. Will man verstehen, warum eine Sternebewertung zustande kommt, muss man den kompletten Text lesen.

Die Lösung: Eingefärbte Textstellen (positiv / negativ) würden das Lesen und Reviews vereinfachen und schnellere Kaufentscheidungen forcieren. Es hätte also einen positiven Effekt für den Käufer sowie den Händler.

block-review

Ein spannendes Review (Homo Deus) das von vielen Usern sicher ungelesen bleibt. Quelle: amazon.com

Für wen lohnt es sich?

Von farblich aufgearbeitete Reviews könnten alle Akteure profitieren:

  • Plattformbetreiber – Reviewer können weiterhin ausführliche Reviews schreiben, denn diese werden für sie aufgearbeitet. Es wird also mehr Aktivität erzeugt.
  • Reviewer – Können sich auf den Inhalt konzentrieren, das die Formatierung für sie erledigt wird. Da mehr Leute ihre ausführlichen Reviews lesen, werden sie dadurch beflügelt, mehr Content zu liefern.
  • Händler – Kriegt die Reviews für sein Produkt besser aufgearbeitet und kann gegensteuern bzw. besser an den die Kontrapunkten seines Produktes arbeiten.





Blut geleckt?

Du hast Blut geleckt und willst dich mit Sentiment Analysis beschäftigen. Hier zeigen wir dir, was du tun must:

  1. Lies diesen Artikel 😉 der Klassiker (hier)
  2. Schau dir die Demo an und beschäftige dich mit den Dokumenten (hier)
  3. Videos, Videos, Videos! Dan Jurafsky und Chris Manning auf Youtube (hier)
  4. Was ist State of the Art? Wir sagen es euch im Science Radar

Semantic Analysis mit Rhetoric Structure Theory

In unserer Rubrik Paper Review stellen wir euch aktuelle Paper aus dem Bereich Machine Learning vor. Wir fassen für euch das Wesentliche zusammen und ihr entscheidet selbst, ob ihr das Paper lesen wollt oder nicht. Viel Spaß!

Takeaways – Was ist neu

Bisherige Ansätze für Sentiment-Analyse nutzten entweder klassische Maschine-Learning-Verfahren oder aber Deep Learning mit regulären LSTM (Long Short Term Memory) Komponenten. Dieser Ansatz tauscht herkömmliche LSTMs mit, auf Rhetoric Structure Theory basierenden, RST-LSTM. Dadurch kann ein Uplift in der Genauigkeit erzielt werden. Hier gehts zum Paper.

Takeaways

  • Durch die Rhetoric Structure Theory ist es möglich, das Netz noch besser zu machen.
  • RST-LSTM werden anstatt linear in eine Baumstruktur geschalten. Dadurch können sie auch komplexere Texte verarbeiten.

Worum geht es

Der Aufbau der Experimentation-Pipeline. Auch die Optimierungsschritte "Leaf insertion" und "Node reordering" sind zu sehen. Quelle: Figure 3 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Der Aufbau der Experimentation-Pipeline. Auch die Optimierungsschritte “Leaf insertion” und “Node reordering” sind zu sehen. Quelle: Figure 3 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Im Gegensatz  zu vielen herkömmlichen Ansätzen wie N-Grams oder Bag-of-Words im Bereich der Sentiment Analysis (Stimmungsanalyse, Emotionsanalyse) benutzen die Autoren sogenannte “Discourse Trees”. Das bedeutet, es werden Phrasen nach semantischen Gesichtspunkten in einen Entscheidungsbaum gehangen und dann mit emotionalen Werten und Polarität versehen. Die Struktur nennen die Autoren RST-LSTM (Rhetoric Structure Theory – Long Short Term Memory). Dabei wird die natürliche Sprache in sogenannte EDUs (Elementary Discourse Units) hierarchisch eingeteilt.  Solche Strukturen haben sich bereits beim Zusammenfassen von Zeitungsartikeln bewährt.

rst-lstm-003

Links sieht man eine herkömmliche LSTM-Struktur. Rechts sieht man die hierachische Struktur wie sie in diesem Ansatz genutzt wird. Quelle: Figure 7 of Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees

Es wird ein neuronales Netz benutzt, das diese Abwandlung dieser LSTM-Struktur beherbergt und das somit mehr Kapazität für komplexe Discourse hat als herkömmliche Netze.

 

Experimente & Daten

Es wurden zur Evaluation zwei Datensets herangezogen:

Der vorgestellte Ansatz wurde mit den aktuellen State-of-the-Art-Methoden verglichen. Durch verschiedene Veränderungen an Parametern sowie der Struktur der Discourse Trees konnte ein besseres Ergebnis erzielt werden. Auf dem IMDb Datenset erreicht der Ansatz lt. F1-Score: 84.9 % sowie auf dem Rotten Tomato Set: 79,6 % F1-Score. Das bedeutet ein Uplift zur Baseline von 4.33 % und 3.16 %.

Fortführend

Aktuell werden die Trees noch manuell angepasst. Zukünftig könnte man die Autoencoder der EDUs viel spezifischer nach verschiedenen Trainingsepochen anpassen und somit eine bessere Codierung erreichen.

Lust zu lesen? Hier gehts zum Paper.

Ähnliche Arbeiten

  • K. Xu, S. S. Liao, J. Li, Y. Song, Mining comparative opinions from 32 customer reviews for competitive intelligence, Decision Support Systems 50 (2011) 743–754.
  • A. Bhattacherjee, An empirical analysis of the antecedents of electronic commerce service continuance, Decision Support Systems 32 (2001) 201– 214.
  • B. Pang, L. Lee, Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales, in: Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL ’05), 2005, pp. 115–124.
  • X. Yu, Y. Liu, X. Huang, A. An, Mining online reviews for predicting sales performance: A case study in the movie domain, IEEE Transactions on Knowledge and Data Engineering 24 (2012) 720–734.
  • S. Tirunillai, G. J. Tellis, Does chatter really matter? Dynamics of usergenerated content and stock performance, Marketing Science 31 (2012) 198–215.
  • S. Feuerriegel, H. Prendinger, News-based trading strategies, Decision Support Systems 90 (2016) 65–74.
  • N. Pröllochs, S. Feuerriegel, D. Neumann, Negation scope detection in sentiment analysis: Decision support for news-driven trading, Decision Support Systems 88 (2016) 67–75.
  • H. Rui, Y. Liu, A. Whinston, Whose and what chatter matters? The effect of tweets on movie sales, Decision Support Systems 55 (2013) 863–870.