Die Sentimentanalyse löst weiterhin umfassende Diskussionen im Bereich Social Media Monitoring aus, daher möchten wir einen kurzen Überblick zu diesem Thema geben und erläutern, wie wir bei Brandwatch damit umgehen. Unser interner Experte, Dr. Taras Zagibalov, führt alle unsere Sprachforschungen durch und arbeitet gemeinsam mit dem Technikteam an der kontinuierlichen Verbesserung unserer automatischen Sentimentklassifizierung. Ich gebe ab an Taras:



Bei der automatischen Sentimentanalyse kommen zwei Haupttechniken zum Einsatz: Die in kommerziellen Anwendungen am häufigsten genutzte Technik basiert auf linguistischen Quellen, die andere auf dem Konzept des maschinellen Lernens.


Linguistische Quellen


Diese Technik basiert in ihrer einfachsten Form auf einer vorher festgelegten Liste positiver und negativer Wörter. Die jeweilige Äußerung oder der jeweilige Satz werden dahingehend überprüft, wie häufig diese Wörter darin auftauchen:

Ein einfaches Beispiel:

Sky+ ist gut und nützlich, aber ein wenig zu teuer.

Dieser Satz würde als positiv gewertet werden, weil er zwei Wörter aus der positiven Liste („gut“ und „nützlich“) und nur eines aus der negativen Liste („teuer“) enthält. In einem etwas komplexeren Ansatz könnte man verschiedene Punkte/Gewichtungen für verschiedene Wörter zugrunde legen und Verneinungen (z.B. „nicht gut“) berücksichtigen.

In einem weiteren Schritt werden größere linguistische Einheiten (Neben- und Hauptsätze) betrachtet: Analysesysteme können sich auf Muster berufen, um die jeweilige Stimmung zu erkennen. Ein Muster wäre beispielsweise: „NP posVerb X“ (Nominalphrase + positives Verb + Marke/Produktbezeichnung). Dieses Muster kann Sätze umfassen wie „Ich liebe das Samsung Galaxy Tab“ und „Mein Freund bevorzugt Sony.“ Doch dieser Ansatz kann eine Reihe linguistischer Techniken enthalten, die nicht immer robust und häufig sehr zeit- und arbeitsintensiv sind (Syntaxanalyse, Wortartzuordnung, Extrahieren von Einheiten usw.).

Das Hauptproblem der Sentimentanalyse, basierend auf linguistischen Quellen, besteht darin, dass wir nicht immer voraussagen können, auf welche Weise Stimmungen zum Ausdruck gebracht werden:

  • Es ist schwierig, die Stimmungsorientierung von themenbezogenen Wörtern zu definieren. Zum Beispiel „lang“: eine „lange Batterielebensdauer“ ist gut, aber „lange Wartezeiten“ sind unter Umständen sehr schlecht.
  • Das Wort „dennoch“ kann je nach Kontext ein nützlicher Indikator für eine positive Stimmung: „…dennoch liebe ich dieses Gerät“ oder für eine negative Stimmung sein: „…dennoch bin ich mit dem Dienst nicht zufrieden.“
  • Selbst das Wort „gut“ kann einen negativen Beigeschmack haben, zum Beispiel bei eBay-Bewertungen ist es üblich zu schreiben „perfekte Lieferung“ oder „herausragende Lieferung“, wenn man eine uneingeschränkt positive Bewertung abgeben will, wohingegen die Beschreibung „gute Lieferung“ als mittelmäßige Bewertung ausgelegt werden kann.

Im Rahmen dieses Ansatzes wird außerdem davon ausgegangen, dass eine „normale“ oder „standardmäßige“ (vorhersehbare) Sprache verwendet wird. Das ist aber nur selten der Fall und trifft auf soziale Medien insbesondere nicht zu; hier bedienen sich die Nutzer verschiedener Dialekte und Slang-Ausdrücke, um ihre Gefühle in Worte zu fassen („lol, so’n Mist“ oder „das ist sowas von krank“ usw.).


Maschinelles Lernen


Die andere Technik (die auf maschinellem Lernen basiert) verlässt sich auf die Fähigkeit eines Computers, die Sprache, die für das Ausdrücken von Stimmungen verwendet wird, automatisch zu lernen, unabhängig davon, wie „gut“ oder „normal“ diese Sprache ist.

Zauberei gibt es jedoch nicht, und außerdem ist auch nichts umsonst. Die Maschine braucht Daten, von denen sie lernen kann (auch Trainingskorpus genannt), und bei der Sentimentanalyse bestehen diese Daten aus einer Reihe von Beispielen, die Menschen vorgegeben haben. Je mehr Beispiele der Maschine zum Lernen vorliegen, desto besser – Tausende Beispiele sind besser als Hunderte.

Sobald die Maschine die Beispiele gelernt hat, kann sie das erworbene Wissen auf neue, bisher nicht gelesene Dokumente anwenden und diese in Stimmungskategorien einteilen. Doch auch diese Technologie ist nicht perfekt. Das Problem liegt hier in der Themenabhängigkeit: Wenn eine Maschine mit einem Korpus aus Filmkritiken trainiert wurde, wird sie in Bezug auf beispielsweise Automobilbewertungen eher ungenaue Ergebnisse abliefern. Das heißt, man muss die Maschine in allen Themenbereichen trainieren, in denen sie zum Einsatz kommen soll.


Brandwatch Sentimentanalyse


Das Sentimentanalysesystem von Brandwatch basiert auf der zweiten Technik: dem maschinellen Lernen.

Wenn man bei Brandwatch eine Suche startet, wird man gebeten, eine Branche für die Suchanfrage auszuwählen, bevor sie gespeichert wird. Hier geht es darum, die Hürde zu überwinden, vor der die Sentimentanalyse steht, die auf maschinellem Lernen basiert: Indem Sie die Branche auswählen, geben Sie unserer Stimmungsmaschine die Information, welcher Bereich oder welches Klassifizierungsmerkmal zu verwenden ist. Die Maschine „weiß“ dann, auf welchen Kontext Ihre Ergebnisse sich voraussichtlich beziehen, und wendet ihr Wissen aus dem jeweiligen Themenbereich an, um eine entsprechende Klassifizierung vorzunehmen.

In allen Sprachen, die wir abdecken, verfügen wir über mehr als 500 Klassifizierungs-Korpusse. Wir arbeiten derzeit an einer Entwicklung, durch die das System in der Lage sein wird, sich Ihre Abfrage anzusehen und automatisch festzulegen, welches Klassifizierungsmerkmal/welche Branche basierend auf den Begriffen, die Sie verwendet haben, am besten zu Ihrer Abfrage passt. Die Automatisierung dieses Vorgangs sorgt für eine möglichst genaue Kategorisierung von Stimmungen.


Mehr Informationen: Tipps & Tricks für die Sentimentanalyse