Ja, ist es denn schon wieder so weit? Es kommt uns so vor, als hätten wir Ihnen gerade erst (beim letzten Brandwatch-Update) einen Sack voller neuer, wunderbarer Features präsentiert. Aber weil es so schön ist und es uns so viel Spaß macht, möchten wir Sie schon wieder mit einigen tollen Neuerungen überraschen.
Dieses Mal handelt es sich eher um Evolution als um Revolution – beginnen wir mit der langersehnten Aktivierung unserer Location-Operatoren im Vereinigten Königreich sowie einer ziemlich bedeutenden Änderung unserer Sentimentanalyse.
Detaillierte, fein abgestufte Location Data
Wir haben diese praktische Funktion vor ein paar Wochen eingeführt, zunächst einmal für die USA, Sie wissen schon, God Bless America und so … und auch für Österreich weil – nun ja, es hat sich so ergeben. Wundern Sie sich nicht weiter.
Und nun haben wir auch das gute alte Vereinigte Königreich zu dieser Funktion hinzugefügt. Das heißt, Sie können nun ganz gezielt Regionen in Großbritannien festlegen, in denen Sie Ihre Daten verfolgen möchten.
Es funktioniert genauso wie es bereits bei anderen Regionen funktioniert. Haben Sie die Orte, die Sie beobachten möchten, einmal bestimmt, können Sie diese Ihrer Query hinzufügen und so die Regionen gezielt isolieren.
Schauen wir mal, wie die Home Counties (Grafschaften um London) das Thronjubiläum der Königin fanden. Es war leider zu knifflig, „Home Counties“ als eigene Region in der Brandwatch-Operatorenliste aufzuführen – hier gibt es zu viele semantische Probleme bei der Definition von „Home County“ – aber unsere Nutzer können stattdessen manuell ihre eigenen Location Groups zusammenstellen.
Da wir mehr als 60.000 Location Codes für alle bisher erfassten großen und kleinen Städte, Bundesländer und Bezirke etc. haben, bietet Brandwatch Ihnen eine praktische Location-Code-Suchfunktion, die Sie auf dem Bildschirm zur Erstellung der Suchanfragen finden. Damit können wir ganz einfach Kent, East Sussex und die anderen Bezirke rund um den Süden Londons zur Query hinzufügen.
Wir haben tausende Orte aus dem ganzen Vereinigten Königreich hinzugefügt, sodass Sie diese isolieren und damit spielen können. Vielleicht ist es interessant zu wissen, dass wir Wikipedia benutzt haben, um Städte mit ungefähr 5.000 Einwohnern (oder mehr) zu finden. 5.000 Einwohner waren also unser ungefährer Maßstab für die Definition einer Stadt. Es tut uns leid, Speldhurst, aber Ihr seid einfach zu wenige, um dabei zu sein.
Neues System zur Sentimentanalyse
Hier handelt es sich genau genommen nicht um ein grundlegend neues Verfahren, aber wir verändern immerhin die Standardeinstellungen unserer Sentimentanalyse.
Wir haben auf unsere Kunden gehört und finden „neutrale Erwähnungen“ mittlerweile nicht mehr annähernd so bedeutend wie die, die als positiv oder negativ eingestuft werden. Aus diesem Grund haben wir uns entschieden, sie einfach wegzuwerfen. Gut, wir werfen sie nicht weg, sondern sortieren sie fein säuberlich ins Regal ein, sodass sie aus dem Blickfeld unserer lieben Nutzer und Gäste verschwunden sind, wenn diese die Brandwatch-Gefilde betreten.
Wenn Sie nun ein neues Dashboard in Brandwatch öffnen, strahlen die positiven Erwähnungen Sie an und die negativen beäugen Sie kritisch.
Wichtiger als diese rein ästhetischen Neuerungen ist allerdings die Standardumstellung auf unsere regelbasierten Sentimentklassifikatoren. Bereits erstellte, laufende Suchanfragen sind hiervon nicht betroffen, aber alle neuen Queries werden ab jetzt nach diesem System und nicht mehr nach dem üblichen Hybridklassifikatoren-System funktionieren.
Genau wie zuvor kann jeder Nutzer selbst bestimmen, welche Klassifikatoren in seinen Suchanfragen zur Anwendung kommen und diese jederzeit beliebig austauschen. Das bedeutet, dass Sie nun nicht mehr auswählen müssen, in welche Branche Ihre Suchanfrage fällt. Alles ist damit etwas übersichtlicher und einfacher geworden, finden Sie nicht auch?
Wir haben uns natürlich nicht nur wegen der Übersichtlichkeit für diese Lösung entschieden. Nach sorgfältigen Überlegungen und Forschungen zum Thema haben wir dies für den besten Weg gehalten.
Das regelbasierte System unterstützt bereits sieben Sprachen, an der Einführung weiterer fünf Sprachen arbeiten wir fleißig (Chinesisch, Russisch, Schwedisch, Italienisch und Niederländisch). Die Sprachen, für welche die regelbasierten Klassifikatoren noch nicht zur Verfügung stehen, werden weiterhin mit den klassischen Hybridklassifikatoren funktionieren, bis wir soweit sind und das neue System alle Sprachen unterstützt.
Die Statistiken
Es gibt viele verschiedene Methoden, um die Genauigkeit einer Sentimentanalyse zu messen. Einige davon können ziemlichen irreführend sein, wenn Sie nicht genau wissen, was für Werte Sie gerade vor sich haben.
Bedenken wir, dass bei den meisten Suchanfragen der Großteil der Erwähnungen (80 % und mehr) neutral ist und dass Klassifikatoren diese neutralen Erwähnungen zumeist richtig erfassen (was viel einfacher ist als die korrekte Einteilung in positive und negative Erwähnungen) dann gibt Ihnen die Angabe, dass ein System 80 % Sentiment-Genauigkeit bietet, nicht unbedingt Aufschluss darüber, wie sehr Ihnen diese Genauigkeit dann auch wirklich nützt.
Unsere Erfahrung zeigt, dass unsere Kunden ein viel größeres Interesse an der Genauigkeit in Bezug auf positive und negative Erwähnungen haben. Es gibt zwei Methoden, diese Genauigkeit zu messen:
Precision bezeichnet den prozentualen Anteil der korrekten Ergebnisse vom gesamten Output. 23 % Positive Precision bedeutet zum Beispiel, dass nur 23 % aller Erwähnungen, die von den Klassifikatoren als positiv eingestuft wurden, tatsächlich positiv waren.
Der Recall-Wert gibt Aufschluss darüber, wie viel Prozent der positiven Erwähnungen (von allen positiven Erwähnungen) im Datensatz erfasst wurden. Beispielsweise bedeutet 58 % Positive Recall, dass der Klassifikator 58 % aller existierenden positiven Erwähnungen im Datensatz gefunden hat.
Das Feedback unserer Nutzer hat uns zu dem Entschluss gebracht, dass Precision viel wichtiger ist als Recall. Das heißt im Grunde, dass es Nutzer letztendlich weniger stört, wenn den Klassifikatoren versehentlich ein paar positive Erwähnungen durchs Netz schlüpfen, so lange die gefundenen Erwähnungen dann auch tatsächlich positiv sind.
Das Hybridsystem war ein kleines Tick besser darin, alle positiven Erwähnungen aufzuspüren als das regelbasierte System, doch dafür schneidet dieses bei der Sicherstellung der akkuraten Bestimmung echter positiver Erwähnungen ausgesprochen gut ab (22 % Verbesserung). Wir finden, dass diese Eigenschaft wichtiger ist.
Wir freuen uns über Ihre Meinung und Ihre Ideen zur Sentimentanalyse. Was denken Sie, wie man am besten dabei vorgeht? Wenn Sie mehr zur Funktionsweise der Sentimentanalyse und zu unseren Methoden hier bei Brandwatch erfahren möchten – melden Sie sich gerne bei uns.