Für uns als Social-Media-Monitoring-Anbieter ist die Qualität unserer Internet-Abdeckung entscheidend für unsere Leistung als Unternehmen. Und was genau bedeutet das eigentlich?
Selbst der Begriff Social Media Monitoring ist irreführend. Wir beobachten nicht nur das Social Web, wir beobachten alle Online-Aktivitäten.
Der Begriff „Social Media“ kann ganz unterschiedlich interpretiert werden. Viele Leute werden argumentieren, dass das Web schon immer so „social“ gewesen sei, wie es heute in seiner Twitter und Facebook geprägten Form ist – früher hätten eben vergleichsweise veraltete Anwendungen wie E-Mail, Usenet und IM das Web „social“ gemacht.
Letztendlich ist die genaue Definition des Social Web für unseren Service jedoch nicht allzu bedeutend. Brandwatch durchsucht das gesamte Web. So möchten wir sicherstellen, dass wenn jemand über Sie oder das Thema, an dem Sie interessiert sind, spricht, wir in der Lage sind, diese Beiträge zuverlässig zu finden.
Wenn wir also nicht nur die Inhalte der Social Sites erfassen, was genau beobachtet Brandwatch dann?
Der folgende Artikel sollte Ihnen einen kleinen Einblick geben, welche Quellen sich hinter den über 60.000.000 Seiten verbergen, die wir täglich durchsuchen.
________________________________________
Nachrichtenseiten
Informationen sind die Währung des digitalen Zeitalters und die Verfolgung von Artikeln, die auf Nachrichtenseiten veröffentlicht werden, ist eine der zentralen Anwendungen unseres Tools. PR-Abteilungen und Kampagnenmanager können so einfach kontrollieren, auf welchen Seiten ihre Artikel erfolgreich ihre Zielgruppe erreichen, da Brandwatch tausende der wichtigsten Nachrichtenseiten erfasst.
Wir verfahren nach dem Ausschlussverfahren (Blacklist-Ansatz) und versuchen, möglichst jede existierende Nachrichtenseite zu durchsuchen – ausgenommen Paywall-geschützte Seiten – und filtern erst im Anschluss Spam und irrelevante Beiträge aus. Dieses Verfahren bewährt sich als erfolgreiche Methode zur umfassenden Abdeckung aller großen und kleinen Online-Nachrichtenseiten, von regionalen Blättchen bis hin zu internationalen Magazinen.
________________________________________
Foren
Ebenso wie bei den Nachrichtenseiten funktioniert unsere gesamte Quellen-Abdeckung nach dem Blacklist-Ansatz, das bedeutet, dass wir buchstäblich unzählige Foren durchsuchen, bevor wir die ausfiltern, die sich als irrelevant herausstellen.
Dieses Verfahren ist effizienter als der umgekehrte Ansatz mit Positivlisten (Whitelist-Ansatz), die von Grund auf neu erstellt werden, da so eine komplette Abdeckung sichergestellt wird.
Wir können außerdem einzelne Kommentare zu Forenbeiträgen isolieren und herauspicken. Die einzigen Foren die wir nicht crawlen, sind solche, die uns höflich gebeten haben, dies nicht zu tun oder Foren, deren Datenschutzeinstellungen es nicht zulassen.
Boards wie 4chan, Social-Bookmarking-Seiten wie StumbleUpon oder sogar Bewertungsseiten wie TripAdvisor können dazu gehören.
________________________________________
Soziale Netzwerke
Social-Media-Seiten machen einen Großteil des Inhaltes aus, an dessen Erfassung unsere Kunden besonders interessiert sind – daher auch der Name Social Media Monitoring.
Die Abdeckung von Seiten wie LinkedIn oder Facebook ist generell nicht ganz einfach, da beide Netzwerke über strenge Einschränkungen und Datenschutzbestimmungen verfügen, so können wir nicht alle Inhalte erfassen, die dort veröffentlicht werden.
Glücklicherweise pflegt Brandwatch Partnerbeziehungen mit etlichen der wichtigsten Netzwerke. So möchten wir gewährleisten, dass unsere Abdeckung so gut ist, wie überhaupt nur möglich. Dank dieser Beziehungen hat Brandwatch teilweise 100-prozentigen Zugang zu den Daten der sozialen Netzwerke. Beispielsweise gewährt Twitter uns das Privileg, über die Twitter Firehose auf alle dort veröffentlichen Beiträge zugreifen zu können.
Oben stehend finden Sie eine Auswahl der Webseiten, die wir zu einem bestimmten Grad durchsuchen können. Bei manchen dieser Seiten muss sich auch Brandwatch beschränken, wie zum Beispiel bei LinkedIn, dort sind Inhalte wie Profile für Monitoring-Lösungen tabu.
Internationale Nuancen, wie die Vorliebe des fernen Ostens für Seiten wie RenRen, Wiebo und Orkut werden von uns berücksichtigt, wenn wir festlegen, welche Plattformen wir crawlen.
________________________________________
Blogs
Blogs machen einen großen Teil des Internets aus. Hier reicht die Bandbreite von Hubs für führende Internet-Diskurse über radikale Hetzseiten, die so ziemlich gegen alles wettern, bis zu zahllosen mit Porno gespickten Spam-Katastrophen.
Wir bedienen uns ausgeklügelter Systeme, um nur die relevanten Inhalte aus populären Blog-Netzwerken wie Tumblr, Blogspot und WordPress zu filtern und so eine Liste mit Millionen von Blogs zu erstellen, die es zu crawlen gilt. Die Liste wird täglich aktualisiert.
Alle branchenrelevanten Blogs, von unternehmenseigenen Artikeln bis hin zu etablierten Seiten wie Wired und Techcrunch, werden natürlich ebenfalls beachtet.
________________________________________
Multimedia-Inhalte
Da die video- und bilderbasierten Inhalte schwer auf dem Vormarsch sind, achten wir sehr darauf, dass unsere Abdeckung diesen Inhalten gerecht wird. Während eine 100-prozentige Abdeckung hier ebenfalls nicht umsetzbar ist, die Gründe dafür sind ähnlich wie bei anderen sozialen Netzwerken, können wir doch einen bedeutenden Prozentsatz der Inhalte der folgenden Seiten herausfiltern:
________________________________________
Andere Seitentypen
Nicht alle Seiten lassen sich so einfach in vordefinierte Kategorien einteilen. Die unglaubliche Menge an persönlichen Portfolios, Archiven, Unternehmensmeldungen und anderen Webseiten macht einen ansehnlichen Teil der Internetseiten und damit auch der von uns abgedeckten Seiten aus.
Es ist eine Herausforderung alle diese Seiten „unter einen Hut“ zu bekommen, aber verlassen Sie sich darauf, wenn eine Seite von angemessener Bedeutung ist – das heißt, wenn sie von einen Menschen erstellt ist und über reale Besucher verfügt – haben wir sie im Visier!
________________________________________
Sprachen
Wir passen unseren Service den regionalen Märkten an und zwar nicht nur in Bezug darauf, welche Seiten wir crawlen, sondern wir berücksichtigen auch die Sprache, in der die Beiträge veröffentlicht werden.
Augenblicklich können wir Beiträge in 25 Sprachen erfassen und jeden Monat fügen wir neue Sprachen hinzu. Unsere anerkannte Sentimentanalyse ist ebenfalls für die meisten der von uns abgedeckten Sprachen verfügbar.
- Arabisch BETA
- Brasilianisches Portugiesisch
- Chinesisch (Kurzzeichen)
- Chinesisch (Langzeichen)
- Tschechisch
- Dänisch
- Niederländisch
- Ägyptisch-Arabisch BETA
- Englisch
- Europäisches Portugiesisch
- Farsi BETA
- Finnisch
- Französisch
- Deutsch
- Griechisch
- Golf-Arabisch BETA
- Hebräisch BETA
- Italienisch
- Japanisch
- Norwegisch
- Polnisch
- Russisch
- Spanisch
- Schwedisch
- Türkisch
________________________________________
Sie haben nun einen Eindruck davon bekommen, in welchen Ausmaßen wir das Internet abdecken können und welche Gedanken wir uns machen müssen, wenn wir das Web crawlen. Wenn Sie mehr darüber erfahren möchten, wie umfassend unsere Abdeckung ist, welche Datenqualität wir beim Crawlen spezifischer Seiten bieten können, wie unser Spam-Filter funktioniert oder Sie andere Fragen zu unseren Daten haben – kontaktieren Sie uns gerne via Twitter, Facebook oder E-Mail.