En un blog post que escribí hace tiempo, hablé sobre los proyectos en los que estábamos trabajando en Brandwatch.
En esta ocasión me gustaría centrarme en una parte importante de mi día a día: el desarrollo de nuestra tecnología y los rastreadores o crawlers. Nuestros rastreadores de datos funcionan en todas nuestras fuentes: Facebook, Instagram, blogs, foros, sitios de noticias, etc.
Estas son las respuestas a algunas de las preguntas más frecuentes sobre nuestra cobertura de datos en Instagram:
1 ¿Tenéis acceso a los datos completos de Instagram (firehose)?
Una pregunta muy común.
En caso de que no lo sepas, el término “firehose” se usa en la industria para referirse a los datos completos que se obtienen de una fuente determinada al pagar por ellos. El proveedor más conocido de un firehose es Twitter. Nosotros les pagamos y obtenemos el 100 % de los tuits que después tú puedes usar en cualquiera de tus Queries. Tenemos este mismo acuerdo con Disqus y muchos otros proveedores.
Sin embargo, no existe un firehose para Instagram.
Instagram forma parte del imperio de Facebook, una compañía que vive de la publicidad. Bueno, técnicamente se describe a sí misma como una empresa de redes sociales, pero su éxito se basa en la publicidad que vende.
Por esta razón, vender sus datos a empresas de análisis (como Brandwatch) no encaja en su modelo de negocio. El enfoque único de Facebook es generar una excelente experiencia para el usuario y lograr que sus anunciantes inviertan cada vez más en publicidad. Por eso ni Facebook ni Instagram ofrecen un firehose para cualquier otro negocio.
Cualquier proveedor que diga que tiene el “100 % de los datos de Instagram” o el “firehose de Instagram” debe ser tratado con cuidado.
2 Entonces, ¿cómo es vuestra cobertura de Instagram?
Como todos los demás, tenemos acceso a los APIs públicos de Instagram y usamos rastreadores en sus datos.
Algunos proveedores evitan este paso y pagan a terceros para que hagan el rastreo por ellos. Nosotros decidimos no hacerlo, lo que significa que tenemos control sobre los datos que recogemos (la información que nuestros clientes necesitan, filtros de spam y menos menciones irrelevantes).
Al igual que todos los demás proveedores, dado que es un API público no pagado, tenemos ciertas limitaciones, así que tenemos que ser inteligentes y balancear adecuadamente los datos que recogemos.
Al no existir la búsqueda compleja del API (al contrario de otros proveedores de datos, como Twitter), no podemos usar todas las funciones de nuestros operadores booleanos en las Queries de Brandwatch.
El API provee ciertos endpoints para obtener datos de Instagram. Para quienes no son desarrolladores, los endpoints son sitios de donde podemos obtener datos del API en un formato particular. Actualmente podemos rastrear posts de hashtags solicitados y de publicaciones específicas. También hemos agregados los comentarios de los usuarios a nuestros crawlers.
3 ¿Cómo funciona el rastreo de hashtags en Instagram?
Es más fácil explicarlo si lo dividimos en dos partes. La primera consiste en recoger posts de Instagram y la segunda en empatarlos con tus Queries.
Recoger post de Instagram, dado que no hay una búsqueda compleja del API, buscamos los endpoints.
Esto nos da una lista de posts para cualquier hashtag. Compilamos los resultados y los empatamos con las Queries (aquellas donde nuestros usuarios usaron el operador hashtag). Después solicitamos el post de cada hashtag.
Esto nos devuelve una página con múltiples posts. Cada post se almacena y queda disponible para futuras Queries.
Empatar con Queries de nuestros clientes, una vez que un post se almacena en el archivo de Brandwatch queda disponible para todos y se puede empatar con cualquier Query, haga o no referencia al hashtag que lo encontró originalmente.
Por ejemplo, si el cliente A crea una Query que dice hashtag:gatos y nosotros encontramos un post en Instagram que dice “Qué bueno que no tengo un perro. #gatos” podemos empatarlo a su Query. Si después el cliente B hace una búsqueda con la palabra “perro”, tendrá acceso a la publicación que encontró el cliente A (aun sin haber hecho mención al hashtag).
Esto se llama “data colateral” y es un efecto de redes, donde los datos que recogemos para un cliente pueden beneficiar a todos nuestros clientes.
4 ¿Cómo funciona el rastreo de los posts y comentarios en Instagram?
Puedes encontrar esta función en los canales de Instagram de Brandwatch Analytics.
Además, su uso es bastante sencillo. En lugar de tener que crear una Query normal, simplemente debes crear un Canal específico para el usuario de Instagram que te interesa y comenzaremos a rastrear toda la actividad de esa cuenta.
Cuando creas el Canal, la primera vez que lo rastreamos obtenemos los 100 posts más recientes de los últimos siete días. Para cada post recogemos hasta 150 comentarios. Después volvemos a visitar la página cada una o dos horas (dependiendo de cuánto tiempo nos llevó el primer rastreo), y recogemos los top 100 post y 150 comentarios para cada uno.
5 ¿Por qué me pide Brandwatch que me autentifique con Instagram?
Puede ser que hayas recibido un mensaje de Brandwatch que te pide que te autentifiques con Instagram, o puede que hayas notado el menú de autentificación en la esquina superior derecha de la app.
Cada vez que nos conectamos al API necesitamos presentar un “token”. Un token es básicamente el billete de entrada.
El reto es que ese token expira. Por eso, mientras más tokens tengamos, más capacidad obtenemos para rastrear. Cada cuenta de los usuarios de Instagram puede generar un token.
Existen dos áreas dentro de Brandwatch donde las personas que se han autenticado reciben un mejor servicio. Éstas son:
- Rastreadores de crawlers, tenemos una segunda alternativa para rastrear hashtags, llamada “Authenticated Hashtag Crawler”. Está dedicada a los clientes con cuentas que se han autentificado con una o más cuentas de Instagram.
- Rastreo de las publicaciones y comentarios de los usuarios, este crawler se encuentra por debajo de los Canales de Brandwatch Analytics. Cada token de autenticidad puede trabajar con hasta 50 Canales (es decir, puede obtener datos de hasta 50 cuentas de Instagram). Cuando estamos lidiando con altos volúmenes de datos hemos tenido algunas dificultades, sobre todo si los usuarios nos han dado pocos tokens. Al autentificar más cuentas esto se puede resolver.
6 ¿Qué puedo hacer para obtener más datos de Instagram?
Tenemos algunas sugerencias para mejorar el procesos de recolección de datos:
- Mejora tus Queries de Brandwatch Analytics e incluye los hashtags que te interesan.
- Crea un Canal de Instagram en Brandwatch Analytics para las cuentas que quieres monitorizar (como el canal de tu marca, por ejemplo).
- Autentifica tus cuentas de Instagram en Brandwatch Analytics. Con esto te aseguras de mejorar la capacidad de tus rastreadores.
- Si trabajas con influencers particularmente importantes para tu proyecto, crea un Canal de Instagram para ellos, de esta manera toda su información estará disponible en tus otras Queries.
7 ¿Cómo está el roadmap para Instagram?
Queremos más y por eso estamos trabajando en tres áreas específicas:
- Profundidad de cobertura de hashtags: queremos asegurarnos de recoger todos los posts que generan los hashtags que buscan nuestros usuarios. Sin importar el volumen de datos.
- Amplitud de la cobertura de hashtags: el objetivo es rastrear más hashtags aunque no se haya solicitado directamente. Esto mejorará nuestros datos históricos con el tiempo.
- Cobertura de comentarios con hashtags: estoy convencida de que será muy útil para encontrar información más relevante.
Por el momento, esta es nuestra prioridad. Hemos creado un equipo de ingenieros dedicados exclusivamente a mejorar nuestra arquitectura e incrementar el número de publicaciones que encontramos.
Seguiré escribiendo sobre nuestro planes a futuro, mantente al tanto.