Grandes datos de Facebook

Grandes datos de Facebook
13 septiembre, 2016 Ignacio Uman

El 8 de septiembre, Carlos Greg Diuk -Data Scientist de Facebook y egresado de Exactas- dictó en la facultad una charla sobre Big Data en Facebook, especialmente invitado por profesores del DC.

Durante la charla, el investigador de Facebook contó cuáles son las herramientas y técnicas que utiliza la red social para extraer, procesar y analizar su enorme grafo social.

A 12 años de su creación, Facebook alcanzó este año 1.7 billones de usuarios mensuales, 1 billón de usuarios de WhatsApp, 1 billón de usuarios de Messenger y 500 millones de usuarios de Instagram. Teniendo en cuenta estos números, la red social más grande del mundo genera unos 600 Terabytes (TB) de datos nuevos por día y su volumen de datos se triplicó entre 2013 y 2014.

Actualmente, más de 1000 millones de usuarios se conectan diariamente y producen billones de “me gusta”, publicaciones, fotos, videos, etc. Todas esas interacciones resultan en un considerable grafo social, desde los amigos, sus relaciones entre sí hasta las relaciones entre personas y páginas o grupos. Al respecto, Diuk remarcó que en base al análisis de la conexión entre los nodos, a los agrupamientos entre personas que comparten intereses similares y su propagación en la red, se pueden inferir diferentes características sobre las personas que componen la red como su ciudad, formación o empleo.

Los 6 grados de separación en Facebook

Uno de los estudios llevados a cabo por el equipo de Core Data Science, es la aplicación de la teoría de los 6 grados de separación a Facebook. La teoría fue popularizada por el sociólogo Stanley Milgram, quien en 1967 hizo un experimento denominado “el problema del mundo pequeño”. Mediante esta prueba, solicitó a determinadas personas que enviaran una carta a alguien del otro lado del mundo. Sabían el nombre, ocupación y lugar del destinatario, y debían enviar esa carta a alguien que pensara que conocía a esa persona y podía entregársela. Se pensó que recorrería cientos de personas, pero la realidad demostró que en solo 6 o 7 pasos el paquete llegaba a destino. Esto probaría que cualquier persona está conectada a cualquier otra persona del planeta a través de una cadena de conocidos que no tiene más de seis enlaces.

Usando esta teoría, los científicos de datos de Facebook encontraron que el grafo de la red social es un “mundo pequeño” (small world) y que mediante un algoritmo específico que mida cuántos amigos conectan en promedio a dos personas cualquiera de los 1700 millones de usuarios, se puede establecer que existen 3.5 grados de separación en Facebook (también pudieron medir el grado de separación de usuarios específicos, por ej. de los directivos de Facebook, observando que Mark Zuckerberg tiene 3.17 y Sheryl Sandberg 2.92).

Análisis de sentimientos, fútbol y brecha digital

Otro de los proyectos que involucra al equipo de Data Science es el análisis de sentimientos en Facebook. Conocido como “sentiment analysis” o minería de opiniones, se refiere al procesamiento del lenguaje natural y análisis de comentarios de los usuarios en la red para poder identificar su actitud con respecto a determinado tema. Al respecto, Diuk explicó que la herramienta LIWC (Linguistic Inquiry and Word Count), desarrollada por psicólogos, otorga las claves de comprensión para conocer cómo del lenguaje cotidiano se pueden extraer actitudes determinadas, ya que a partir de textos puntuales escritos por humanos permite listar las palabras positivas, negativas o neutras. En este sentido, en Facebook están utilizando Word2vec y algoritmos de redes neuronales, para tomar un corpus significativo de texto y poder extraer el sentimiento de los usuarios. También se valen en gran medida de los tag de emociones o stickers, asociados a texto, que permiten expresar cómo se siente una persona a la hora de realizar una publicación o comentarla.

Al mismo tiempo, el equipo de investigación de Facebook realizó un interesante estudio sobre las actitudes de los hinchas de fútbol en Facebook, luego del Mundial de Brasil 2014. En primer lugar observaron una consecuencia del fenómeno Maradona: en 1986 entre 1% y 1.5% de los chicos nacidos en Argentina en un día normal llevan el nombre Diego. Pero para los nacidos el día después del partido contra Inglaterra, después de la semifinal y de la final del Mundial de México ’86, el porcentaje se va a 5.5%. También en el Mundial 2014 analizaron por quién hinchaban los usuarios de distintas nacionalidades, especialmente después de que su propio país era eliminado o en partidos donde no jugaba. En este aspecto, encontraron mucha “solidaridad continental”: los latinoamericanos hinchan por países latinoamericanos y los europeos por países europeos, con algunas excepciones. Los griegos no simpatizaban por Europa (teniendo en cuenta que el Mundial ocurrió en plena crisis): en partidos entre un país latinoamericano y uno europeo, el 69% de los griegos se inclinaba por el latinoamericano. Y el otro caso sería Argentina-Brasil: los hinchas de ambos países siempre apoyan al rival de su rival, no importa quién sea, pero en otros partidos apoyan masivamente al país latinoamericano.

Por último, Diuk comentó algunos detalles del proyecto Aquila, a cargo del Connectivity Lab de Facebook, que forma parte de la iniciativa Internet.org. Se trata de un vehículo aéreo no tripulado a propulsión solar de Facebook que puede ser usado para llevar conectividad en las regiones de más difícil acceso. Una vez completado, Aquila será capaz de volar en círculos sobre una región de hasta 100 kilómetros de diámetro, usando comunicaciones láser y sistemas de ondas milimétricas para radiar conectividad desde una altura de más de 60.000 pies. Aquila fue diseñado para vuelos de hasta tres meses de duración. Tiene el ancho de alas de un avión comercial, pero volando a velocidad de crucero consumiría apenas 5.000 watts, lo mismo que tres secadores de pelo o un horno de microondas. La aeronave tuvo su primer vuelo de prueba en Arizona, a mediados de este año, y logró estar en el aire por 96 minutos, tres veces más de lo previsto. El objetivo final del proyecto es lograr que el 60% de la población mundial (4.000 millones de personas) que no tiene acceso a Internet pueda tener conexión.

Bio

Carlos Greg Diuk trabaja como científico de datos en el equipo multidisciplinario de Data Science de Facebook, Estados Unidos. Allí estudia el comportamiento de las personas a partir de grandes volúmenes de datos de la red social. Es especialista en Aprendizaje por Refuerzos. Investigó la forma en que los agentes (computadoras, robots, personas) aprenden a optimizar su comportamiento mediante la interacción directa con el ambiente. En su doctorado estudió cómo una computadora puede aprender a jugar videojuegos. En su post-doctorado indagó sobre las bases neuronales del aprendizaje por refuerzos utilizando resonancia magnética funcional en seres humanos. Es Licenciado en Ciencias de la Computación de la Universidad de Buenos Aires y doctor en Ciencias de la Computación de la Universidad de Rutgers. También fue investigador post-doctoral en la Universidad de Princeton.

0 Comentarios

Dejar una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*