*NOTA: el siguiente cálculo asume que Hive es sólo una de las mayores bases de datos de Facebook. El cálculo se basa en 4 nuevos petabytes por día, normalizados sobre el gráfico de usuarios de Facebook. Esto no tiene en cuenta los cambios de comportamiento de los usuarios a lo largo del tiempo o realmente nada en absoluto, así que no confiaría en estos números con su vida.
«Hive es el almacén de datos de Facebook, con 300 petabytes de datos en 800.000 tablas. Facebook genera 4 nuevos petabyes de datos y ejecuta 600.000 consultas y 1 millón de trabajos map-reduce al día. Presto, HiveQL, Hadoop y Giraph son los motores de consulta habituales sobre Hive.»
Fuente: Facebook’s Top Open Data Problems
El número de usuarios que tiene Facebook es de 1.860 millones.
Facebook se fundó el 4 de febrero de 2004, es decir, hace perfectamente 5000 días de la fecha en la que estoy escribiendo este post.
Aquí están los usuarios activos mensuales de facebook. Este gráfico está un poco anticuado, pero podemos simplemente crear una línea de regresión desde sep 08-oct 15 y hacer algunas adivinanzas.
(Nota. Soy demasiado vago, así que voy a tomar (1550-100)/(oct15-sep08) y a ojo)
Usando el método de la nota^, la pendiente es
+17,06 millones de usuarios al mes.
Suponiendo 0 usuarios en Abr08, (eliminando los ‘outliers’) podemos encontrar que los usuarios esperados hoy son
Lo cual es un poco alto. Pero servirá.
Ahora, tenemos que normalizarlo. A 1944M, fb recoge 4 PB de datos/día, lo que supone 120 PB/mes.
Así que ahora, redibujamos el gráfico
La pendiente debería ser ahora de 17,06/120=0,142
Esto significa que cada mes desde abril de 2008, la cantidad de datos que facebook recoge/mes aumenta en 0,142.
¿Qué significa esto?
Llevamos 114 meses desde abril de 2008.
Así que integramos la función y obtenemos 922 PB.
922PB/1860M usuarios es igual a
Y ahí lo tienes. Unos 500 megabytes por usuario. (Y nuestros números eran un poco altos. Además, fb podría tener datos secretos así que realmente, ¿quién diablos sabe?)