Archive
2014
January
February
March
April
May
June
July
August
September
October
2013
January
February
March
April
May
June
July
August
September
October
November
December
2012
January
February
March
April
May
June
July
August
September
October
November
December
2011
January
February
March
April
May
June
July
August
September
October
November
December
2010
January
February
March
April
May
June
July
August
September
October
November
December
2009
January
February
March
April
May
June
July
August
September
October
November
December
2008
January
February
March
April
May
June
July
August
September
October
November
December
2007
January
February
March
April
May
June
July
August
September
October
November
December
2006
March
April
May
June
July
August
September
October
November
December
Dec. 19, 2012

¿Cuánto es demasiado?

by Victoria Toro

Click to enlarge images
 
Hay veces que tres puede ser demasiado, incluso dos podría llegar a serlo. Pero si de lo que hablamos es de los datos que produce nuestra civilización tecnológica, fundamentalmente de toda la información generada desde que existe internet, entonces demasiado es muchísimo más. Pero también existe ahí un demasiado. Y no solo existe sino que ha dado lugar a la aparición de un nuevo término, Big Data, que cada vez se usa más incluso fuera de los círculos profesionales.
 
Big data es como se llama a los conjuntos de datos excesivamente grandes como para ser manejados por el software convencional. Hace unos pocos años no eran muchos. Ahora y a pesar del enorme aumento de potencia del software son muchos y en un futuro nada lejano serán muchísimos, ¿demasiados quizá? Eso dependerá precisamente de cómo evolucione la gestión de big data.
 
Para hacerse una idea de lo que estamos hablando nada como ir a un ejemplo concreto. En un informe que se acaba de publicar llamado "Big Data, Bigger Digital Shadows and Biggest Growth in the Far East" y que ha sido realizado por la compañía estadounidense IDC, se dice que toda la información digitalizada alcanzará en el año 2020 la cifra de 40 zettabytes. Para la mayoría de nosotros eso es solo un número. Pero un número que comienza a decir algo cuando sabemos que 40 settabytes es un número 57 veces mayor que todos los granos de arena que hay en todas las playas del mundo y que se calcula que son 700.500.000.000.000.000.000 o setecientos trillones quinientos mil billones.
 
{"input":{"width":"220","photo":"bigdata2","row":"4562","table":"DOCUMENT"}}
Pero eso es tan grande que incluso se hace difícil entenderlo. Otro ejemplo más asequible: la cadena Walmart maneja más de un millón de operaciones de clientes cada hora. Todas esas operaciones con sus detalles se almacenan, por lo que las bases de datos de Walmart tienen más de 2,5 petabytes de datos que es lo mismo que 167 veces toda la información que guardan todos los libros de la Biblioteca del Congreso estadounidense.
 
O un ejemplo más que permite además ver a qué velocidad diabólica aumenta la capacidad de nuestra civilización de producir datos. Cuando comenzó el proyecto Sloan Digital Sky Survey (SDSS) que es un ambicioso programa que se inició en el año 2000 para inspeccionar el espacio en el espectro visible acumuló más datos en las primeras semanas de trabajo que todos los datos que se habían reunido durante toda la historia de la astronomía anterior. Y desde que está funcionando ha reunido 140 terabytes de datos. Cuando en el año 2016 comience a funcionar el Gran Telescopio Sinóptico Survey, sucesor del SDSS, se calcula que obtendrá esa misma cantidad de datos cada cinco días.
 
El problema con esta cuestión es qué se hace con todos esos datos. Según la teoría de la información, esta necesita un soporte físico para manifestarse. Es decir, esos datos deben ser almacenados en algún sitio si quieren volver a usarse. O lo que es lo mismo, ¿hay alguna forma de guardarlos para que sean útiles? De hacer eso se encargar precisamente esta nueva tecnología a la que se llama Big data.
 
 
Un flujo que crece imparable
Como con las operaciones comerciales o el estudio del cielo hay muchos otros campos que generan datos a toda velocidad: datos médicos obtenidos en pruebas diagnósticas, grabaciones del tráfico rodado, fotos subidas a facebook… No son solo los gobiernos los que ya necesitan la gestión adecuada de sus datos debido a su enormidad, cada vez también más compañías privadas están entre los usuarios de esta herramienta.
 
Según datos del Massachusetts Institute of Technology (MIT), desde este 2012 cada día se generan unos 2,5 exabytes de datos. Un exabyte son 1018 bytes o mil millones de gygabytes. Y eso se duplica cada 40 meses. Hay una forma muy gráfica de entender cómo ha aumentado el tráfico de datos en internet. Hoy día internet genera más datos en un segundo que todos los que la web almacenaba hace 20 años.
 
Y los problemas con esos datos son varios. El primero es que son tantos que no hay dónde guardarlos. No solo eso, aunque pudieran guardarse hay que hacerlo de forma que después sirvan para algo porque la información es poder, sí, pero sólo si puede utilizarse.
 
{"input":{"width":"220","photo":"bigdata3","row":"4562","table":"DOCUMENT"}}
Y en este momento muy pocos de esos datos pueden utilizarse porque están escondidos entre los billones de otros datos que los acompañan. Según revela el informe "Big Data, Bigger Digital Shadows and Biggest Growth in the Far East" solo el 0,5% de toda la información que se genera en el mundo es analizada. Y solo esa, entonces, sirve para algo.
 
"Lo que necesitamos es generar algoritmos que nos permitan extraer aquello que es importante para que después pueda ser sometido a análisis", explica Francesc Alted, físico y dedicado a la producción de software para aplicadiones de big data.
 
El propio Francesc Alted explica un caso práctico. "Hay ahora un proyecto para barrer el cielo desde Sudáfrica y Australia que buscará supernovas. Pero ya se están dando cuenta de que no podrán almacenar todos los datos que van a obtener en este proyecto. Así que están desarrollando algoritmos que permitan quedarse solo con lo esencial".
 
Y eso es lo que hace big data. Con barridos del cielo, con registros de tumores hechos con tomografías, con grabaciones del tráfico en las calles o con las búsquedas de los compradores de las tiendas on line… "El algoritmo lo que nos permite es guardar solo lo esencial", explica Alted. Lo esencial, claro, dependiendo para qué. Si el algoritmo se realiza para una unidad de oncología, lo que almacenará serán los datos que digan algo de cáncer. Pero si es para una compañía de seguros, quizá lo esencial sean datos que permitan evaluar la esperanza de vida.
 
Como en El Principito, en esa ingente cantidad de datos "lo esencial es invisible a los ojos" así que hay que buscarlo. Y eso se hace mediante algoritmos o utilizando también otra herramienta tecnológica que, según explica Farncesc Alted, "está ahora muy en boga precisamente porque tiene mucha utilidad en big data" y que es el aprendizaje automático, "Machine Learning", una rama de la inteligencia artificial que lo que hacer es desarrollar programas que permitan a la computadora aprender por sí misma.
 
Y aunque todo esto suena como si fuera ciencia ficción, no lo es, se trata de pura actualidad científica.
About Victoria Toro

Viajera, bloguera, escritora, lectora, madre… La curiosidad la llevó hace más de veinte años a dedicarse al periodismo científico y la divulgación. Desde entonces: artículos, reportajes, radio, tv, exposiciones, libros… desde España y ahora desde EEUU.

The views expressed are those of the author and are not necessarily those of Science Friday.

Science Friday® is produced by the Science Friday Initiative, a 501(c)(3) nonprofit organization.

Science Friday® and SciFri® are registered service marks of Science Friday, Inc. Site design by Pentagram; engineering by Mediapolis.

 

topics