Cómo los datos grandes se vuelven más pequeños

Contenido

Cómo los datos se vuelven más pequeños
Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida
Herramientas del comercio
Big Data, gran potencial

Para llevar:

Cómo recopilar y analizar grandes datos es solo un lado de la ecuación; El otro es cómo entenderlo.

El 4 de octubre de 2012, Mark Zuckerberg anunció que había alcanzado un hito importante: mil millones de usuarios activos. Para poner esto en duda, le dijo a un entrevistador que las únicas otras compañías con mil millones de clientes eran "probablemente Coca Cola y McDonalds".

Este es solo un ejemplo del gran número de empresas que ahora tienen que enfrentar. Números tan grandes que la mayoría de la gente realmente no puede abrazarlos, por así decirlo. Lo que sucede es que estos números se convierten en abstracciones. Son tan grandes, simplemente no son reales para nosotros.

Agregue a esto el hecho de que procesamos y almacenamos más y más información todos los días y nos encontramos casi incapaces de manejar tanto la cantidad de datos como el tamaño de los valores individuales. Google procesa alrededor de 24 petabytes por día, mientras que el videojuego "World of Warcraft" usa 1.3 petabytes de almacenamiento para mantener su juego.

Ahora esos son grandes números. Entonces, el problema se convierte no solo en cómo manejar cantidades tan grandes de datos, sino también en cómo comprenderlos. Afortunadamente, la ayuda proviene de una variedad de direcciones en estas áreas. (Obtenga algunos antecedentes sobre cómo se utilizan los grandes datos en esta infografía Humanizing Big Data).

Cómo los datos se vuelven más pequeños

Durante los últimos años, el padre de la World Wide Web, Sir Tim Berners-Lee, ha estado haciendo campaña activamente por los datos abiertos, que se definen como datos que están disponibles para que todos puedan explorarlos y analizarlos. En un video de TED, Berners-Lee da ejemplos de cómo el acceso a los datos condujo a la exposición del racismo en Ohio y ayudó a proporcionar la atención médica que tanto necesitaban los campamentos de refugiados en Haití.Claramente, estas son aplicaciones donde los datos han pasado de la abstracción a la actualidad.

Quizás el desarrollador más conocido de métodos para presentar datos estadísticos en gráficos fáciles de comprender es Hans Rosling. Su programa Gapminder, un software que convierte estadísticas internacionales en gráficos móviles e interactivos, está disponible para descargar en todas las variedades de computadoras personales. (Puede encontrar algunos excelentes ejemplos de cómo se usa en esta charla TED. El desarrollo de Gapminder se discute en otra charla). Olvídese de los gráficos circulares: este software presenta estadísticas no solo de una manera que tiene sentido, sino que también deja una impresión . Nunca se te pondrá la piel de gallina en las estadísticas de los libros, pero estos gráficos tienen suficiente fuerza como para volverte loco.

Mientras que Rosling es un profesor muy versado en estadística, David McCandless es un periodista que recientemente se interesó en el diseño de métodos para presentar el análisis de datos de una manera que realmente informe. Su charla TED presenta ejemplos de visualizaciones de datos de estudios tan diversos como las preocupaciones sociales sobre los videojuegos, la efectividad de los suplementos vitamínicos y las rupturas románticas por temporada y mes. Para McCandless, los datos presentan una nueva dirección única en el periodismo y una forma de explorar un tema y proporcionar información de una manera que nunca antes fue posible. (Puede consultar algunos ejemplos realmente sorprendentes de cómo se aplica esto en el Manual de periodismo de datos).

Chris Jordan toma un enfoque diferente. A diferencia de Rosling y McCandless, Jordan se basa en su experiencia como artista para presentar información sobre temas como las muertes por fumar, los encarcelamientos en las cárceles, la adicción a los medicamentos recetados y otros temas importantes de una manera hermosa y poderosa. Su información, o datos, como arte y, en el caso de Jordan, algunos comentarios políticos bastante fuertes. (Puedes ver el trabajo de Jordans aquí).

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

Jordan, Rosling y McCandless son solo tres de las muchas personas que intentan hacer un uso significativo de los big data que ahora existen en el mundo, pero este grupo de pioneros en big data está creciendo.

Herramientas del comercio

Antes de que podamos convertir los datos en algo útil, primero tenemos que darle sentido. Deben crearse herramientas para dar sentido a la expansión masiva de hechos y datos que los científicos, académicos y empresas generan cada año. Un estudio de IDC patrocinado por EMC en 2011 mostró que los datos se duplican constantemente, y cada vez lleva menos de dos años. El estudio afirmó además que se crearán y replicarán colosales 1,8 zettabytes en 2011.

Zettabyte?

Sí, eso es 1,000 exabytes y un exabyte es 1,000 petabytes (lo que puedes recordar es 1,000 terabytes, que a su vez es 1,000 gigabytes).

¡Ahora hay un número difícil de abrazar! El estudio de EMC trata de ponerlo en contra al proporcionar algunos ejemplos interesantes de lo que equivale a 1,8 zettabytes:

Cada persona en los Estados Unidos tuitea tres tuits por minuto durante 26,976 años sin parar
Cada persona en el mundo tiene más de 215 millones de imágenes de resonancia magnética de alta resolución por día
Más de 200 mil millones de películas HD (cada una de dos horas de duración). Le tomaría a una persona 47 millones de años ver cada película si la vieran todo el día todos los días.
La cantidad de información necesaria para llenar 57.5 mil millones de iPads de Apple de 32 GB.

Con tantos iPads podríamos:

Cree un muro de iPads de 4,005 millas de largo y 61 pies de alto que se extienda desde Anchorage, Alaska, hasta Miami, Florida.
Construye la Gran Muralla iPad de China. (Sería el doble de la altura promedio del original).
Construir un muro de 20 pies de altura alrededor de América del Sur
Cubre el 86 por ciento de la Ciudad de México
Construye una montaña 25 veces más alta que el monte. Fuji

Para poder hacer que estos datos sean útiles, para transformarlos en información útil, no solo necesitamos aplicaciones y "mashups", la unión de servicios como los titulares internacionales de Google Earth y New York Times o de una Guía de restaurantes de NYC con el Departamento de Salud de NYC Calificaciones, pero también herramientas muy poderosas para filtrar, ordenar y analizar grandes cantidades de datos para proporcionar la información necesaria para la toma de decisiones, estudios científicos y análisis difíciles. IBM ha desarrollado dichas herramientas, a las que se refiere colectivamente como Smarter Analytics, para usar junto con sus servicios de big data y en la nube. Incluye servicios de software, hardware y consultoría para intentar proporcionar la plataforma de información sobre la cual tomar decisiones comerciales y científicas. Hewlett-Packard, Oracle y muchas otras compañías de TI también se están acercando a los clientes con productos para tratar de lidiar efectivamente con este exceso de información.

Big Data, gran potencial

Para darnos cuenta del potencial de esta nueva era de datos, necesitamos muchos más sistemas y aplicaciones. Necesitamos profesionales de TI con educación y habilidades del siglo XXI. Necesitamos especialistas en aplicaciones que realmente entiendan el funcionamiento y las necesidades de las empresas, la industria, las agencias gubernamentales, los militares, los empresarios y los investigadores. También necesitamos analistas tranquilos y maduros que cuestionen los juicios basados en el análisis de datos. Será fácil sentirse abrumado por las poderosas herramientas informáticas que funcionan "mágicamente" en grandes cantidades de datos. El sentido común siempre debe prevalecer o, al menos, requerir la reelaboración de los datos.

Ya sabemos que el potencial de Big Data es ilimitado, pero también lo es la capacidad de error. Por lo tanto, las herramientas que se crean para dar sentido a toda esta información pueden ser la clave para envolver nuestros brazos en el problema de los grandes datos.