El desafío actual de Big Data proviene de la variedad, no del volumen o la velocidad

Contenido

Tres Vs de Big Data
Abordar el problema de la variedad de datos
Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

Para llevar:

Demasiados departamentos de TI arrojan todo lo que tienen sobre los problemas de volumen y velocidad de datos, olvidando abordar el problema fundamental de la variedad de datos.

El desafío de administrar y aprovechar big data proviene de tres elementos, según Doug Laney, vicepresidente de investigación de Gartner. Laney señaló por primera vez hace más de una década que los grandes datos representan un problema para la empresa porque introduce un volumen, una velocidad y una variedad difíciles de administrar. El problema es que muchos departamentos de TI arrojan todo lo que tienen a los problemas de volumen y velocidad de datos, olvidando abordar el problema fundamental de la variedad de datos.

En 2001, Laney escribió que "las empresas líderes utilizarán cada vez más un almacén de datos centralizado para definir un vocabulario comercial común que mejore la colaboración interna y externa". El tema de ese vocabulario, y la variabilidad que impide que las empresas lo creen, sigue siendo el aspecto menos abordado del enigma de big data en la actualidad. (Consulte lo que otros expertos tienen que decir. Consulte Expertos en Big Data para seguir).

Tres Vs de Big Data

Numerosas empresas han encontrado métodos para aprovechar un mayor volumen y velocidad de datos. , por ejemplo, puede analizar enormes volúmenes de datos. Por supuesto, esos datos a menudo se presentan una y otra vez dentro de los mismos parámetros. Esto impulsó las innovaciones tecnológicas, como las bases de datos de columnas, que ahora son ampliamente utilizadas por otras compañías que se enfrentan a tiendas igualmente importantes de elementos de datos similares.

En términos de velocidad de domesticación, proveedores como Splunk ayudan a las empresas a analizar datos creados rápidamente a través de archivos de registro que capturan varios miles de eventos por segundo. Este análisis de eventos de gran volumen está dirigido a casos de uso de monitoreo de seguridad y rendimiento. Al igual que con el desafío del volumen de datos, el desafío de la velocidad se ha abordado en gran medida a través de técnicas de indexación sofisticadas y análisis de datos distribuidos que permiten escalar la capacidad de procesamiento con una mayor velocidad de datos.

Sin embargo, cuando se trata de variedad, muchas empresas aún enfrentan un gran problema en su enfoque de análisis de big data. Este problema está impulsado por tres factores: Primero, debido al crecimiento, las adquisiciones y las innovaciones tecnológicas que agregan nuevos sistemas al entorno, las empresas están encerradas en un entorno altamente heterogéneo y esta heterogeneidad solo aumenta con el tiempo. Las empresas necesitan rastrear una gran cantidad de tipos de sistemas y administrar decenas de miles de tipos de datos, así como la misma información que se representa utilizando diferentes nomenclaturas y formatos.

En segundo lugar, estos sistemas y tipos de datos en muchos casos informan tanto información relevante como información que puede filtrarse de manera segura como irrelevante para el problema que se está abordando. Es necesario identificar de manera confiable la información impactante.

La tercera dimensión para el desafío de la variedad es la variabilidad constante o el cambio en el medio ambiente. Los sistemas se actualizan, se introducen nuevos sistemas, se agregan nuevos tipos de datos y se introduce una nueva nomenclatura. Esto limita aún más nuestra capacidad para domar el desafío de la variedad de datos. Esto agrega una capa adicional al desafío de la variedad. (Para obtener más información, consulte Big Data: cómo se captura, analiza y utiliza para tomar decisiones comerciales).

Abordar el problema de la variedad de datos

Para abordar el problema de la variedad de datos, las empresas deben comenzar con el dominio de TI, ya que a menudo representa tanto a los peores delincuentes como a las peores víctimas del problema de la variedad. El primer paso es comenzar con una definición integral o taxonomía de todos los elementos o activos de TI. Esto proporciona una línea base o base para referirse a cualquier cosa relacionada con TI y permite a las empresas gestionar la creciente heterogeneidad frente a una taxonomía o terminología conocida.

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

El siguiente paso es identificar las numerosas formas en que se representa el mismo objeto en diferentes sistemas de registro. Esto permite a los profesionales de TI examinar su entorno heterogéneo y filtrar y comprimir los datos en fragmentos relevantes y manejables.

Finalmente, los gerentes de TI deben adoptar un proceso de examen constante del entorno para detectar cambios, como la introducción de nuevos tipos de elementos o una nueva nomenclatura para referirse al mismo elemento.

Con estos pasos, las organizaciones de TI pueden gestionar el problema de la variedad y obtener conocimientos profundos que históricamente han eludido a los equipos de TI. Además, la gestión del problema de la variedad mejora enormemente su retorno de la inversión en herramientas y técnicas que abordan los problemas más tradicionales de volumen y velocidad de big data.