¿Puede haber demasiados datos en Big Data?

Contenido

Q:
UNA:

Q:

¿Puede haber demasiados datos en Big Data?

UNA:

La respuesta a la pregunta es un rotundo SÍ. Absolutamente puede haber demasiados datos en un proyecto de Big Data.

Hay muchas maneras en que esto puede suceder, y varias razones por las cuales los profesionales necesitan limitar y seleccionar datos de muchas maneras para obtener los resultados correctos. (Lea 10 grandes mitos sobre Big Data).

En general, los expertos hablan de diferenciar la "señal" del "ruido" en un modelo. En otras palabras, en un mar de grandes datos, la información relevante se vuelve difícil de identificar. En algunos casos, estás buscando una aguja en un pajar.

Por ejemplo, suponga que una empresa está tratando de usar big data para generar información específica sobre un segmento de una base de clientes y sus compras en un período de tiempo específico. (Lea ¿Qué hace el big data?)

Tomar una gran cantidad de activos de datos puede dar como resultado la entrada de datos aleatorios que no son relevantes, o incluso puede producir un sesgo que sesga los datos en una dirección u otra.

También ralentiza drásticamente el proceso, ya que los sistemas informáticos tienen que luchar con conjuntos de datos cada vez más grandes.

En tantos tipos diferentes de proyectos, es muy importante que los ingenieros de datos seleccionen los datos a conjuntos de datos restringidos y específicos; en el caso anterior, solo serían los datos de ese segmento de clientes estudiados, solo los datos de ese momento marco que se está estudiando y un enfoque que elimina identificadores adicionales o información de fondo que puede confundir las cosas o ralentizar los sistemas. (Papel ReadJob: ingeniero de datos).

Para más información, veamos cómo funciona esto en la frontera del aprendizaje automático. (Lea Machine Learning 101.)

Los expertos en aprendizaje automático hablan sobre algo llamado "sobreajuste", en el que un modelo demasiado complejo conduce a resultados menos efectivos cuando el programa de aprendizaje automático se libera en los nuevos datos de producción.

El sobreajuste ocurre cuando un conjunto complejo de puntos de datos coincide demasiado bien con un conjunto de entrenamiento inicial y no permite que el programa se adapte fácilmente a los nuevos datos.

Ahora, técnicamente, el sobreajuste no se debe a la existencia de demasiadas muestras de datos, sino a la coronación de demasiados puntos de datos. Pero podría argumentar que tener demasiados datos también puede ser un factor que contribuya a este tipo de problema. Lidiar con la maldición de la dimensionalidad implica algunas de las mismas técnicas que se realizaron en proyectos anteriores de Big Data cuando los profesionales intentaron identificar qué estaban alimentando los sistemas de TI.

La conclusión es que los grandes datos pueden ser de gran ayuda para las empresas, o pueden convertirse en un gran desafío. Un aspecto de esto es si la compañía tiene los datos correctos en juego. Los expertos saben que no es aconsejable simplemente volcar todos los activos de datos en una tolva y obtener ideas de esa manera: en los nuevos sistemas de datos nativos de la nube y sofisticados, hay un esfuerzo por controlar, administrar y curar los datos para obtener una mayor precisión y uso eficiente de los activos de datos.