Hadoop Analytics: la combinación de datos requiere un enfoque independiente de la fuente

Fuente: Agsandrew / Dreamstime.com

Para llevar:

Los métodos independientes de la fuente son ideales para procesar datos para análisis de Hadoop.

Combinar fuentes de datos en Hadoop es un negocio complejo. Algunas de las razones para esto incluyen:

Los scripts personalizados de origen específico que combinan orígenes de datos son problemáticos.
El uso de herramientas de integración de datos o ciencia de datos introduce demasiada incertidumbre.
Agregar datos de fuentes externas es casi imposible.

Hoy, voy a analizar cómo se mejora el análisis de Hadoop a través de tecnologías independientes de la fuente que facilitan la combinación de fuentes de datos internas y externas. Además de describir cómo funcionan los métodos independientes de la fuente, también cubriré por qué los análisis de Hadoop necesitan capacidades integradas de inteligencia y transferencia de conocimiento, una comprensión de las características de las relaciones y los datos, y una arquitectura escalable y de alto rendimiento.

Métodos agnósticos de origen incluye un modelo flexible de resolución de entidad que permite agregar nuevas fuentes de datos utilizando procesos de ciencia de datos repetibles y estadísticamente sólidos. Estos procesos aprovechan los algoritmos para recopilar conocimiento de los datos, y evaluarlo, analizarlo para determinar el mejor enfoque de integración.
No importa cuán fragmentados o incompletos sean los registros fuente originales, las tecnologías de análisis de Hadoop deben ser independientes de las fuentes y ser capaces de unificar datos sin cambiar o manipular los datos fuente. Estas tecnologías también deberían crear índices de entidad basados en el contenido de datos y atributos sobre las personas y cómo existen en el mundo. Para lograr esto, deben comprender el contenido de datos, la estructura, la estructura y cómo los componentes se relacionan entre sí.
Ciencia de datos incorporada y experiencia en integración de datos permite que los datos se limpien, estandaricen y correlacionen con un alto grado de precisión y precisión. Las herramientas de visualización y los informes ayudan a los analistas a evaluar y aprender de los datos, y a realizar ajustes del sistema basados en el conocimiento obtenido de los diferentes pasos dentro del proceso.
Comprender las relaciones entre entidades da como resultado procesos de resolución de entidades más precisos. Como las entidades del mundo real no son solo la suma de sus atributos, sino también sus conexiones, el conocimiento de las relaciones debe usarse para detectar cuándo los registros son iguales. Esto es especialmente importante para manejar casos de esquina y big data.
Caracterización de datos Mejora el análisis, la resolución y la vinculación de datos mediante la identificación y la provisión de información dentro de las fuentes de datos. Puede ayudar a validar el contenido, la densidad y la distribución de datos dentro de columnas de información estructurada. La caracterización de datos también se puede utilizar para identificar y extraer datos importantes relacionados con la entidad (nombre, dirección, fecha de nacimiento, etc.) de fuentes no estructuradas y semiestructuradas para la correlación con fuentes estructuradas.
Arquitectura escalable y paralela realiza análisis rápidamente incluso cuando admite cientos de fuentes de datos estructurados, semiestructurados y no estructurados, y decenas de miles de millones de registros.

Hadoop está cambiando la forma en que el mundo realiza análisis. Cuando se agregan nuevas analíticas independientes de la fuente a los ecosistemas de Hadoop, las organizaciones pueden conectar los puntos a través de muchas fuentes de datos internas y externas y obtener información que antes no era posible.

Este artículo fue publicado originalmente en Novetta.com. Ha sido caña aquí con permiso. Novetta conserva todos los derechos de autor.