Catálogos de datos y la maduración del mercado de aprendizaje automático

Contenido

El imperativo infonómico
Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida
¿Qué pueden hacer los catálogos de datos para las empresas?
Agregar en el aprendizaje automático
Como escoger

Fuente: Nmedia / Dreamstime.com

Para llevar:

El mercado de MLDC está creciendo, y las empresas que buscan aprovechar efectivamente los grandes datos con el aprendizaje automático deben conocer los nombres más importantes en el campo y sus clasificaciones individuales.

Esta es la era de los grandes datos. Nos inundamos de información, y las empresas encuentran que es un desafío administrar y extraer el valor de ella.

El flujo actual de big data implica no solo volumen, variedad y velocidad, sino también complejidad. Según lo identificado por SAS en el Historial de Big Data y en las Consideraciones actuales, ese es un factor de las transmisiones "de múltiples fuentes, lo que hace que sea difícil vincular, igualar, limpiar y transformar datos entre sistemas". (¿Desea obtener más información sobre big data? Consulte (Big) Datas Big Future).

Encontrar información valiosa no se trata simplemente de acumular tantos datos como sea posible, sino de encontrar los datos correctos. Es imposible resolverlo todo con procesos manuales. Esta es la razón por la cual cada vez más empresas están "recurriendo a catálogos de datos para democratizar el acceso a los datos, permitir que el conocimiento de datos tribales conserve la información, aplique políticas de datos y active todos los datos para obtener valor comercial rápidamente".

Aquí es donde entran en la imagen los catálogos de datos (a veces también conocidos como catálogos de información). Como se define aquí, capacitan a "los usuarios para explorar sus fuentes de datos requeridas y comprender las fuentes de datos exploradas, y al mismo tiempo ayudan a las organizaciones a obtener más valor de sus inversiones actuales". Una de las formas en que lo hace es al permitir un acceso mucho mayor a los datos, entre los diferentes tipos de usuarios que pueden usarlos o contribuir a ellos.

El imperativo infonómico

Al observar la gran demanda de catálogos de datos a fines de 2017, Gartner los denominó "el nuevo negro". Se estaban volviendo reconocidos como una solución rápida y económica "para inventariar y clasificar las organizaciones que distribuyen y desorganizan cada vez más los activos de datos y mapean sus cadenas de suministro de información". La necesidad de esto ha surgido debido al aumento de la "infonomía", que exige la aplicación de la misma meticulosidad para el seguimiento de la información que uno hace para administrar otros activos comerciales. (Para obtener más información sobre las cadenas de suministro, consulte Cómo el aprendizaje automático puede mejorar la eficiencia de la cadena de suministro).

Los jugadores se burlan de The Forrester Wave ™: Catálogos de datos de aprendizaje automático, segundo trimestre de 2018. Más de la mitad de los participantes de la encuesta en ese informe dijeron que estaban planeando desarrollar su implementación de catálogo de datos. Probablemente estaban motivados en gran medida por el hecho de que cada uno tenía al menos siete lagos de datos en su organización. Como explica Gartner en los catálogos de datos, los catálogos de datos son particularmente útiles para extraer "la estafa, el significado y el valor de los datos" que generalmente se deja sin clasificar en un lago de datos.

Forrester informa que más de un tercio de los tomadores de decisiones de datos y análisis estaban manejando 1,000TB o más datos en 2017, una cantidad reportada solo entre 10 y 14 por ciento el año anterior. La gestión de datos en esa escala es un desafío creciente, o específicamente, dos desafíos:

"1) fusionar los procesos comerciales existentes para obtener datos para analizarlos e implementar conocimientos y 2) obtener, recopilar, administrar y gobernar los datos a medida que crecen".

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

¿Qué pueden hacer los catálogos de datos para las empresas?

Gartner identifica formas específicas en que los catálogos de datos pueden mejorar el flujo de información y productividad de una organización:

Recopilar y comunicar el inventario de activos de información actualizada que está disponible para la organización.
Crear el glosario común de términos comerciales que define la interpretación semántica y el significado de los datos de la organización, proporcionando así los medios para mediar y resolver inconsistencias de definición.
Habilitación de un entorno de colaboración dinámico y ágil para que los colegas de negocios y TI puedan comentar, documentar y compartir datos.
Proporcionar transparencia en el uso de datos con linaje y análisis de impacto.
Monitoreo, auditoría y rastreo de datos en apoyo de los procesos de gobernanza de la información.
Captura de metadatos para mejorar el análisis interno del uso y la reutilización de datos, la optimización de consultas y la certificación de datos.
Conualizar información dentro de su uso comercial al capturar, comunicar y analizar qué datos existen, de dónde provienen, en qué contras se usan, por qué se necesitan, cómo fluyen entre procesos y sistemas, quién es responsable de ellos, qué significa y qué valor tiene.

Obtener los datos correctamente identificados y accesibles para las personas clave de la organización es importante, dice el informe de Gartner, no solo para encontrar la manera de "monetizar los activos de datos para los resultados comerciales digitales", sino para cumplir con las regulaciones, ya sea que sean de la industria. específicos como la Ley de Responsabilidad y Portabilidad del Seguro de Salud (HIPAA) o de una naturaleza más general como el Reglamento General de Protección de Datos (GDPR).

Agregar en el aprendizaje automático

Pero nada es sin sus inconvenientes. Para los catálogos de datos, el problema ha sido el lento y tedioso proceso que conlleva construirlos manualmente con todos los metadatos que deben implementarse. Aquí es donde entra el componente de aprendizaje automático.

Los catálogos de datos que evaluó Forrester se denominan MLDC porque aprovechan el poder del aprendizaje automático, uno de los componentes de la IA. Como explicó un blog de Podium Data, eso hace posible "construir un repositorio persistente de metadatos y luego aplicar ML / AI para descubrir y exponer ideas potencialmente útiles sobre los activos de datos subyacentes".

Como escoger

Para ayudar a las organizaciones a evaluar qué empresas deberían seleccionar, Forrester aplicó 29 puntos de evaluación a los 12 principales MLDC. Identificó a los líderes en este mercado como: IBM, Relito, Unifi Software, Alation y Collibra. Los buenos resultados que encontró son Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics y Cloudera. Hortonworks se encuentra solo en el rango de "contendiente".

Sin embargo, uno no debe ir solo por la clasificación general. El informe desglosa las fortalezas y debilidades particulares de cada uno. En consecuencia, si una característica particular, como la investigación y el desarrollo, es de suma importancia para una organización, puede considerar a Hortonworks como el igual de IBM y Colilbra para ese aspecto porque esos tres comparten la puntuación más alta de cinco para esa calidad, que era dos puntos mejor que Alation y Coloudera y cuatro puntos mejor que Cambridge Semantics.

En consecuencia, el informe de Forrester aconseja a quienes usan su informe como guía que no asuman que la compañía mejor clasificada es la mejor opción para todos. Deben prestar mucha atención al desglose de la evaluación para encontrar lo que cumple con sus requisitos particulares.