Hadoop operacional en la arquitectura de datos de próxima generación

Autor: Roger Morrison
Fecha De Creación: 20 Septiembre 2021
Fecha De Actualización: 1 Mes De Julio 2024
Anonim
Hadoop operacional en la arquitectura de datos de próxima generación - Tecnología
Hadoop operacional en la arquitectura de datos de próxima generación - Tecnología

Contenido



Fuente: Romeo1232 / Dreamstime.com

Para llevar:

Hadoop será un jugador clave en la arquitectura de datos de próxima generación debido a su capacidad para manejar grandes cantidades de datos.

La utilidad de Hadoop está comenzando a ir más allá del procesamiento y análisis de big data a medida que la industria le exige más. Hadoop está atendiendo constantemente los diversos requisitos relacionados con la arquitectura de datos empresariales mientras conserva sus fortalezas originales. La lista de lo que Hadoop puede hacer y está haciendo actualmente es bastante larga. Hadoop ahora puede procesar grandes volúmenes de cargas de trabajo transaccionales, una tarea que antes se esperaba de las tecnologías tradicionales. En el futuro, hay muchas posibilidades para Hadoop en el futuro. Por ejemplo, los sistemas de transacciones basados ​​en SQL pueden utilizar un motor Hadoop SQL y Hadoop también agregará muchas capacidades RDBMS. Puede decir que Hadoop se está convirtiendo en un híbrido de procesamiento de datos y capacidades analíticas con capacidades de arquitectura empresarial.


¿Qué es la arquitectura de datos de próxima generación?

En pocas palabras, la arquitectura de datos de próxima generación es una forma evolucionada de arquitectura de datos. Todo, incluidos los modelos de datos, las políticas de datos, las normas y los estándares que rigen la forma en que se recopilan, almacenan, organizan, analizan o procesan, integran, usan y distribuyen los datos, ha evolucionado bajo la arquitectura de datos de próxima generación.

La principal diferencia entre la arquitectura de datos anterior y la arquitectura de datos de próxima generación es la capacidad de esta última para recopilar, almacenar y procesar enormes volúmenes de datos, también conocidos como big data, en tiempo real. La arquitectura realiza todas estas tareas complejas sin comprometer los estándares de privacidad, seguridad y gobierno de datos.

La arquitectura de datos de próxima generación se enfrenta a muchos desafíos. No es fácil manejar el volumen, la velocidad y la variedad de big data. Agregue a eso los requisitos de optimizar la carga de trabajo del sistema, mejorar el rendimiento, la velocidad y la precisión, y la reducción de costos. Huelga decir que la arquitectura de datos anterior no tuvo que gestionar tales demandas.


Por lo tanto, los CIO y los arquitectos de información desean encontrar una solución que les ayude a alcanzar sus objetivos. Operational Hadoop ha estado enfocado durante algún tiempo en esta convención. Las siguientes secciones discutirán cómo Hadoop operacional puede resolver problemas.

Expectativas de Hadoop en la estafa de la arquitectura de próxima generación

Las empresas están bajo una presión cada vez mayor para ofrecer mejores resultados y los efectos están llegando a las expectativas puestas en las tecnologías. Por lo tanto, ya no se espera que Hadoop solo procese datos. Los CIO y CTO quieren más de Hadoop. A continuación se muestra una lista de expectativas de Hadoop. De hecho, Hadoop ya ha cumplido algunas de estas expectativas.

Se espera que Hadoop trabaje con sistemas de transacciones basados ​​en SQL y que tengan capacidades de creación, lectura, actualización y eliminación. Los sistemas de transacción aprovecharán el motor SQL. Los sistemas también tendrán compatibilidad total con la Interfaz del sistema operativo portátil (POSIX) y la capacidad de procesar grandes volúmenes de transacciones.

Se espera que Hadoop admita funciones como copia de seguridad, tolerancia a fallas, recuperación y recuperación ante desastres. Para que Hadoop evolucione a un sistema con capacidades RDBMS, debe ser compatible con las herramientas de TI existentes.

Hadoop ya está trabajando para cumplir con las expectativas, como lo demuestran algunos desarrollos. Hadoop puede proporcionar análisis en tiempo real y respuestas rápidas basadas en el soporte de gestión de recursos proporcionado por YARN. YARN es un sistema operativo distribuido a gran escala para aplicaciones de big data además de ser un administrador de recursos. Se sabe que otros desarrollos, como el de Apache Storm, arquitecturas distribuidas en memoria como Apache Spark, Apache Hive, Drill y MapR-FS (un reemplazo de HDFS de alto rendimiento) funcionan para ofrecer varias capacidades completas de base de datos, tales como respaldo, recuperación ante desastres, tolerancia a fallas, etc. (Para obtener más información sobre YARN, consulte ¿Cuáles son las ventajas del marco Hadoop 2.0 (YARN)?)

¿Qué valores puede agregar Hadoop a la arquitectura de datos de próxima generación?

Los valores operativos que Hadoop puede agregar a la arquitectura de datos de la próxima generación se pueden ver desde dos perspectivas: una, si está cumpliendo con las expectativas descritas anteriormente, y dos, si está haciendo algo adicional. A continuación se presentan los valores más destacados que puede brindar Hadoop operacional.

Hadoop ahora puede proporcionar más escalabilidad y capacidad de administración de datos dentro de su plataforma a través de HDFS. Y el sistema operativo de datos se ha habilitado a través de las aplicaciones YARN de Hadoop. Esta estrategia representa un cambio en la arquitectura de datos a un nivel fundamental. Ahora, Hadoop puede almacenar varios tipos de datos, como bases de datos orientadas a transacciones, bases de datos de gráficos y bases de datos de documentos, y se puede acceder a estos datos a través de las aplicaciones YARN. No es necesario duplicar o mover los datos a otras ubicaciones.

Rendimiento mejorado como arquitectura de datos empresariales

Operational Hadoop está en camino de convertirse en el sistema central de la arquitectura de datos empresariales. A medida que Hadoop se adentre más en la arquitectura de datos empresariales, los silos de datos se eliminarán a medida que se eliminen las líneas entre ellos. Habrá una mejora rápida en casi todos los aspectos. Las mejoras se realizarán en forma de formatos de archivo más eficientes, mejor rendimiento del motor SQL, sistemas de archivos mejorados y robustez que satisfarán las necesidades de las aplicaciones empresariales.

Diferencia entre Hadoop y otras tecnologías

En el pasado, la principal diferencia entre Hadoop y las tecnologías empresariales de datos era el procesamiento de big data, las capacidades de informes y análisis de Hadoop. Ahora, a medida que Hadoop operacional se convierte cada vez más en una parte de la arquitectura de datos empresariales, la diferencia entre las entidades se vuelve cada vez más borrosa. Por lo tanto, Hadoop operacional se está convirtiendo en una alternativa superior a la arquitectura de datos empresariales existente.

Conclusión

Dadas las expectativas y el progreso, Hadoop se centrará en la industria durante bastante tiempo. Pero tiene sentido no centrarse demasiado en Hadoop y simplemente ignorar otras tecnologías. Esto se debe a que otras tecnologías avanzarán en los mismos parámetros e incluso podrían superar a Hadoop. Nunca es bueno tener el monopolio en el mercado. Es bueno que los fabricantes de otras tecnologías que Hadoop estén motivados para ofrecer mejores productos e incluso complementos que ayuden a Hadoop a mejorar su rendimiento.