Kudu: ¿Un cambio de juego en el ecosistema de Hadoop?

Contenido

¿Qué es el kudu?
¿Cuál es el estado actual de Kudus?
¿Cómo puede Kudu complementar HDFS / HBase?
Características del marco Kudu
¿Cómo puede Kudu cambiar el ecosistema de Hadoop?
Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida
Conclusión

Fuente: Agsandrew / Dreamstime.com

Para llevar:

Kudu es un proyecto de código abierto que ayuda a administrar el almacenamiento de manera más eficiente.

Kudu es un nuevo proyecto de código abierto que proporciona almacenamiento actualizable. Es un complemento de HDFS / HBase, que proporciona almacenamiento secuencial y de solo lectura. Kudu es más adecuado para el análisis rápido de datos rápidos, que actualmente es la demanda de las empresas. Entonces, Kudu no es solo otro proyecto del ecosistema de Hadoop, sino que tiene el potencial de cambiar el mercado. (Para obtener más información sobre Hadoop, consulte Los 10 términos más importantes de Hadoop que necesita saber y comprender).

¿Qué es el kudu?

Kudu es un tipo especial de sistema de almacenamiento que almacena datos estructurados en forma de tablas. Cada tabla tiene números de columnas que están predefinidas. Cada uno de ellos tiene una clave primaria que en realidad es un grupo de una o más columnas de esa tabla. Esta clave primaria está hecha para agregar una restricción y asegurar las columnas, y también funciona como un índice, lo que permite una fácil actualización y eliminación. Estas tablas son una serie de subconjuntos de datos llamados tabletas.

¿Cuál es el estado actual de Kudus?

Kudu está muy bien desarrollado y ya cuenta con muchas funciones. Sin embargo, todavía necesitará algo de pulido, lo que se puede hacer más fácilmente si los usuarios sugieren y hacen algunos cambios.

Kudu es completamente de código abierto y tiene la licencia de software Apache 2.0. También está destinado a ser enviado a Apache, para que pueda desarrollarse como un proyecto de Apache Incubator. Esto permitirá que su desarrollo progrese aún más rápido y aumente aún más su audiencia. Después de un cierto período de tiempo, el desarrollo de Kudu se realizará de manera pública y transparente. Muchas compañías como AtScale, Xiaomi, Intel y Splice Machine se han unido para contribuir en el desarrollo de Kudu. Kudu también tiene una gran comunidad, donde un gran número de audiencias ya están proporcionando sus sugerencias y contribuciones. Entonces, son las personas las que están impulsando el desarrollo de Kudu.

¿Cómo puede Kudu complementar HDFS / HBase?

Kudu no está destinado a ser un reemplazo para HDFS / HBase. En realidad, está diseñado para admitir tanto HBase como HFDS y ejecutarse junto a ellos para aumentar sus funciones. Esto se debe a que HBase y HDFS todavía tienen muchas características que los hacen más potentes que Kudu en ciertas máquinas. En general, tales máquinas obtendrán más beneficios de estos sistemas.

Características del marco Kudu

Las características principales del marco Kudu son las siguientes:

Escaneos extremadamente rápidos de las columnas de la tabla: los mejores formatos de datos como Parquet y ORCFile necesitan los mejores procedimientos de escaneo, que Kudu aborda perfectamente. Dichos formatos necesitan escaneos rápidos que pueden ocurrir solo cuando los datos en columnas están codificados correctamente.
Confiabilidad del rendimiento: el marco Kudu aumenta la confiabilidad general de Hadoop al cerrar muchas de las lagunas y lagunas presentes en Hadoop.
Fácil integración con Hadoop: Kudu se puede integrar fácilmente con Hadoop y sus diferentes componentes para una mayor eficiencia.
Código completamente abierto: Kudu es un sistema de código abierto con la licencia Apache 2.0. Tiene una gran comunidad de desarrolladores de diferentes compañías y antecedentes, que lo actualizan regularmente y proporcionan sugerencias para los cambios.

¿Cómo puede Kudu cambiar el ecosistema de Hadoop?

Kudu fue construido para adaptarse al ecosistema de Hadoop y mejorar sus características. También puede integrarse con algunos de los componentes clave de Hadoop como MapReduce, HBase y HDFS. Los trabajos de MapReduce pueden proporcionar datos o tomar datos de las tablas de Kudu. Estas características también se pueden usar en Spark. Una capa especial hace que algunos componentes de Spark como Spark SQL y DataFrame sean accesibles para Kudu. Aunque Kudu no se ha desarrollado tanto como para reemplazar estas características, se estima que después de unos años, se desarrollará lo suficiente como para hacerlo. Hasta entonces, la integración entre Hadoop y Kudu es realmente muy útil y puede llenar los principales vacíos del ecosistema de Hadoop. (Para obtener más información sobre Apache Spark, consulte Cómo Apache Spark ayuda al desarrollo rápido de aplicaciones).

Kudu se puede implementar en una variedad de lugares. Algunos ejemplos de tales lugares se dan a continuación:

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

Transmisión de entradas en tiempo casi real: en lugares donde las entradas deben recibirse lo antes posible, Kudu puede hacer un trabajo notable. Un ejemplo de tal lugar es en las empresas, donde grandes cantidades de datos dinámicos inundan desde diferentes fuentes, y deben estar disponibles rápidamente en tiempo real.
Aplicaciones de series de tiempo con patrones de acceso variables: Kudu es perfecto para aplicaciones basadas en series de tiempo porque es más sencillo configurar tablas y escanearlas usándolas. Un ejemplo de ese uso es en los grandes almacenes, donde los datos antiguos deben encontrarse rápidamente y procesarse para predecir la futura popularidad de los productos.
Sistemas heredados: muchas empresas que obtienen datos de varias fuentes y las almacenan en diferentes estaciones de trabajo se sentirán como en casa con Kudu. Kudu es extremadamente rápido y puede integrarse efectivamente con Impala para procesar datos en todas las máquinas.
Modelado predictivo: los científicos de datos que desean una buena plataforma para modelar pueden usar Kudu. Kudu puede aprender de cada conjunto de datos que ingresa. El científico puede ejecutar y volver a ejecutar el modelo repetidamente para ver qué sucede.

Conclusión

Aunque Kudu aún se encuentra en la etapa de desarrollo, tiene el potencial suficiente para ser un buen complemento para componentes estándar de Hadoop como HDFS y HBase. Tiene el potencial suficiente para cambiar completamente el ecosistema de Hadoop al completar todos los vacíos y también agregar algunas características más. También es muy rápido y potente y puede ayudar a analizar y almacenar rápidamente tablas de datos de gran tamaño. Sin embargo, todavía queda algo de trabajo por hacer para que se use de manera más eficiente.