Los 10 términos más importantes de Hadoop que necesita saber y comprender

Contenido

Pero primero, un vistazo a cómo funciona Hadoop
Hadoop Common
Sistema de archivos distribuidos de Hadoop (HDFS)
Mapa reducido
HBase
Colmena
Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida
Cerdo apache
Apache Spark
Apache Cassandra
Otro negociador de recursos (HILO)
Impala

Fuente: Trueffelpix / Dreamstime.com

Para llevar:

Para comprender realmente los grandes datos, debe comprender un poco sobre Hadoop y el lenguaje que lo rodea.

Big data, el nombre atractivo para grandes volúmenes de datos estructurados, no estructurados o semiestructurados, es notoriamente difícil de capturar, almacenar, administrar, compartir, analizar y visualizar, al menos utilizando bases de datos tradicionales y aplicaciones de software. Es por eso que las tecnologías de big data tienen el potencial de administrar y procesar grandes volúmenes de datos de manera efectiva y eficiente. Y su Apache Hadoop que proporciona el marco y las tecnologías asociadas para procesar grandes conjuntos de datos en grupos de computadoras de manera distribuida. Por lo tanto, para comprender realmente los grandes datos, debe comprender un poco sobre Hadoop. Aquí eche un vistazo a los términos principales que escuchará con respecto a Hadoop, y lo que significan.

Pero primero, un vistazo a cómo funciona Hadoop

Antes de ingresar al ecosistema Hadoop, debe comprender dos cosas fundamentales con claridad. El primero es cómo se almacena un archivo en Hadoop; el segundo es cómo se procesan los datos almacenados. Todas las tecnologías relacionadas con Hadoop trabajan principalmente en estas dos áreas y lo hacen más fácil de usar. (Obtenga los conceptos básicos de cómo funciona Hadoop en Cómo ayuda Hadoop a resolver el problema de Big Data).

Ahora, a los términos.

Hadoop Common

El marco Hadoop tiene diferentes módulos para diferentes funcionalidades y estos módulos pueden interactuar entre sí por varias razones. Hadoop Common se puede definir como una biblioteca de utilidades comunes para admitir estos módulos en el ecosistema de Hadoop. Estas utilidades son básicamente archivos archivados (JAR) basados en Java. Estas utilidades son utilizadas principalmente por programadores y desarrolladores durante el tiempo de desarrollo.

Sistema de archivos distribuidos de Hadoop (HDFS)

El Sistema de archivos distribuidos de Hadoop (HDFS) es un subproyecto de Apache Hadoop bajo la Apache Software Foundation. Esta es la columna vertebral del almacenamiento en el marco de Hadoop. Es un sistema de archivos distribuido, escalable y tolerante a fallas que se extiende a través de hardware de múltiples productos conocidos como el clúster Hadoop. El objetivo de HDFS es almacenar un gran volumen de datos de manera confiable con acceso de alto rendimiento a los datos de la aplicación. El HDFS sigue la arquitectura maestro / esclavo, donde el maestro se conoce como NameNode y los esclavos se conocen como DataNodes.

Mapa reducido

Hadoop MapReduce también es un subproyecto de la Apache Software Foundation. MapReduce es en realidad un marco de software puramente escrito en Java. Su objetivo principal es procesar grandes conjuntos de datos en un entorno distribuido (compuesto por hardware básico) de una manera completamente paralela. El marco gestiona todas las actividades, como la programación del trabajo, el monitoreo, la ejecución y la re-ejecución (en el caso de tareas fallidas).

HBase

Apache HBase se conoce como la base de datos Hadoop. Es un almacén de big data columnar, distribuido y escalable. También se conoce como un tipo de base de datos NoSQL que no es un sistema de gestión de bases de datos relacionales. Las aplicaciones HBase también están escritas en Java, construidas sobre Hadoop y se ejecutan en HDFS. HBase se utiliza cuando necesita lectura / escritura en tiempo real y acceso aleatorio a big data. HBase está modelado en base a los conceptos de Google BigTable.

Colmena

Apache Hive es un sistema de software de almacenamiento de datos de código abierto. Hive fue desarrollado originalmente por antes de estar bajo la Apache Software Foundation y se convirtió en código abierto. Facilita la gestión y consulta de grandes conjuntos de datos en almacenamiento distribuido compatible con Hadoop. Hive realiza todas sus actividades mediante el uso de un lenguaje similar a SQL conocido como HiveQL. (Obtenga más información en una breve introducción a Apache Hive and Pig).

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

Cerdo apache

Originalmente, Pig inició Yahoo para desarrollar y ejecutar trabajos de MapReduce en un gran volumen de datos distribuidos. Ahora se ha convertido en un proyecto de código abierto bajo la Apache Software Foundation. Apache Pig se puede definir como una plataforma para analizar conjuntos de datos muy grandes de manera eficiente. La capa de infraestructura de cerdos produce secuencias de trabajos de MapReduce para realizar el procesamiento real. La capa de lenguaje Pigs se conoce como Pig Latin y proporciona características similares a SQL para realizar consultas en conjuntos de datos distribuidos.

Apache Spark

Spark fue desarrollado originalmente por AMPLab en UC Berkeley. Se convirtió en un proyecto de nivel superior de Apache en febrero de 2014. Apache Spark se puede definir como un marco de cómputo de código abierto, de propósito general, que hace que el análisis de datos sea mucho más rápido. Está construido sobre el Sistema de archivos distribuidos de Hadoop, pero no está vinculado con el marco de MapReduce. El rendimiento de Sparks es mucho más rápido en comparación con MapReduce. Proporciona API de alto nivel en Scala, Python y Java.

Apache Cassandra

Apache Cassandra es otra base de datos NoSQL de código abierto. Cassandra se usa ampliamente para administrar grandes volúmenes de tramos de datos estructurados, semiestructurados y no estructurados en múltiples centros de datos y almacenamiento en la nube. Cassandra está diseñada en base a una arquitectura "sin maestro", lo que significa que no es compatible con el modelo maestro / esclavo. En esta arquitectura, todos los nodos son iguales y los datos se distribuyen de forma automática e igualitaria en todos los nodos. Las características más importantes de Cassandra son disponibilidad continua, escalabilidad lineal, replicación incorporada / personalizable, ningún punto único de falla y simplicidad operativa.

Otro negociador de recursos (HILO)

Otro negociador de recursos (YARN) también se conoce como MapReduce 2.0, pero en realidad se encuentra en Hadoop 2.0. YARN se puede definir como un marco de trabajo de programación y gestión de recursos. La idea básica de YARN es reemplazar las funcionalidades de JobTracker por dos demonios separados responsables de la gestión de recursos y la programación / monitoreo. En este nuevo marco, habrá un ResourceManager (RM) global y un maestro específico de la aplicación conocido como ApplicationMaster (AM). El ResourceManager global (RM) y el NodeManager (por nodo esclavo) forman el marco de cálculo de datos real. Las aplicaciones MapReduce v1 existentes también se pueden ejecutar en YARN, pero esas aplicaciones deben volver a compilarse con los tarros Hadoop2.x.

Impala

Impala se puede definir como un motor de consulta SQL con potencia de procesamiento paralelo masivo (MPP). Se ejecuta de forma nativa en el framework Apache Hadoop. Impala está diseñado como parte del ecosistema Hadoop. Comparte el mismo sistema de archivos flexible (HDFS), metadatos, gestión de recursos y marcos de seguridad que otros componentes del ecosistema de Hadoop. El punto más importante es tener en cuenta que Impala es mucho más rápido en el procesamiento de consultas en comparación con Hive. Pero también debemos recordar que Impala está destinado a consultas / análisis en un pequeño conjunto de datos, y está diseñado principalmente como una herramienta de análisis que funciona en datos procesados y estructurados.

Hadoop es un tema importante en TI, pero hay quienes son escépticos sobre su viabilidad a largo plazo. Lea más en ¿Qué es Hadoop? Una teoría cínica.