¿Cuáles son las ventajas del marco Hadoop 2.0 (YARN)?

Autor: Roger Morrison
Fecha De Creación: 18 Septiembre 2021
Fecha De Actualización: 1 Mes De Julio 2024
Anonim
¿Cuáles son las ventajas del marco Hadoop 2.0 (YARN)? - Tecnología
¿Cuáles son las ventajas del marco Hadoop 2.0 (YARN)? - Tecnología

Contenido


Fuente: Jim Hughes / Dreamstime.com

Para llevar:

YARN es una mejora significativa sobre el marco Hadoop 1.0. Aquí examinamos algunas de las ventajas que tiene sobre su predecesor.

Desde el momento en que se introdujo el concepto de big data, ha pasado por múltiples fases de evolución. Hadoop se introdujo en 2005 con algunas características iniciales, como el motor de procesamiento MapReduce que permitía cargas de trabajo de procesamiento de datos a gran escala distribuidas en grupos. Hadoop ha experimentado muchos cambios y ha desarrollado marcos y métodos avanzados.

YARN es un componente central de Hadoop 2.0. Básicamente gestiona los recursos en un entorno agrupado. El agente de YARN interactúa con los recursos informáticos (en nombre de las aplicaciones) y asigna recursos a cada aplicación en función de diferentes criterios de filtrado.

En este artículo, veremos las principales ventajas de YARN sobre Hadoop 1.0.


¿Qué es el marco YARN?

Yet UNAno ella Rfuente norteegotiator es un componente central de Hadoop 2.0, que gestiona recursos en un entorno agrupado. El marco HAROP YARN es una versión avanzada de Hadoop 1.0 que proporciona un rendimiento mejorado, lo que es beneficioso para el ecosistema Hadoop y toda la gama de tecnologías asociadas a él. Ahora que estamos un poco más familiarizados con YARN, echemos un vistazo más de cerca a Hadoop 1.0 y YARN.

Limitaciones del Framework Hadoop 1.0

Para comprender las ventajas del marco YARN, es muy importante comprender cómo funciona Hadoop 1.0 y cuáles son las limitaciones de este marco.

Aquí es donde entra el rol de JobTracker. Gestiona los recursos del clúster y determina la ejecución del trabajo MapReduce. En pocas palabras, JobTracker programa y reserva los espacios de tareas, y configura y monitorea cada tarea en ejecución. Si una tarea falla, reasigna una nueva ranura para que la tarea comience nuevamente. Una vez que finaliza una tarea, JobTracker libera el espacio para otras tareas y limpia los recursos temporales.


Principales inconvenientes del enfoque anterior:

  • Disponibilidad: JobTracker es el único punto de disponibilidad en Hadoop 1.0. Esto significa que si JobTracker falla, todas las tareas se reiniciarán de manera predeterminada.
  • Escalabilidad limitada: dado que JobTracker realiza múltiples tareas y se ejecuta en una sola máquina, las otras máquinas disponibles no se están utilizando; por lo tanto, dando como resultado una escalabilidad limitada.
  • Utilización de recursos: en el enfoque anterior, los espacios del mapa y los espacios reducidos están predefinidos. Puede suceder que una de las ranuras esté llena pero las otras ranuras de la máquina estén vacías. Como los espacios vacíos están reservados, permanecerán inactivos en lugar de comprometer los espacios completos. Esto podría causar un problema de utilización de recursos.
  • Ejecución de aplicaciones que no son de MapReduce: JobTracker es una aplicación creada para el marco de MapReduce. El problema surge cuando una aplicación que no es MapReduce intenta ejecutarse en este marco. La aplicación debe ajustarse a la programación del marco MapReduce para ejecutarse con éxito. Algunos de los problemas comunes que se enfrentan debido a esto incluyen problemas con:
    • Consulta ad-hoc
    • Análisis en tiempo real
    • enfoque de paso
  • Falla en cascada: uno de los principales problemas en este marco ocurre cuando el número de nodos es mayor a 4000. En tal escenario, se produce una falla en cascada, lo que resulta en el deterioro del clúster completo.

Estas son algunas de las principales limitaciones que se enfrentan al trabajar con este marco. También hay algunas otras limitaciones menores, que no se mencionan. El marco YARN se introdujo para superar estas limitaciones.

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

Marco YARN y sus ventajas

El marco YARN, introducido en Hadoop 2.0, está destinado a compartir las responsabilidades de MapReduce y encargarse de la tarea de gestión del clúster. Esto permite que MapReduce ejecute solo el procesamiento de datos y, por lo tanto, agilice el proceso.

YARN aporta el concepto de una gestión central de recursos. Esto permite que múltiples aplicaciones se ejecuten en Hadoop, compartiendo una administración de recursos común.

Algunos de los componentes principales del marco YARN son:

  • ResourceManager: el componente ResourceManager es el negociador en un clúster para todos los recursos presentes en ese clúster. Además, este componente se clasifica en un administrador de aplicaciones que se encarga de administrar los trabajos de los usuarios. Desde Hadoop 2.0, cualquier trabajo de MapReduce se considerará como una aplicación.
  • ApplicationMaster: este componente es el lugar en el que existe un trabajo o una aplicación. También administra todos los trabajos de MapReduce y concluye después de que se completa el procesamiento del trabajo.
  • NodeManager: el componente del administrador de nodos actúa como el servidor para el historial de trabajos. Es responsable de asegurar la información de los trabajos completados. También realiza un seguimiento de los trabajos de los usuarios junto con su flujo de trabajo para un nodo en particular.

Teniendo en cuenta que el marco YARN tiene diferentes componentes para administrar las diferentes tareas, veamos cómo contrarresta las limitaciones de Hadoop 1.0.

  • Mejor utilización de los recursos: el marco YARN no tiene espacios fijos para las tareas. Proporciona un administrador de recursos central que le permite compartir múltiples aplicaciones a través de un recurso común.
  • Ejecución de aplicaciones que no son de MapReduce: en YARN, las capacidades de programación y gestión de recursos están separadas del componente de procesamiento de datos. Esto permite que Hadoop ejecute diversos tipos de aplicaciones que no se ajustan a la programación del marco Hadoop. Los clústeres de Hadoop ahora son capaces de ejecutar consultas interactivas independientes y realizar un mejor análisis en tiempo real.
  • Compatibilidad con versiones anteriores: YARN viene como un marco compatible con versiones anteriores, lo que significa que cualquier trabajo existente de MapReduce se puede ejecutar en Hadoop 2.0.
  • JobTracker ya no existe: las dos funciones principales de JobTracker eran la gestión de recursos y la programación de trabajos. Con la introducción del marco YARN, ahora se segregan en dos componentes separados, a saber:
    • NodeManager
    • Administrador de recursos

Conclusión

La introducción del marco YARN ha facilitado la creación de aplicaciones para desarrolladores de Hadoop. Ahora, ya no se requiere que las aplicaciones se implementen con herramientas de terceros. YARN es un gran cambio que permitirá a los usuarios considerar Hadoop 2.0 para crear aplicaciones y manipular datos de manera más efectiva. Con el tiempo, habrá más desarrollos para mejorar la usabilidad de Hadoop. Por ahora, el marco YARN desempeñará un papel crucial en el tratamiento de los problemas existentes y en la creación de un entorno sin complicaciones que sea más versátil que la versión anterior del modelo MapReduce.