Apache Spark

Autor: Eugene Taylor
Fecha De Creación: 8 Agosto 2021
Fecha De Actualización: 1 Mes De Julio 2024
Anonim
Что такое Apache Spark
Video: Что такое Apache Spark

Contenido

Definición - ¿Qué significa Apache Spark?

Apache Spark es un programa de código abierto utilizado para el análisis de datos. Forma parte de un conjunto de herramientas más amplio, que incluye Apache Hadoop y otros recursos de código abierto para la comunidad analítica actual.


Los expertos describen este software de código abierto relativamente nuevo como una herramienta informática de clúster de análisis de datos. Se puede usar con el Sistema de archivos distribuidos de Hadoop (HDFS), que es un componente particular de Hadoop que facilita el manejo complicado de archivos.

Algunos profesionales de TI describen el uso de Apache Spark como un posible sustituto del componente Apache Hadoop MapReduce. MapReduce también es una herramienta de agrupación que ayuda a los desarrolladores a procesar grandes conjuntos de datos. Quienes entienden el diseño de Apache Spark señalan que, en algunas situaciones, puede ser muchas veces más rápido que MapReduce.

Una introducción a Microsoft Azure y la nube de Microsoft | A lo largo de esta guía, aprenderá de qué se trata la computación en la nube y cómo Microsoft Azure puede ayudarlo a migrar y administrar su negocio desde la nube.

Techopedia explica Apache Spark

Aquellos que informan sobre el uso moderno de Apache Spark muestran que las empresas lo están utilizando de varias maneras. Un uso común es agregar datos y estructurarlos de formas más refinadas. Apache Spark también puede ser útil con el trabajo analítico de aprendizaje automático o la clasificación de datos.


Por lo general, las organizaciones enfrentan el desafío de refinar los datos de una manera eficiente y algo automatizada, donde Apache Spark puede usarse para este tipo de tareas. Algunos también implican que el uso de Spark puede ayudar a proporcionar acceso a aquellos que tienen menos conocimientos sobre programación y desean involucrarse en el manejo de análisis.

Apache Spark incluye API para Python y lenguajes de software relacionados.