¿Qué es exactamente Hadoop? La teoría de un cínico

Autor: Eugene Taylor
Fecha De Creación: 7 Agosto 2021
Fecha De Actualización: 11 Mayo 2024
Anonim
¿Qué es exactamente Hadoop? La teoría de un cínico - Tecnología
¿Qué es exactamente Hadoop? La teoría de un cínico - Tecnología

Contenido


Para llevar:

¿Es Hadoop todo lo que se espera que sea? Algunas personas tienen sus dudas ...

Cualquier cosa que parezca demasiado buena para ser verdad generalmente lo es. Tal podría ser el caso de Apache Hadoop, el proyecto de código abierto muy popular del que todos siguen hablando. Entonces, ¿qué es exactamente esto? ¡Buena pregunta!

Expertos dudosos

El analista Mark Madsen de Third Nature lo clavó en la pared hace un tiempo en una pieza concisa en InsideAnalysis.com: "Qué es Hadoop. Qué no es Hadoop". Como alguien que sabe cómo diseñar soluciones del mundo real y luego implementarlas, su consejo no debe ser ignorado.

Pero hay una corriente más profunda que fluye aquí, y es hora de descubrir las raíces de esta fascinante flora, para ver si no podemos obtener alguna perspectiva sobre lo que está sucediendo a un nivel más macro. Después de todo, los vendedores siguen diciendo que es un gran problema, y ​​hay tantos participantes.

¡Emplea a los encargados! (?)

Actualmente, tres compañías poseen la mayoría del mercado naciente de Hadoop: Cloudera, Hortonworks y MapR. En una sesión informativa reciente y bastante polémica a través de Boulder BI Brain Trust (#BBBT), Jim Walker de Hortonworks hizo este curioso comentario:

"¡No puedes avanzar la tecnología si no empleas a los encargados!"

¿Llegar de nuevo?

¿No suena esto como algo que el senador Palpatine podría decir en una película de Star Wars?

Senador Palpatine: "¡Empleen a los encargados!"
Minion cercano: "¡Pero, señor! ¡Piense en los niños!"

Para los profanos que simplemente intentan hacer las cosas, los encargados son personas que se dedican a un proyecto particular de código abierto. La Fundación Apache tiene protocolos estrictos mediante los cuales sus proyectos avanzan, lo que a menudo es algo bueno.

Dicho esto, el comentario de Walkers justifica el examen. Una pregunta puntual (a riesgo de conjurar días de juegos) sería: ¿Es eso una promesa o una amenaza? ¿Está diciendo que Hortonworks podría tomar su pelota e irse a casa?

¿Cooperación o competencia?

El ángulo interesante aunque paradójico aquí es que, según los informes, la mayoría de los encargados del equipo de Hadoop (unos 30 en total) son de Hortonworks y Cloudera, que son competidores. Este es un caso muy curioso de competencia.

Entonces, ¿cuál es el trato? Aquí hay una suposición educada: Hadoop debe su fama a un plan inteligente concebido por un grupo de capitalistas de riesgo e ingenieros de Silicon Valley que esencialmente están tratando de cubrir sus apuestas contra Oracle.

La idea general es sembrar el mercado con una base de código que pueda ser mejorada y reforzada por una flota irregular de desarrolladores que idealmente, con el tiempo, crearán todo tipo de herramientas de administración de datos, incluidos productos de bases de datos. Los VC pueden invertir y cobrar algún día. Pero hay algunos desafíos serios en juego.

Como todas las empresas monolíticas, Oracle a menudo se encuentra en la mira de muchos jugadores más pequeños. ¿Y quién no querría solo una porción de sus ingresos paralizantes? Solo en el último trimestre, Oracle reservó ~ $ 9 mil millones. Pero desafiar a Big Red y vencerlos son dos realidades muy diferentes.


Problemas de embalaje

Lo que pasa con Hadoop, per se, es que no es una solución empaquetada de ninguna manera. Más bien, es una colección compleja de módulos que permiten a los programadores de alta calidad aprovechar algoritmos masivos de procesamiento paralelo para hacer cosas muy específicas. Pero no hay una interfaz de usuario elegante, y los manuales son brutales.

Agregue a ese desafío este obstáculo crítico: también necesita personas de negocios que tengan al menos un conocimiento general de lo que puede hacer. Esas personas deben ser capaces de evocar ideas sobre cómo se puede usar, y luego comunicarse con los desarrolladores, quienes posteriormente deben producir, probar, implementar y apoyar aplicaciones.

Orquestando este baile es cómo Cloudera y Hortonworks hacen gran parte de su dinero. El problema es que la mayoría de las soluciones creadas a través de este método son únicas y, por lo general, se centran en sistemas operativos en lugar de analíticos. ¿Traducción? Cosas así no se prestan realmente a productos de software empaquetados.

Rentabilidad de embalaje!

Lo que nos lleva de vuelta a Oracle. Larry Ellison y los chicos hacen su heno vendiendo tecnología de bases de datos, hardware, servicios y (esperen ...) software empaquetado. Al parecer, Cloudera descubrió esto, de ahí su enfoque en Impala. Pero Hortonworks?

Su modelo parece imitar más de cerca al de RedHat, la gente que construyó un negocio de miles de millones de dólares sobre el sistema operativo Linux. Ni uno de los principales proveedores de la industria del software empresarial no escribe para Linux, el sistema operativo por el cual IBM se enfrentó a Microsoft en el momento. Pero Hadoop no es Linux, ni mucho menos.

El Dr. Geoffrey Malafsky, ex nanotecnólogo de la Marina de los EE. UU., Ahora científico de datos de Phasic Systems y del Instituto PSIKORS, destila la propuesta de valor de Hadoop de esta manera:

    "Hadoop es excelente para la búsqueda, análisis de tendencias muy grandes para resultados estocásticos, y probablemente un procesamiento paralelo inteligente muy barato de cosas como solía hacer mi ex esposa: cálculo de la función de onda mecánica cuántica de estado sólido y reacciones químicas. Esta ciencia real se basa en supercomputadoras y se movió un poco hacia el procesamiento paralelo, pero es un cambio difícil de enfoque de programación. Jóvenes, inteligentes, enérgicos y graduados estudiantes serán los que harán que esto suceda. Sospecho que las becas de investigación comienzan a ir en esta dirección para algunos computacionales de alto poder aplicaciones ".

Notarás que no suena nada como el almacenamiento de datos, inteligencia empresarial, integración de datos o incluso big data. Suena como supercomputación. Y por alguna razón interesante, los mundos de la informática de alto rendimiento y la inteligencia empresarial nunca han chocado ni se han fusionado de ninguna manera significativa.

Largo camino por delante para Hortonworks y Cloudera

Y aquí están las malas noticias para Hortonworks y posiblemente para Cloudera. Los grandes vendedores como IBM y SAP y Oracle y Teradata, para decirlo suavemente y citar a Dire Straits: "¡Ellos no son tontos!" Hace tres años y más, todos ellos implementaron estrategias serias de Hadoop.

Lo central de estos planes son los tipos de cosas que los usuarios de negocios esperan: interfaces gráficas de usuario, funcionalidad de arrastrar y soltar, herramientas de modelado y descubrimiento, flujo de trabajo, gobierno, seguridad; en resumen, todas las partes que hacen que el software empresarial sea utilizable. Y, por supuesto, estos grandes proveedores tienen bases de instalación masivas.

Sin duda, Cloudera y Hortonworks han logrado buenos negocios, pero solo una pequeña fracción de lo que obtienen esos jugadores importantes cada año. Haga los cálculos sobre cuánto cobran los retadores a sus clientes, en comparación con cuánto es probable que sus gastos generales sean, y la imagen no es tan optimista. De acuerdo, eso es normal para el curso con problemas de software en la etapa inicial, pero aún así ...

El futuro de Hadoop?

Entonces, ¿podríamos ver la ola clásica de adquisiciones, como lo habíamos hecho en el pasado, cuando IBM compró Cognos, Oracle consiguió Hyperion y SAP atrapó BusinessObjects? Quizás, pero los nuevos niños en este bloque no son dueños de Hadoop; solo lo toman prestado. Y por muy prometedores que sean YARN y Tez, los ciclos de lanzamiento parecen estar rezagados con respecto a lo que producen los grandes bateadores.

El otro día, un experto de la industria comentó que la política en Apache puede ser un serio cuello de botella. Esto no es terriblemente sorprendente, especialmente cuando se consideran los dólares involucrados: hay una gran motivación para que los innovadores se hagan ricos. ¿Y alguien ha notado cómo Chrome parece haber superado a Firefox en funcionalidad y operatividad últimamente? Fuente cerrada, alguien?

Una cosa es segura: este juego se desarrollará de maneras interesantes. Sí, los mamíferos (léase: pequeños vendedores) a menudo pueden escapar de los dinosaurios; pero todavía hay caimanes y cocodrilos en todo el mundo; y si te topas con uno desprevenido, podrías descubrir cuán afilados pueden ser esos dientes. Unos pocos cocodrilos juntos podrían incluso derribar un elefante o dos.