Big Data en la nube: ¿cuán seguros son nuestros datos?

Contenido

Problemas de seguridad en marcos de programación distribuida
Problemas de registro de datos y transacciones
Problemas de validación de datos
Monitoreo de seguridad de Big Data en tiempo real
Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida
Estrategias para enfrentar las amenazas de seguridad
Mejora de la confiabilidad en los marcos de programación distribuida
Políticas sólidas de protección de datos
Análisis
Detectar valores atípicos mientras recopila datos
Conclusión

Fuente: Cuteimage / Dreamstime.com

Para llevar:

Explore las mayores amenazas a los grandes datos en la nube y aprenda formas de protegerse contra ellos.

El volumen de big data está aumentando enormemente día a día. De 2,500 exabytes en 2012, se espera que el big data aumente a 40,000 exabytes en 2020. Por lo tanto, el almacenamiento de datos es un desafío serio que solo la infraestructura de la nube es capaz de manejar. La nube se ha convertido en una opción popular principalmente debido a su enorme capacidad de almacenamiento y sus términos y condiciones de uso que no imponen ninguna obligación al suscriptor. El almacenamiento en la nube se puede ofrecer en forma de suscripciones y servicios que duran un período predeterminado. Después de eso, no hay obligación por parte del cliente de renovarlo.

Sin embargo, almacenar grandes datos en la nube abre nuevos desafíos de seguridad que no se pueden enfrentar con las medidas de seguridad adoptadas para los datos regulares y estáticos. Aunque el big data no es un concepto novedoso, su recolección y uso ha comenzado a acelerarse solo en los últimos años. En el pasado, el almacenamiento y análisis de big data se limitaba solo a las grandes corporaciones y al gobierno que podían permitirse la infraestructura necesaria para el almacenamiento de datos y la minería. Dicha infraestructura era propietaria y no estaba expuesta a redes generales. Sin embargo, Big Data ahora está disponible de forma económica para todo tipo de empresas a través de la infraestructura de nube pública. Como resultado, han surgido nuevas y sofisticadas amenazas de seguridad que continúan multiplicándose y evolucionando.

Problemas de seguridad en marcos de programación distribuida

Los marcos de programación distribuidos procesan big data con cómputo paralelo y técnicas de almacenamiento. En tales marcos, los mapeadores no autenticados o modificados, que dividen las tareas enormes en subtareas más pequeñas para que las tareas se puedan agregar para crear un resultado final, pueden comprometer los datos. Los nodos de trabajo defectuosos o modificados, que toman entradas del mapeador para ejecutar las tareas, pueden comprometer los datos al tocar la comunicación de datos entre el mapeador y otros nodos de trabajo. Los nodos de trabajo no autorizados también pueden crear copias de nodos de trabajo legítimos. El hecho de que sea extremadamente difícil identificar mapeadores o nodos deshonestos en un marco tan grande hace que garantizar la seguridad de los datos sea aún más desafiante.

La mayoría de los marcos de datos basados en la nube usan la base de datos NoSQL. La base de datos NoSQL es beneficiosa para manejar grandes conjuntos de datos no estructurados, pero desde una perspectiva de seguridad, está mal diseñada. NoSQL fue diseñado originalmente sin casi ninguna consideración de seguridad en mente. Una de las mayores debilidades de NoSQL es la integridad transaccional. Tiene mecanismos de autenticación deficientes, lo que lo hace vulnerable a ataques intermedios o de repetición. Para empeorar las cosas, NoSQL no admite la integración de módulos de terceros para fortalecer los mecanismos de autenticación. Como los mecanismos de autenticación son bastante laxos, los datos también están expuestos a ataques internos. Los ataques podrían pasar desapercibidos y sin seguimiento debido a la falta de registro y los mecanismos de análisis de registro.

Problemas de registro de datos y transacciones

Los datos generalmente se almacenan en medios de almacenamiento de varios niveles. Es relativamente fácil rastrear datos cuando el volumen es relativamente pequeño y estático. Pero cuando el volumen aumenta exponencialmente, se emplean soluciones de nivelación automática. Las soluciones de niveles automáticos almacenan datos en diferentes niveles pero no rastrean las ubicaciones. Este es un problema de seguridad. Por ejemplo, una organización puede tener datos confidenciales que rara vez se usan. Sin embargo, las soluciones de niveles automáticos no distinguirán entre datos confidenciales y no confidenciales y solo almacenarán los datos de acceso poco frecuente en el nivel más bajo. Los niveles más bajos tienen la seguridad más baja disponible.

Problemas de validación de datos

En una organización, se pueden recopilar grandes datos de varias fuentes que incluyen dispositivos de punto final, como aplicaciones de software y dispositivos de hardware. Es un gran desafío garantizar que los datos recopilados no sean maliciosos. Cualquier persona con intenciones maliciosas puede alterar el dispositivo que proporciona datos o la aplicación que recopila datos. Por ejemplo, un pirata informático puede provocar un ataque de Sybil en un sistema y luego usar las identidades falsas para proporcionar datos maliciosos al servidor o sistema central de recolección. Esta amenaza es especialmente aplicable en un escenario de traer su propio dispositivo (BYOD) porque los usuarios pueden usar sus dispositivos personales dentro de la red empresarial.

Monitoreo de seguridad de Big Data en tiempo real

El monitoreo de datos en tiempo real es un gran desafío porque necesita monitorear tanto la infraestructura de big data como los datos que está procesando. Como se señaló anteriormente, la infraestructura de big data en la nube está constantemente expuesta a amenazas. Las entidades maliciosas pueden modificar el sistema para que acceda a los datos y luego generar implacablemente falsos positivos. Es extremadamente riesgoso ignorar los falsos positivos. Además de esto, estas entidades pueden intentar evadir la detección construyendo ataques de evasión o incluso usar envenenamiento de datos para reducir la confiabilidad de los datos que se procesan.

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

Estrategias para enfrentar las amenazas de seguridad

Las estrategias de seguridad de Big Data todavía están en una etapa incipiente, pero deben evolucionar rápidamente. Las respuestas a las amenazas de seguridad se encuentran en la propia red. Los componentes de la red necesitan confiabilidad absoluta y eso se puede lograr con estrategias sólidas de protección de datos. Debe haber tolerancia cero para las medidas de protección de datos laxas. También debe existir un mecanismo fuerte y automatizado para recopilar y analizar registros de eventos.

Mejora de la confiabilidad en los marcos de programación distribuida

Como se señaló anteriormente, los mapeadores no confiables y los nodos de trabajo pueden comprometer la seguridad de los datos. Por lo tanto, se requiere confiabilidad de los mapeadores y nodos. Para hacer esto, los mapeadores necesitan autenticar regularmente los nodos de trabajo. Cuando un nodo de trabajo envía una solicitud de conexión a un maestro, la solicitud se aprobará siempre que el trabajador tenga un conjunto predefinido de propiedades de confianza. Posteriormente, el trabajador será revisado periódicamente para verificar el cumplimiento de las políticas de confianza y seguridad.

Políticas sólidas de protección de datos

Las amenazas a la seguridad de los datos debido a la protección de datos inherentemente débil en el marco distribuido y la base de datos NoSQL deben abordarse. Las contraseñas se deben codificar o cifrar con algoritmos de codificación seguros. Los datos en reposo siempre deben cifrarse y no dejarse a la intemperie, incluso después de considerar el impacto en el rendimiento. El cifrado de hardware y archivos masivos es de naturaleza más rápida y eso podría resolver los problemas de rendimiento hasta cierto punto, pero los atacantes también pueden violar el cifrado de un dispositivo de hardware. Teniendo en cuenta la situación, es una buena práctica utilizar SSL / TLS para establecer conexiones entre el cliente y el servidor y para la comunicación a través de los nodos del clúster. Además, la arquitectura NoSQL necesita permitir módulos de autenticación de terceros conectables.

Análisis

El análisis de Big Data se puede utilizar para monitorear e identificar conexiones sospechosas a los nodos del clúster y extraer constantemente los registros para identificar posibles amenazas. Aunque el ecosistema de Hadoop no tiene ningún mecanismo de seguridad incorporado, se pueden usar otras herramientas para monitorear e identificar actividades sospechosas, siempre que estas herramientas cumplan con ciertos estándares. Por ejemplo, dichas herramientas deben cumplir con las pautas del Proyecto de seguridad de aplicaciones web abiertas (OWASP). Se espera que el monitoreo en tiempo real de los eventos mejore con algunos desarrollos que ya están teniendo lugar. Por ejemplo, el Protocolo de automatización de contenido de seguridad (SCAP) se aplica gradualmente a big data. Apache Kafka y Storm prometen ser buenas herramientas de monitoreo en tiempo real.

Detectar valores atípicos mientras recopila datos

Todavía no hay un sistema a prueba de intrusos disponible para evitar por completo intrusiones no autorizadas en el momento de la recopilación de datos. Sin embargo, las intrusiones pueden reducirse significativamente. Primero, las aplicaciones de recopilación de datos deben desarrollarse para ser lo más seguras posible, teniendo en cuenta el escenario BYOD cuando la aplicación puede ejecutarse en varios dispositivos no confiables. En segundo lugar, los atacantes decididos probablemente traspasarán incluso las defensas más fuertes y los datos maliciosos al sistema de recopilación central. Por lo tanto, debe haber algoritmos para detectar y filtrar tales entradas maliciosas.

Conclusión

Las vulnerabilidades de Big Data en la nube son únicas y no pueden abordarse mediante medidas de seguridad tradicionales. La protección de big data en la nube sigue siendo un área incipiente porque ciertas prácticas recomendadas, como el monitoreo en tiempo real, aún se están desarrollando y las mejores prácticas o medidas disponibles no se están aplicando estrictamente. Aún así, considerando cuán lucrativo es el big data, las medidas de seguridad seguramente se pondrán al día en el futuro cercano.