Por qué Hadoop es una combinación perfecta para la secuenciación del genoma

Contenido

El presente y el futuro de la genómica
Las necesidades de la industria de mapeo del genoma
¿Qué se espera en la solución?
Por qué Hadoop es la mejor solución para la secuenciación del genoma
Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida
¿Qué más puede hacer Hadoop?
Oportunidades para Hadoop
Ballesta: la plataforma de gestión de datos de próxima generación
Otro software de genómica basado en Hadoop
Conclusión

Fuente: A3701027 / Dreamstime.com

Para llevar:

La secuenciación del genoma necesita herramientas tecnológicas poderosas para manejar todos sus datos, y Hadoop está a la altura.

La genómica clínica es un tema fascinante, donde las personas trabajan en tecnologías de vanguardia para procesar resultados rápidos y precisos. Hay muchos secuenciadores genómicos disponibles en el mercado, y están produciendo petabytes de datos de secuencia, y el crecimiento en la secuenciación producirá exabytes de datos en el futuro cercano. Aquí, Hadoop es la plataforma perfecta para procesar el flujo de trabajo de genómica compleja. Hadoop puede almacenar y ordenar cantidades masivas de información y también puede realizar análisis significativos. (Para tener una idea de la cantidad de datos que esto realmente implica, lea Comprensión de bits, bytes y sus múltiples).

El presente y el futuro de la genómica

Hoy, el mapeo del genoma ha alcanzado su pico de desarrollo. Muchas personas asociadas con la industria de la genómica están llenas de curiosidad, y a medida que se presentan nuevas oportunidades, una mejor tecnología es la necesidad de la hora. La secuenciación del genoma es una tarea muy repetitiva y que requiere muchos recursos. Solo en 2013, se produjeron alrededor de 15 petabytes de datos, y solo por 2,000 secuenciadores. Esta cantidad asombrosa incluyó 300 KB de datos secuenciados del genoma humano. A este ritmo de producción de datos, se puede estimar que para 2018, se producirá aproximadamente un exabyte de datos. Esto se debe al crecimiento de los secuenciadores, que producirán más y más datos por ejecución. Otra razón es la llegada de máquinas de secuenciación del genoma extremadamente potentes y de bajo costo. Desde 2008, el precio de estas máquinas ha disminuido constantemente. Esto se debe a las potentes máquinas de próxima generación que han incursionado en el mercado.

Las necesidades de la industria de mapeo del genoma

Se utilizan algoritmos complejos para procesar los datos que se recopilan del genoma humano. Entonces, esta información necesita ser almacenada. Puede ser revisado en el futuro para compararlo con los datos originales. La tarea de procesar y almacenar 100 GB de datos no es demasiado difícil, especialmente cuando lo hace con las potentes máquinas empleadas en los centros de secuenciación. Los estudios muestran que esta cantidad de datos puede procesarse en solo alrededor de 1,000 horas de CPU, por lo que es muy fácil. A este ritmo de avance técnico, es evidente que la industria del genoma pronto procesará miles de gigabytes en solo unos segundos.

Sin embargo, las técnicas de gestión y almacenamiento de datos no evolucionan tan rápido, por lo que se puede esperar una gran pérdida de datos valiosos. Esto es realmente indeseable, ya que obstaculizará seriamente los progresos realizados en la genómica humana. Por lo tanto, la necesidad de una técnica de gestión de datos eficiente, que se pueda actualizar fácilmente, es muy alta. Esto puede ser efectivo especialmente en el futuro cercano, donde el mapeo del genoma se moverá de laboratorios grandes con computadoras potentes a pequeños hospitales y laboratorios.

¿Qué se espera en la solución?

El ritmo al que se descubren y desarrollan nuevas técnicas de secuenciación genómica es extremadamente alto. Este ritmo puede ser muy beneficioso para la ciencia médica en forma de un poderoso paso hacia la erradicación de enfermedades importantes. Sin embargo, este ritmo también puede ser muy desafiante.

El desafío se presenta en la forma de administrar la gran cantidad de datos producidos por los proyectos de secuenciación. Por lo tanto, se necesita una solución efectiva que ayude con el almacenamiento y el procesamiento de big data. Esta solución debe ser barata y rápida, además de ser adaptativa. El análisis proporcionado por esta solución también debe ser exacto y constante. Entonces, ¿cuál es la solución al problema? Sin lugar a dudas, es Hadoop. (Para obtener más información sobre los usos de Hadoop, consulte 5 Perspectivas sobre Big Data (Hadoop) como servicio).

Por qué Hadoop es la mejor solución para la secuenciación del genoma

Lo que necesita la industria de la genómica es una solución superior que pueda ayudarlos a administrar eficazmente los datos, procesarlos y almacenarlos para su uso futuro. Esta solución parece ser una combinación perfecta con el software Hadoop. Por lo tanto, Hadoop puede considerarse como el software perfecto de gestión de big data que puede mejorar en gran medida las técnicas actuales de almacenamiento de datos de la industria genómica.

Las capacidades en tiempo real de Hadoop hacen posible que los secuenciadores del genoma analicen y almacenen grandes cantidades de datos a la vez en tiempo real. Esto también permite el uso futuro de los datos. Hadoop puede vencer a muchos sistemas heredados, ya que es mucho más rápido y más confiable que ellos.

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

¿Qué más puede hacer Hadoop?

Debido a Hadoop, se han abierto una gran cantidad de posibilidades y oportunidades en el campo de la genómica y la secuenciación de genes. Hadoop ofrece opciones de computación paralelas debido a las cuales es posible una secuenciación más rápida. Además, utilizando la función MapReduce de Hadoop, se pueden mapear grandes cantidades de genes con mucha facilidad. Debido a esto, la secuenciación con Hadoop realmente se convertirá en la "próxima generación" y será mucho menos complicada.

Oportunidades para Hadoop

Hadoop tiene varias oportunidades en la industria del genoma, pero la mejor se derivó del artículo de Lynda Chin "Dar sentido a los datos genómicos del cáncer", en la revista Genes & Development. En este artículo, analiza cómo la genómica moderna ha abierto nuevas puertas, y esto ha llevado a muchos resultados positivos, como el descubrimiento de información genómica sobre el cáncer. Debido a esto, estamos más cerca de descubrir la cura del cáncer en sí. Sin embargo, esto necesita un poco más de atención y una poderosa aplicación de administración de datos para una mejor capacidad de investigación en el campo. Esta puede ser la mejor oportunidad para que Hadoop demuestre su velocidad, potencia y precisión.

Ballesta: la plataforma de gestión de datos de próxima generación

Crossbow, que es una tubería de software destinada al análisis de la secuenciación del genoma, es una de las mejores soluciones. Fue el resultado de la integración dentro de Hadoop entre un algoritmo rápido para alinear los datos secuenciados, que se llama Bowtie, y un poderoso algoritmo que compara y examina los datos secuenciados, es decir, un genotipo llamado SoapSNP. Está construido sobre Apache Hadoop y se basa en una implementación del marco MapReduce. Crossbow es portátil, escalable y también es adecuado como herramienta de computación en la nube.

Con esta poderosa integración, se puede examinar un genoma completo en solo un día en un clúster local con 10 nodos. ¡Con un clúster de 40 nodos, el proceso es aún más rápido y se completa en solo tres horas con un costo total de menos de $ 100! Un estudio realizado para probar la precisión de Crossbow mostró que puede comparar cada genoma con una precisión del 99 por ciento. Otra característica útil de Crossbow es que se ejecuta en la nube. Por lo tanto, Crossbow permitirá a los miles de futuros centros de secuenciación, como hospitales, secuenciar grandes cantidades de datos del genoma sin la necesidad de computadoras y tecnología poderosas y costosas.

Otro software de genómica basado en Hadoop

Muchas compañías han reconocido el poder de Hadoop para cambiar el mundo de la genómica. Han modificado adecuadamente a Hadoop para aprovechar su potencial para la secuenciación avanzada del genoma. A continuación se dan algunos ejemplos de las famosas soluciones de secuenciación del genoma basadas en Hadoop:

Hadoop-BAM: esta es una poderosa herramienta de gestión de datos que utiliza la función MapReduce de Hadoop para diversas actividades relacionadas con la genómica, como el genotipado. Esto funciona en el formato de alineación binaria / mapa.
Cloudburst: esta solución basada en Hadoop se creó en 2009. Es extremadamente eficiente en la comparación de secuencias del genoma y el mapeo de genes individuales. Esta es también una de las primeras aplicaciones basadas en Hadoop diseñadas para este propósito.

Conclusión

La integración entre Big Data y la industria de la genómica está demostrando ser una bendición en los tiempos modernos. Estas plataformas son efectivas en el descubrimiento de los tratamientos de varias enfermedades como el cáncer. Los datos que se encuentran mediante el mapeo del genoma pueden usarse para la formulación de información preventiva de tales enfermedades. El advenimiento de los grandes datos puede considerarse como un punto de inflexión en el mundo de la genómica, y si la información se usa con prudencia, posiblemente también en el campo más amplio de la atención médica. La única forma de avanzar en este campo es mediante el uso de herramientas adecuadas de gestión de datos como Hadoop.