5 señales de advertencia de una falla crítica del equipo

Contenido

¿Qué es el MTBF?
Enrutamiento
Interruptores
Poder resiliente
Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida
Almacenamiento protegido
Servidores
MTBF: también puede fallar

Para llevar:

La reducción del tiempo de inactividad mediante una planificación meticulosa por adelantado podría significar la diferencia entre el crecimiento y el declive del negocio. Ahí es donde entra el tiempo medio entre fallas.

No subestime cuánto dependen las corporaciones de hoy en día de los sistemas críticos. Es por eso que solo tiene sentido común que una empresa pueda medir el riesgo de falla del equipo. Sin garantías de cuándo un equipo podría fallar, debe haber al menos una estimación precisa de cuándo ya no puede considerarse confiable.

Un equipo de otro modo invisible podría no parecer crítico para una empresa, pero cuando falla un solo ventilador de enfriamiento, hace que un generador abandone el fantasma y provoca decenas o incluso cientos de miles de problemas costosos por un período prolongado, puede vea que poder estimar qué componentes de su infraestructura podrían fallar, y cuándo, es de suma importancia. Ahí es donde entra el tiempo medio entre fallas (MTBF), el método en el que los profesionales de TI confían para dar estimados sobre cuándo fallará el equipo crítico. Aquí echamos un vistazo a lo que finalmente mata algunos tipos comunes de equipos críticos, y cómo MTBF puede ayudar a salvar el día.

¿Qué es el MTBF?

A cada pieza de equipo informático fabricado se le asigna un número de modelo único. Aquellos que juegan un papel en la infraestructura crítica se suministran a los clientes con una estimación de MTBF. Los complejos cálculos para calcular el MTBF para un equipo se llevan a cabo durante la larga fase de prueba dentro de una investigación y desarrollo de productos y son relativamente específicos de un modelo en particular.

Si está buscando encontrar el MTBF para un equipo en particular, lo encontrará en la hoja de especificaciones detalladas suministrada por el fabricante. También puede contactar al fabricante directamente.

Enrutamiento

Un enrutador de nivel empresarial incluye muchas partes, algunas móviles y otras estáticas. Las unidades de fuente de alimentación (PSU) y los ventiladores de refrigeración tienen partes móviles y sus elementos tienden a ser puntos de falla, especialmente si la unidad no está alojada dentro de un centro de datos relativamente libre de polvo. Afortunadamente, con algunas aportaciones del administrador, la mayoría de los enrutadores informarán a un SysLog instalación, de modo que cualquier componente fallido se pueda marcar.

Interruptores

En una línea similar, el siguiente nivel dentro de una red empresarial es el hardware de conmutación. Aunque los conmutadores de nivel empresarial también tienden a depender de los ventiladores, generalmente hay menos de ellos que los que se encuentran dentro del chasis de un enrutador. Si los mecanismos de zumbido de los ventiladores están intactos, un interruptor defectuoso generalmente se comportará mal a nivel de software, ya sea al deshabilitar un puerto del interruptor inesperadamente o, más comúnmente, exhibir un comportamiento inusual como dejar caer paquetes, causar niveles variables de interrupción del tráfico o cambiar incorrectamente configuraciones definidas por el usuario sin que se le solicite hacerlo.

El gigante de las redes Cisco anuncia que uno de sus enrutadores tiene un MTBF de 188,574 horas para el modelo Cisco Catalyst 3750G-24TS. Si dividimos eso entre 8,765.81277 (el número de horas en un año), entonces vemos que este modelo tiene una estimación de MTBF de alrededor de 21.5 años. Esa cifra es de cierta tranquilidad cuando considera que este equipo necesita funcionar bien las 24 horas, los 7 días de la semana sin fallas, aunque, por supuesto, en realidad es simplemente una indicación de su confiabilidad. Aun así, ofrece a los usuarios una suposición educada sobre cuánto tiempo puede esperarse que dure ese equipo.

Poder resiliente

Las fuentes de alimentación ininterrumpida (UPS) conectadas a una gran cantidad de baterías pueden proporcionar energía de respaldo dentro de la empresa durante el breve período de tiempo antes de que los generadores se enciendan durante un corte de energía. Ciertas fallas de software específicas pueden materializarse dentro de un UPS, como con cualquier pieza de equipo, pero en general, las baterías de las que obtienen energía generalmente causan la mayor preocupación. Si una batería UPS se apaga y recarga con frecuencia, su capacidad disminuirá más rápidamente y su tiempo de funcionamiento se acortará drásticamente. Como era de esperar, también es posible que las baterías del UPS fallen por completo. Un UPS puede informar sobre módems y redes cuando se desarrollan fallas, pero la mayoría de las veces, los UPS más antiguos activarán alarmas audibles cuando surja un problema.

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

Almacenamiento protegido

Los discos duros que usamos hoy y en los que confiamos en un grado tan alto se han vuelto significativamente más confiables durante la última década más o menos. Sin embargo, están lejos de ser infalibles y, según el estudio que creas, parecen funcionar correctamente durante un período más largo dependiendo de una serie de factores. (Puede encontrar un gran artículo de opinión sobre esto en The Remarketer). Si se habilita la presentación de informes detallados y la unidad proporciona comentarios sobre los errores, los sectores corruptos y las fallas de lectura / escritura son la clave para detectar cuándo un disco dentro de una matriz de almacenamiento esta cayendo. Otro problema común dentro de los servidores que usan varios discos conectados a un controlador RAID es que el mismo controlador fallará. Desafortunadamente, a veces los discos duros simplemente dejan de funcionar sin ninguna advertencia, un problema que es difícil de proteger de manera confiable.

Servidores

Además de las unidades integradas en los servidores y las partes móviles, como los ventiladores de enfriamiento y las unidades de suministro de energía mencionados anteriormente, también pueden surgir una serie de problemas dentro de los componentes de hardware de los servidores. La presentación de informes a nivel de software (que generalmente se refiere al BIOS u otros diagnósticos de componentes de hardware de bajo nivel) es clave para detectar cuándo fallaron las cosas o, lo que es más importante, muestran signos de falla. Un problema que puede no ser obvio de inmediato es el que afecta a las placas base. Tiene mucho sentido que a las máquinas no les guste demasiado el calor. Pero incluso hoy, si una placa de circuito moderna se somete a una pérdida de calor rápida, o pasa de calentarse mucho a enfriarse repentinamente, pueden aparecer grietas, lo que hace que la placa falle desastrosamente. Es un problema a tener en cuenta, especialmente si está moviendo equipos entre edificios dentro de un marco de tiempo implacable de ventanas de mantenimiento.

MTBF: también puede fallar

Tan útil como las predicciones de MTBF es importante calcular los niveles de riesgo aceptable con cualquier equipo en el que deba confiar una empresa. Desafortunadamente, incluso con todas las garantías estadísticas proporcionadas por los fabricantes, la única forma concreta de garantizar la disponibilidad del equipo que ejecuta sistemas críticos es duplicarlo para permitir una conmutación por error de tiempo de espera.

Todas y cada una de las piezas de hardware individuales utilizadas en la empresa están formadas por muchos componentes diferentes, por lo que el verdadero MTBF está lejos de ser un cálculo trivial. Claramente, es fundamental no basar el futuro de un negocio en estas mediciones de probabilidad, sino utilizarlas como criterio para tomar decisiones informadas en relación con la continuidad del negocio y los procedimientos de recuperación ante desastres. Después de todo, reducir el tiempo de inactividad mediante una planificación meticulosa por adelantado podría significar la diferencia entre un negocio exitoso y un fracaso empresarial.