5 mejores prácticas para automatizar la gestión de incidentes mayores

Autor: Roger Morrison
Fecha De Creación: 27 Septiembre 2021
Fecha De Actualización: 21 Junio 2024
Anonim
5 mejores prácticas para automatizar la gestión de incidentes mayores - Tecnología
5 mejores prácticas para automatizar la gestión de incidentes mayores - Tecnología

Contenido



Fuente: Pixtum / iStockphoto

Para llevar:

Con una estrategia de automatización inteligente, puede hacer que la respuesta a incidentes sea más rápida y fácil que nunca, minimizando el tiempo de inactividad y las posibles violaciones de seguridad.

Los principales incidentes de TI tienen lugar dentro de las empresas todos los días. Si bien solo unos pocos aparecen en los titulares, eventos como interrupciones y violaciones de seguridad pueden afectar gravemente la productividad de los empleados, influir negativamente en las percepciones de los clientes y, lo que es más importante, dar como resultado la pérdida de ingresos.

Por lo tanto, cuando se trata de gestionar incidentes de TI importantes, es mejor centrarse en el impacto empresarial y el resultado final. Según el Instituto Ponemon, el costo promedio del tiempo de inactividad en 2016 fue de $ 8,851 por minuto, es decir, más de $ 500,000 por hora, y los tiempos de inactividad típicos promedian más de 90 minutos. ¡Y esto es solo el costo inmediato! El impacto a largo plazo, como el daño a la reputación y el desgaste del cliente, son impredecibles y potencialmente catastróficos.


Si bien no puede evitar por completo todos los incidentes importantes, puede armar a su organización para que esté lo más preparada posible para enfrentarlos cuando surjan. Y un componente importante de su estrategia debería ser incorporar la automatización. Las organizaciones que maximizan el uso de la automatización en sus principales procesos de resolución de incidentes logran una restauración más rápida del servicio y muchos menos errores debido a errores humanos. Esto se debe a que la automatización afecta directamente su capacidad de reducir la duración de la ventana de impacto comercial, o ese período costoso en el que sus usuarios y operaciones comerciales realmente sienten el impacto de un incidente. (Para obtener más información sobre la automatización, consulte Automatización: ¿El futuro de la ciencia de datos y el aprendizaje automático?)

Para maximizar los beneficios de la automatización, debe examinar qué actividades deben llevarse a cabo durante la ventana de impacto, y descubrir cómo mover todas las demás actividades antes de que comience el incidente o después de que el negocio haya vuelto a las operaciones normales. Aquí hay cinco maneras útiles de comenzar.


1. Desarrollar y definir un proceso

La definición de un proceso importante de gestión de incidentes consiste en determinar qué se puede planificar, coordinar o ejecutar durante un incidente. Esto puede significar identificar a los miembros clave del equipo de soporte por habilidades y cronograma, por ejemplo, para que su mesa de servicio pueda involucrarlos de la manera más rápida y eficiente posible. También significa descubrir cómo transmitirá información relevante a su equipo para que puedan comenzar a resolver el problema de inmediato, así como para mantener informados y actualizados a las partes interesadas correctas.

La automatización es crítica para los aspectos clave de este proceso. Por ejemplo, podría automatizar la inclusión de información relevante de sus herramientas de monitoreo en los tickets de su mesa de servicio, o incluir información de la mesa de servicio en las notificaciones a los solucionadores de incidentes. También puede documentar todo el incidente en una sola fuente de verdad integral a la que puedan acceder todos. Recuerde que puede practicar este proceso para hacerlo bien: no necesita esperar un incidente del mundo real para probar su enfoque.

2. Obtenga su infraestructura correcta

En esta época de fatiga de alerta, es esencial que no continúe bombardeando a sus equipos con notificaciones irrelevantes e información que no se aplica a ellos. La aplicación de filtros a sus alertas de monitoreo permitirá a sus equipos concentrarse más fácilmente en la aguja en el pajar del ruido de rutina. Esto es clave para hacer que todas sus ideas y datos sean realmente procesables, en lugar de simplemente agregar a la sobrecarga de información.

Las buenas maneras de automatizar incluyen el uso de una solución APM para rastrear todas sus aplicaciones y sistemas para identificar de manera proactiva las causas raíz en el punto de cualquier degradación del rendimiento, antes de causar interrupciones importantes del servicio. También puede integrar su monitoreo, mesa de servicio, aplicaciones de colaboración y herramientas de chat para compartir información conual en tiempo real.

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

3. Mide con precisión el MTTR

¿Cómo se mide el tiempo medio de reparación (MTTR)? ¿Lo basa en el tiempo total que los equipos de TI están comprometidos o en el tiempo total en que el negocio se ve realmente afectado? Si su respuesta es la primera, debe reconsiderar la medición de la ventana de impacto utilizando la perspectiva empresarial. Esta es una estafa mucho más precisa para sus esfuerzos de optimización, porque su objetivo es minimizar el impacto de los incidentes y no simplemente presentar mejores informes de respuesta a su junta. (Para obtener más información sobre el tiempo de inactividad y cómo se maneja, consulte Qué significa realmente el tiempo medio entre fallas).

Puede automatizar proporcionando una visibilidad completa de las aplicaciones para “iniciar el reloj” de manera retroactiva si es necesario, y preservar un registro completo de sus actividades de resolución y comunicaciones para análisis y auditoría para mejorar sus procesos.

4. Mantenga a las partes interesadas informadas, pero sin interrumpir la resolución

Las partes interesadas esperan comunicaciones efectivas y oportunas al tiempo que esperan que los expertos en la materia se mantengan enfocados en solucionar problemas. Si bien podría designar un punto de contacto de comunicaciones para monitorear e involucrar a los usuarios comerciales, una estrategia más efectiva sería crear una página web de autoservicio con actualizaciones de estado. Esto permite a las partes interesadas verificar por sí mismos sin bombardear a su equipo con más llamadas y mensajes. Solo recuerde actualizar a sus partes interesadas a intervalos regulares para que siempre reciban y sepan esperar el último informe de estado. ¡No olvide que la comunicación no debe detenerse simplemente porque se restablece el servicio! Es importante que las partes interesadas obtengan un resumen de lo que sucedió, lo que se aprendió y cómo se puede prevenir la situación en el futuro.

La automatización en este caso se puede implementar para crear una página de estado automática en tiempo real para las partes interesadas, así como crear comandos de barra diagonal en su herramienta de chat para actualizar esa página.

5. Recopilar datos para apoyar la gestión de problemas

¡El servicio de restauración no representa el final de la gestión de incidentes! De hecho, algunas de las actividades más valiosas ocurren después de la resolución. Al recopilar datos de diagnóstico e impacto y realizar un análisis de causa raíz, puede realizar una auditoría completa de un incidente importante que incluye la implementación de medidas preventivas para evitar incidentes similares en el futuro. Además, incluso si vuelve a ocurrir un incidente reconocible, puede crear un procedimiento definido para los tipos de datos que necesita recopilar y los pasos que deben ocurrir para impulsar la resolución. De esta manera, su equipo simplemente tiene que consultar una lista de verificación y centrarse en su objetivo principal de restaurar el servicio, en lugar de preocuparse por lo que necesitan y cuándo.

La automatización aquí puede capturar y preservar actividades de resolución, incluidas cosas como transcripciones de chat, en un único sistema de registro para análisis. Además, lo ayudará a crear un catálogo de incidentes o problemas familiares, consolidar las mejores prácticas para cada uno y, por lo tanto, aumentar la velocidad de resolución en el futuro.

En conclusión: automatice de manera más inteligente, no más

¡Tenga en cuenta que más automatización no es necesariamente el mejor enfoque! Es más importante que comprenda cuándo, dónde y cómo conectar sus sistemas de TI para respaldar la gestión de incidentes. No desea agregar ninguna complejidad innecesaria en aras de aumentar los procesos automatizados. Recuerde que el objetivo es simplificar y consolidar las operaciones tanto como sea posible para que sus equipos se sientan capacitados para abordar los problemas de manera eficiente. Se trata de implementar de manera inteligente la automatización para facilitar un conjunto bien coordinado de procesos, personal bien informado y comunicaciones efectivas con las partes interesadas, a fin de minimizar el impacto comercial general de los incidentes importantes.