febrero 7, 2023

Interrupciones que los profesionales de ITOps agradecen evitar

Consulte las sesiones a pedido en Low-Code/No-Code Summit para aprender cómo innovar con éxito y lograr eficiencias al mejorar y escalar a los desarrolladores ciudadanos. Mira ahora.


A medida que nos adaptamos a la época del año para reflexionar sobre las cosas por las que estamos agradecidos, tendemos a centrarnos en cosas fundamentales importantes como la salud, la familia y los amigos.

Pero a nivel profesional, los profesionales de operaciones de TI (ITOps) agradecen evitar interrupciones desastrosas que pueden causar confusión, frustración, pérdida de ingresos y daño a la reputación. los Muy Lo último que quieren los equipos de ITOps, Network Operations Center (NOC) o Site Reliability Engineering (SRE) mientras comen su pavo y se divierten con la familia es que los llamen para una interrupción. Estos pueden ser extremadamente costosos: de hecho, $ 12,913 por minuto y hasta $ 1.5 millones por hora para organizaciones más grandes.

Sin embargo, para comprender la tranquilidad que brinda evitar el tiempo de inactividad, debe haber experimentado de primera mano el dolor y la ansiedad que conllevan las interrupciones. Aquí hay algunas historias de terror que los profesionales de ITOps están agradecidos de evitar esta temporada.

Un caso de estructura de mando extravagante

Un profesional de TI de mucho tiempo estaba de turno con otros tres a las 7:00 p. m. El equipo recibió una alerta sobre un problema que afectaba a la interfaz de usuario de front-end para su dispositivo de gestión de tráfico global. Afortunadamente, había un runbook alojado en una base de datos, por lo que parecía que el problema se solucionaría rápidamente. Uno de los miembros del equipo vio dos cosas para escribir: un comando y una entrada secundaria. Escribió los comandos y, según el aspecto del runbook, estaba esperando que la línea de comandos pidiera una entrada, como “¿qué desea reiniciar?”

Evento

Cumbre de seguridad inteligente

Conozca el papel fundamental de la IA y el ML en la ciberseguridad y los estudios de casos específicos de la industria el 8 de diciembre. Regístrese para obtener su pase gratis hoy.

Suscríbase ahora

La forma en que se configuró la estructura de comando, si no proporcionó una entrada, el dispositivo en sí se reiniciaría. Escribió lo que pensó que era el comando correcto, “bigstart, restart”, y se eliminó todo el administrador de tráfico global de front-end.

Solo como recordatorio, esto sucedió en horario de máxima audiencia. El cliente era una empresa financiera y el sistema colapsó justo en el momento en que las empresas estaban cerrando y tratando de hacer su contabilidad y otros negocios relacionados con las finanzas. Momento terrible, por decir lo menos.

Cinco minutos después de la interrupción, el equipo de ITOps se dio cuenta de lo que había sucedido: la herramienta que usaban para su runbook usaba el ajuste de texto de forma predeterminada, por lo que lo que parecían dos comandos separados en realidad eran solo uno. Si bien la interrupción fue relativamente breve, llegó en un momento crítico y creó una reacción en cadena de dolores de cabeza. ¿La lección aprendida? Asegúrese de que su estructura de mando esté optimizada.

Cuando Google es tu mejor amigo en medio de la noche

Para un veterano de TI de más de 15 años, lo que parecía un turno de noche tranquilo se convirtió rápidamente en una pesadilla llena de ansiedad. “Nunca me encontré entrando en pánico tan rápido como cuando la terminal remota en la que estaba de repente se volvió negra”, dijo.

Lo que intentaba hacer era reiniciar un servicio mientras trabajaba en una máquina remota, pero sin darse cuenta deshabilitó el conector de red en el proceso. Llamar a alguien y despertarlo en medio de la noche para decirle que había “atravesado” un adaptador de red no era ideal, por lo que él y sus compañeros de equipo comenzaron a investigar.

Después de lo que él llama “una cantidad no despreciable de búsqueda en Google”, logró encontrar el camino a un servidor Dell y reinició la NIC desde allí. Tomó más tiempo del que debería haberse solucionado, pero finalmente se solucionó el problema.

Su consejo profesional: “No deshabilite la tarjeta de red en una máquina a la que está accediendo de forma remota en medio de la noche”. Puede parecer obvio, pero la lección subyacente es tener un plan de contingencia en caso de que algo salga terriblemente mal.

ITOps: Confiar en el correo electrónico fue genial, hasta que dejó de serlo

Cuando el correo electrónico era la forma principal en que los equipos de NOC recibían alertas, un profesional de TI de mucho tiempo recuerda tener un compañero de equipo cuyo único trabajo era esencialmente enviar: monitorear correos electrónicos y crear tickets para incidentes que necesitaban atención ahora y otros para aquellos a los que podían acceder más tarde. El sistema funcionó bien, pero en realidad era una bomba de relojería lista para explotar considerando que se trataba de una gran empresa multinacional.

Ese temor se hizo realidad cuando todo el centro de datos de la empresa se volvió loco.

Esta fue una serie de problemas por derecho propio, pero el incidente generó tantas alertas por correo electrónico que también provocó la caída del servidor de Outlook de la empresa. “Para entonces, estás realmente ciego”, recordó este héroe de TI.

El evento tuvo lugar en medio de la noche, por lo que el equipo de vigilancia tuvo que empezar a despertar a regañadientes a sus compañeros. Después de que finalmente se solucionó el problema, el equipo desarrolló un sentido del humor al respecto. Como recordaron: “Solíamos bromear diciendo que nosotros mismos éramos DDoS con nuestro ruido de alerta. ¡Buenos tiempos!”

Al final, la moraleja general de la historia es esta: cada vez que una mano toca un teclado, existe el riesgo de que algo salga mal. A veces, esto es inevitable, por supuesto, pero los equipos que pueden automatizar y optimizar los procesos de operaciones de TI tanto como sea posible tienen la mejor oportunidad de evitar el costoso tiempo de inactividad, para que puedan disfrutar de las celebraciones de Acción de Gracias sin interrupciones.

Mohan Kompella es vicepresidente de marketing de productos en BigPanda.

Tomadores de decisiones de datos

¡Bienvenido a la comunidad VentureBeat!

DataDecisionMakers es donde los expertos, incluidos los ingenieros de datos, pueden compartir ideas e innovaciones relacionadas con los datos.

Si desea leer ideas de vanguardia e información actualizada, las mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers.

¡Incluso podría considerar contribuir con su propio artículo!

Leer más de DataDecisionMakers

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *