¿Cómo debo manejar a las personas / técnicos durante un incidente / brote?

10

Supongamos que hay un incidente que requiere una respuesta inmediata, como un brote de virus en el correo electrónico, Cryptolocker encriptando activamente los archivos o un ataque de DOS.

¿Cómo debo enfocar esto de una manera que no solo sea valorada en términos de nuestros clientes (SLA, etc.), sino que también sea vista positivamente por todos los niveles de administración y mis colegas?

Supongo que hay las siguientes fases:

  • Identificación
  • Contención
  • Remediación

A veces, un incidente requiere que retrocedamos y volvamos a identificar el problema (por ejemplo, no es un problema del servidor web, es un ataque de DOS) y, a menudo, un técnico bien intentado trabajará en tareas que se superponen y pueden no ayudar. La situación, o peor aún, puede impedir otras cuestiones. (por ejemplo, una restauración de SAN en el mismo LUN que la producción, matando el rendimiento)

Pregunta

Dado que a menudo hay muchas partes móviles para resolver los problemas, ¿qué proceso puedo consultar para obtener orientación para darle más estructura al proceso de contención y remediación?

Algunas cosas en las que puedo pensar incluyen:

  • Identificar usuarios afectados, partes interesadas de negocios
  • Identifique personas, proveedores que están trabajando en la solución
  • Comunicar tareas y el estado de todas las tareas entre las personas y los proveedores que trabajan en la solución
  • Comparta el estado apropiado de la audiencia (servicio de asistencia, administración, ejecutivo)

Debe haber algún tipo de guía que ya haya escrito que aborde esto, por ejemplo en una especie de "runbook", pero no estoy seguro de cómo se llamaría. Los términos de búsqueda serían apreciados

    
pregunta random65537 05.03.2015 - 02:12
fuente

1 respuesta

1

Planifica la continuidad de tu negocio. Debe identificar a las personas adecuadas para los servicios de misión crítica y no misión crítica, qué sistemas contienen la información más importante, quién puede decidir cuándo desconectar los sistemas y en qué umbral.

Buena descripción general de (wikipedia) [ enlace

ITIL tiene toneladas de información sobre esto:

Actividades de ICM definidas por ITIL v3

  • Identificación: detecte o notifique el incidente. Registro: el el incidente está registrado en un sistema ICM
  • Categorización - el incidente se clasifica por prioridad, SLA, etc. atributos definidos anteriormente
  • Priorización: el incidente se prioriza para una mejor utilización de los recursos y el tiempo del personal de apoyo
  • Diagnóstico - revelar el síntoma completo del incidente
  • Escalado: si el personal de soporte necesita el apoyo de otras unidades organizativas
  • Investigación y diagnóstico - si no se pudo encontrar una solución del pasado, la se investiga el incidente y se encuentra la causa raíz
  • Resolución y recuperación: una vez que se encuentra la solución, se resuelve el incidente
  • Cierre de incidente: la entrada de registro del incidente en el Sistema ICM es cerrado al proporcionar el estado final del incidente [5]

Responsabilidades del administrador de incidentes

  • comprender cualquier incidente / falla en un nivel básico (al menos) para utilizar las competencias (recursos) adecuadas
  • conducir el equipo de restauración para reunir suficiente información para iniciar un análisis mantener una visión general de la incidente (manteniendo el enfoque en la restauración a través de una solución)
  • entender la funcionalidad de múltiples áreas (RAN, Core Network, VAS, BSS / OSS)
  • obtener orientación sobre las prioridades para los equipos que comienzan el trabajo de recuperación inesperado urgente inmediato
respondido por el Jonathan 31.03.2015 - 19:47
fuente

Lea otras preguntas en las etiquetas