Hay varios criterios de cumplimiento y certificación que mencionan la recuperación de desastres "de fallos múltiples". ¿Cuál es exactamente la definición de esto? Una búsqueda en Google no me dio una respuesta clara.
Hay varios criterios de cumplimiento y certificación que mencionan la recuperación de desastres "de fallos múltiples". ¿Cuál es exactamente la definición de esto? Una búsqueda en Google no me dio una respuesta clara.
Los sistemas tolerantes a fallas múltiples son exactamente eso; Sistemas diseñados de tal manera que puedan manejar múltiples fallas a través de redundancias múltiples / en capas. No encontrará una definición más detallada de esto en ningún documento de RFP, cumplimiento, auditoría, diligencia debida, ya que es un concepto general y se verá diferente para cada sistema / servicio.
Para aquellos que buscan un poco más:
Si tiene alguna duda sobre su capacidad para manejar múltiples fallas, necesita ejecutar algunos escenarios. Obtenga una vista de alto nivel de su sistema, intente identificar los puntos únicos de falla, si tiene éxito, tiene trabajo que hacer. Asumiendo que no, identifique sus dominios de falla. En un nivel alto, este suele ser un centro de datos. Los niveles inferiores pueden ser Racks, servidores conectados a un NAS / SAN común, máquinas virtuales en un host completo, aplicaciones individuales, etc. En sus escenarios, elija aleatoriamente una pieza de hardware, aplicación, rack u otro objeto en la arquitectura de su sistema y marque está como muerto También marca cualquier cosa que se base en ese objeto muerto. Si es un bastidor, todo en ese bastidor está muerto, si se trata de un grupo de bases de datos, todo lo que necesita datos de esa fuente está muerto. Si es un centro de datos, todo está muerto. Tienes la idea Ahora, con ese objeto muerto y la falla del dominio muerto, agregue otro objeto aleatorio a la lista desplegable, junto con sus dependencias.
Si se encuentra con ganas de evitar ciertos recortes de objetos en estos escenarios, es probable que tenga algo de trabajo por hacer. Si encuentra que para la gran mayoría de las combinaciones de dos o tres objetos aleatorios marcados como desconectados, su servicio aún está en línea y los clientes están contentos, lo ha hecho bien. La mayoría de las empresas podrán identificar al menos un par de áreas en las que necesitan mejoras.
Si tiene tres centros de datos con copias completas de servidores / aplicaciones / almacenamiento en cada dc, puede marcar fácilmente sí en esta pregunta. Pero muchas empresas no operan con tres sitios con capacidad de producción.
Como nota relacionada, mientras que AWS, Rackspace, etc. ofrecen múltiples zonas de disponibilidad, etc. A un alto nivel, cualquier proveedor de servicios único sigue siendo un único dominio de falla. Esta es una nota común que aparece en estos tipos de escenarios. Esto puede o no ser un riesgo que su empresa puede aceptar, pero al menos debe ser consciente de ello y tomar esa decisión de manera activa. Numerosas empresas basadas en la nube utilizan más de un proveedor o utilizan un proveedor de la nube y recursos internos. También es muy triste cuando ve una compañía fuera de línea porque tenían todos sus recursos en una zona de disponibilidad cuando se redujo.
La planificación de la mitigación de desastres se basa en identificar dominios de fallas y asegurar que haya n + 1 réplicas de cualquier subsistema, donde 'n' es la cantidad de fallas que tiene en un momento dado.
Lea otras preguntas en las etiquetas incident-response