Un incendio, una inundación, un ataque de ransomware o una caída eléctrica prolongada pueden paralizar a tu empresa por días. Un Plan de Recuperación ante Desastres (DRP) bien diseñado determina si vuelves a operar en horas o si pierdes clientes y facturación por semanas.
En esta guía te explicamos paso a paso cómo construir un DRP profesional: desde el análisis de impacto al negocio hasta la redacción de los runbooks y las pruebas periódicas. Seguimos lineamientos de ISO 22301 y NIST SP 800-34.
Contenido
Qué es un DRP y cómo se diferencia del BCP
El DRP es el documento táctico que describe cómo restaurar la infraestructura TI (servidores, datos, redes, aplicaciones) tras una disrupción. Forma parte de un plan mayor llamado Business Continuity Plan (BCP), que cubre además personas, comunicación con clientes, proveedores, oficinas alternas y procesos manuales.
Análisis de Impacto al Negocio (BIA)
El BIA es el paso cero. Sin él, cualquier DRP es puro teatro. Consiste en levantar cada proceso crítico del negocio y determinar:
- RTO (Recovery Time Objective): cuánto tiempo puede estar caído
- RPO (Recovery Point Objective): cuántos datos se pueden perder
- Impacto financiero, operacional y reputacional por cada hora de caída
- Dependencias (sistemas upstream/downstream, proveedores, personas)
Profundizamos el cálculo en nuestra guía de RPO y RTO. El output del BIA es una matriz de priorización que guía todo lo demás.
Ejemplo de matriz BIA simplificada
| Proceso | RTO | RPO | Costo/hora caída | Tier |
|---|---|---|---|---|
| ERP Facturación | 2 h | 15 min | $2.500.000 | Tier 1 |
| Sitio web e-commerce | 1 h | 5 min | $1.800.000 | Tier 1 |
| Correo corporativo | 4 h | 1 h | $600.000 | Tier 2 |
| File server | 8 h | 4 h | $300.000 | Tier 2 |
| CRM histórico | 24 h | 24 h | $80.000 | Tier 3 |
Estrategias de recuperación: cold, warm, hot
Una vez priorizados los servicios, define la estrategia adecuada. No todo debe tener RTO de 1 hora.
| Tipo | Descripción | RTO típico | Costo |
|---|---|---|---|
| Cold site | Espacio físico vacío, hardware a comprar | Días | $ |
| Warm site | Hardware listo, datos restaurados en evento | 4-24 h | $$ |
| Hot site | Replica síncrona, conmutación rápida | <1 h | $$$ |
| DRaaS (cloud) | Réplica a cloud con orquestación | 15 min - 4 h | $$ |
Sitios alternos y cloud DR
En Chile, los DRP tradicionalmente usaban un segundo datacenter (por ejemplo Sonda, GTD, Entel). Hoy lo más común es cloud DR con Azure Site Recovery, AWS Elastic Disaster Recovery o Veeam Cloud Connect.
Ventajas del DR en cloud
- Pay-as-you-go: no pagas compute en standby
- Orquestación automática del failover
- Pruebas de DR sin impacto (sandbox isolation)
- Geo-redundancia nativa
Runbooks y procedimientos
Un DRP sin runbooks es solo un PowerPoint. Los runbooks son procedimientos paso a paso que permiten a cualquier técnico ejecutar la recuperación bajo estrés.
Estructura mínima de un runbook
- Trigger: condiciones que activan el plan (ej: "caída >30 min del ERP principal")
- Declaración formal: quién autoriza activar el DRP
- Árbol de llamadas: lista de contactos y responsables
- Pasos técnicos: comandos, URLs, credenciales en vault
- Criterios de éxito: cómo validar que el servicio está operativo
- Comunicación a clientes: plantillas de mensaje
- Vuelta atrás (failback): cómo retomar el sitio principal
Pruebas, actualización y gobierno
Un DRP es un organismo vivo. ISO 22301 exige pruebas al menos anuales; en la práctica recomendamos:
- Tabletop exercise (ejercicio en mesa): trimestral, 2 horas, todos los roles
- Simulacro parcial: semestral, failover de un sistema Tier 2
- Simulacro completo: anual, con comunicado a clientes (pre-aviso)
- Revisión documental: trimestral, cada vez que cambia un sistema
Asigna un DRP Coordinator con KPIs trimestrales. Sin dueño, el plan se pudre. Integra el monitoreo proactivo (ver nuestra guía de monitoreo proactivo) para detectar condiciones de activación temprano.
Errores típicos en DRPs
1. Documentos de 200 páginas que nadie lee
Un DRP operativo tiene máximo 20-30 páginas de cuerpo, con anexos técnicos separados. Si el documento no cabe en una reunión de 1 hora, se ignorará.
2. Credenciales guardadas en el mismo sistema caído
Si las claves del firewall de DR están en el file server que acaba de caer, tienes un problema circular. Usa un vault externo (1Password Business, Bitwarden, HashiCorp Vault) con copia impresa en caja fuerte.
3. No involucrar al negocio
TI no decide RTOs: el negocio sí. Un DRP técnicamente perfecto pero con RTO de 24 h cuando el CFO pierde $2M/hora es un fracaso en espera.
¿Diseñamos tu DRP junto a ti?
UpTech acompaña el ciclo completo: BIA, arquitectura, runbooks, pruebas y operación del sitio DR.
Hablar con UpTech →Preguntas frecuentes
¿Qué diferencia hay entre DRP y BCP?
El BCP cubre la continuidad del negocio completo (personas, procesos, comunicación). El DRP es el subplan técnico que detalla cómo recuperar la infraestructura TI.
¿Cuánto cuesta implementar un DRP?
Un DRP básico en cloud para PYME parte desde USD 500/mes. Sitios warm o hot para empresas medianas pueden superar los USD 5.000/mes, pero el costo debe compararse contra el costo del downtime.
¿Con qué frecuencia debo probar el DRP?
ISO 22301 recomienda al menos una simulación anual con tabletop trimestrales. Sistemas Tier 1 deben ejercitarse al menos dos veces al año.
¿Un DRP necesita cloud?
No obligatoriamente, pero el cloud simplifica enormemente los sitios warm/hot y reduce costos de infraestructura ociosa. Para la mayoría de PYMEs chilenas el DRaaS es la mejor relación costo/beneficio.
¿El DRP aplica a SaaS como Microsoft 365?
Sí. Microsoft garantiza disponibilidad del servicio pero no protege contra eliminación accidental o ransomware en mailboxes. Incluye backup SaaS en tu DRP (Veeam for Microsoft 365, por ejemplo).