Respuesta a incidentes — qué hacer cuando todo falla
Cualquier sistema SSI gob enfrentará incidentes. La pregunta no es si — es cuándo + cómo se responde. Esta guía cubre los escenarios típicos + sus respuestas operativas.
Los 5 incidentes típicos
Cinco escenarios que debe planificar todo proyecto SSI:
| Incidente | Probabilidad | Severidad |
|---|---|---|
| Compromiso de clave del issuer | Baja | Catastrófica |
| Bug en código del issuer | Media | Alta |
| Fraude en emisión | Media | Alta |
| Cool-down del HSM | Media | Media |
| Disclosure pública de datos | Baja | Alta |
1. Compromiso de clave del issuer
El peor caso: la clave privada del issuer fue robada o comprometida.
Respuesta inmediata:
- 1Detectar. Monitoring + alertas indica firma sospechosa (volumen anormal, IP inusual).
- 2Confirmar. Audit del HSM, logs, certifications.
- 3Contener. Desactivar el HSM comprometido. Detener emisión.
- 4Notificar. AAIP, organismos relacionados, AAIP, ciudadanos afectados.
- 5Revocar. Toda credencial emitida con la clave comprometida.
- 6Rotar. Generar nueva clave en HSM nuevo.
- 7Re-emitir. Las credenciales legítimas con la nueva clave.
- 8Investigar. Cómo sucedió + cómo evitar recurrencia.
Costo operativo: enorme. Tiempo: semanas a meses. Pero necesario.
2. Bug en código del issuer
Caso menos severo: un bug del sistema causa emisión incorrecta de credenciales (datos errados, formato malo, firma mala).
Respuesta:
- 1Detectar. Reportes de verifiers + monitoring de error rates.
- 2Triagear. ¿Qué credenciales están afectadas? ¿Cuántas?
- 3Detener emisión del tipo afectado.
- 4Identificar root cause y fix.
- 5Decidir alcance de re-emisión. Solo las erróneas o todas las del período?
- 6Re-emitir las afectadas.
- 7Comunicar a los holders y verifiers afectados.
3. Fraude en emisión
El caso interno: alguien con acceso al sistema emite credenciales fraudulentas.
Respuesta:
- 1Detectar. Audits internos + comportamiento anormal de funcionario.
- 2Aislar. Suspender accesos al funcionario sospechoso.
- 3Investigar. Auditoría forense del sistema.
- 4Revocar. Credenciales fraudulentas identificadas.
- 5Reportar. Autoridades + AAIP + ciudadanos afectados.
- 6Reforzar controles. Para que no se repita.
4. Cool-down del HSM
Caso operacional: el HSM se rompe o tiene problemas. No comprometido, solo no operativo.
Respuesta:
- 1Detectar. Monitoring + alertas de operations.
- 2Activar HSM secundario (que debe existir como parte del plan).
- 3Continuar emisión con el secundario mientras se diagnostica.
- 4Diagnosticar y reparar el primario.
- 5Restaurar la redundancia cuando esté listo.
Si no hay HSM secundario, el servicio se interrumpe temporalmente. Por eso el secundario es prerequisito operativo.
5. Disclosure pública de datos
Caso de privacy: se filtran datos del sistema (PII de ciudadanos, logs, etc.).
Respuesta:
- 1Detectar. Reportes externos + monitoring.
- 2Confirmar magnitud. Qué datos, cuántos individuos.
- 3Notificar. AAIP (obligación regulatoria), ciudadanos afectados (LPDP).
- 4Contener. Cerrar el vector de disclosure.
- 5Investigar root cause.
- 6Compensar daño cuando aplique.
- 7Reforzar controles y comunicar lecciones aprendidas.
Los 4 principios del incident response
Sin importar el tipo de incidente:
1. Speed > perfection
Mejor contener mal que dejar que crezca. Decisiones rápidas con info parcial.
2. Communication discipline
Voz única hacia afuera. Mensajes consistentes. Sin contradictoria.
3. Honest disclosure
La verdad sobre qué pasó, sin minimizar. Confianza recupera más rápido con transparencia.
4. Learning compulsivo
Cada incidente alimenta los procesos. Post-mortem riguroso, sin búsqueda de culpables.
El plan de respuesta a incidentes
Documentación obligatoria antes del primer incidente:
- Roster de personas: quién toma qué decisión.
- Procesos por tipo de incidente: los 5 anteriores + others específicos.
- Comunicación interna: Slack, email, calls.
- Comunicación externa: AAIP, ciudadanos, medios.
- Templates de comunicación: pre-aprobados para situaciones comunes.
- Plan de continuidad: cómo opera el sistema durante el incidente.
Sin esto documentado, durante el incidente se improvisa — y se improvisa mal.
El equipo de respuesta
Composición típica:
| Rol | Función en incidente |
|---|---|
| Sponsor político | Decisiones de alta gravedad |
| Arquitecto técnico | Diagnóstico + plan de fix |
| Líder operativo | Coordinar ejecución |
| Líder comunicación | Mensaje externo |
| Líder compliance | Cumplimiento regulatorio |
Estos roles deben estar preparados antes del incidente, no improvisados durante.
El post-mortem
Después del incidente, escribir un post-mortem riguroso:
- ¿Qué pasó? Timeline detallado.
- ¿Por qué pasó? Root cause analysis.
- ¿Qué se hizo? Acciones tomadas.
- ¿Qué se aprendió? Lecciones para el futuro.
- ¿Qué cambia? Cambios concretos en procesos / sistema / equipo.
Idealmente, el post-mortem es publicado (al menos versión sanitizada). Esto:
- Construye confianza pública.
- Permite que otras provincias / organismos aprendan.
- Demuestra responsabilidad organizacional.
Los benchmarks internacionales
Casos de incidentes públicos bien manejados:
- Estonia 2017 ID card crisis: vulnerabilidad criptográfica en chips de DNI. Estonia revocó + re-emitió todos. Confianza preservada.
- Aadhaar India incidents: múltiples disclosures handled con transparencia variable. Aprendizajes mixtos.
Argentina puede aprender de ambos: la respuesta importa más que la prevención perfecta.
Referencias
Relacionados
- Key management del issuer — el corazón de la seguridad — la prevención
- Audit trail y compliance — trazabilidad sin tracking — la detección
- ¿Cómo empieza una provincia con SSI? — el contexto

