Incidencia miércoles 13

Durante el día de ayer sufrimos una interrupción en el servicio de alojamiento. La mayoría de servicios pudieron ser recuperados en un plazo de tiempo razonable, pero en otros casos algunos sitios web estuvieron horas sin conectividad a la base de datos, afectando a su correcto funcionamiento.

Nos gustaría ampliar la información sobre esta incidencia y qué estamos haciendo para prevenir que ocurra de nuevo.

El origen

A las 8.15 de la mañana saltaron las primeras alarmas, los servicios de monitorización empezaron a dejar entrever la gravedad del asunto: Tanto nuestro sitio web como los servidores de correo, bases de datos y alojamiento no se encontraban accesibles desde Internet.

Rápidamente nuestro equipo empezó a tratar de localizar el origen del problema.

Uno de los racks en nuestro CPD de Palma de Mallorca había perdido parte de su alimentación, afectando a los routers principales (Core) de nuestra red y dejando sin conectividad a gran parte de los servidores.

Cronología de sucesos

09.00h: Se comprueba que la PDU utilizada en el rack tiene uno de los bancos de alimentación (bank 2) sin electricidad, al parecer el origen del problema era un servidor en el que había cortocircuitado la fuente de alimentación, dejando a todo un segmento del rack (incluidos routers de core) sin alimentación. En este momento el servicio de DNS secundario de todos los dominios sigue operativo al encontrarse redundando en una infraestructura secundaria, no afectando a la resolución de nombres de todos los dominios.
09.30h: Se recupera la alimentación en el “bank 2” de la PDU, y con ello la conectividad global de la red. Los servidores con fuente de alimentación simple afectados y que estaban conectados a esa PDU vuelven a dar servicio. En este momento ya vuelve a estar operativo el clúster de correo al haber recuperado la conectividad en el router core de Palma de Mallorca.
11.20h: Se restablece por completo el funcionamiento normal de todos los servidores tanto de alojamiento Web, correo y base de datos (salvo de hostingsrv20, 40,41, 42 y bbddsrv22).
12.00h: Se restablece el servicio de los servidores Web restantes al sustituir una fuente de alimentación afectada en el servidor scpaldd30 y comprobar la integridad de todos los datos de los servidores virtuales que dependen de la máquina física.
13.30h: Se sigue trabajando en el único servidor restante que persiste sin estar operativo, bbddsrv22. Este servidor es el que ha originado el cortocircuito en el “bank 2” de la PDU del armario afectado. Se comprueba que sustituyendo ambas fuentes de alimentación utilizadas por el servidor éste no arranca. Por lo que se determina que los daños son mayores y se procede a reinstalar un nuevo servidor para que sustituya a éste.
14.30h: Se reinstala el nuevo servidor en el armario, y se inicia la recuperación del RAID a partir de los discos SSD afectados.
17.23h: Tras finalizar las comprobaciones de integridad de datos, se recupera por completo el servicio de bbddsrv22 con un nuevo hardware, tras la copia de sus datos en discos duros SSD nuevos. En todo momento la prioridad fue recuperar los datos afectados por la rotura del servidor bbddsrv22 antes de tener que recurrir a la última copia de seguridad de las 03.00h, lo cual podía suponer una pequeña pérdida de datos que queríamos evitar a toda costa.

A partir de este momento el servicio se estabiliza completamente recuperando el funcionamiento las Webs que dependían a nivel de base de datos del servidor afectado y se da por resuelta la incidencia.

Análisis de los hechos y medidas de prevención

El servidor de base de datos bbddsrv22 es un servidor con doble fuente de alimentación, RAID 6 por hardware con 8 discos SSD y batería RAID. Falló de forma fortuita por un cortocircuito dejando inutilizada tanto la placa base como otros componentes del propio servidor y además, afectando a otros servidores y routers ubicados en el mismo armario y segmento de alimentación (bank 2) dentro de la PDU.

Para evitar sucesos similares en el futuro se va a instalar una doble PDU en todos los armarios para dividir la posibilidad de que un corto circuito y desarme de una PDU afecte a otros servicios críticos. Así mismo se instalarán equipos ATS para ofrecer doble alimentación a servidores, switches o routers que por su hardware no la dispongan. Esperamos tener implementadas estas medidas en breve.

Pedimos disculpas

Somos conscientes de la importancia de tener el sitio web accesible en todo momento y que una interrupción de servicio, por pequeña que sea, puede afectar negativamente a cualquier negocio, nuestros técnicos trabajan en todo momento para evitar que situaciones como la ocurrida no se produzcan, por desgracia siempre existe la posibilidad de fallos. Lamentamos las molestias que esta situación ha provocado, agradecemos vuestra confianza y comprensión durante los momentos críticos que vivimos ayer.

Un fuerte abrazo por parte de todo el equipo que forma DonDominio.