A veces todo se rompe a la vez

Ayer fue un día curioso, primero porque me pasé toda la mañana fuera de la oficina y luego porque por la tarde solucioné más problemas críticos por hora que en toda mi vida.

Por la mañana estuve en las charlas de Amazon y ya nos avisaron de que el sistema de correo de un cliente había dejado de funcionar, pero eso solo fue la punta del iceberg.

Los problemillas

Cuando llegué tras comer a base de canapés en el cóctel posterior a las charlas me encuentro los siguientes problemillas:

  • Sistema de correo en cliente no funciona.
  • Espejos entre cabinas de almacenamiento rotos.
  • Disco de la cabina de almacenamiento secundaria roto y sin disco de reserva.
  • Disco del segundo servidor de backup en disco (llámame paranoico si quieres) roto y sin disco de reserva.
  • RAID del primer servidor de backup en disco reconstruyéndose.
  • Fallos en el acceso a los discos de las cabinas de almacenamiento.

Y eso que solo me he ido al centro. ¡Si me hubiera ido a Ávila todo el día!

¡Y encima un Juernes! ¡Que quiero llevar al niño a ver los tanques por la Castellana!

Las soluciones

Lo bueno es que según vas haciendo años te vas sintiendo como Neo en Matrix. Esto, además de ser un indicador de que tienes que empezar a pensar en cambiar tu área de actividad, te da una seguridad y una tranquilidad que asusta a los demás y te permiten pensar fríamente las cosas actuando rápido y priorizando tareas.

En 6 horas...

  • Arreglamos el servicio de correo del cliente
  • Baile de discos:
    • Apagué los contenedores del servidor de backup 2 para que el raid se reconstruyera más rápido y puse una tarea para que se reiniciase una vez reconstruido el RAID.
    • Pregunté a nuestro querido becario si alguno de los discos que le había mandado comprobar con badblocks funcionaba ¡y me dijo que si!
    • Poner ese disco en la cabina con el disco roto y dejar reconstruyendo el RAID.
    • Sustituir un disco en uso en una cabina por otro de menor capacidad y dejar reconstruyendo el RAID.
    • Poner el disco en el segundo servidor de backup y dejar reconstruyendo el RAID.
  • Veo que se ha roto el controlador de las cabinas de disco VSX y que por eso no se ven los discos así que lo apago, enciendo el de reserva y ... funciona
  • Muevo los contenedores de web y redmine a dos servidores libres de reserva.
  • Reinicio primer servidor para que reenganche los discos de las cabinas. Todo OK.
  • Apagado de los servidores de virtualización con sus 74 máquinas virtuales.
  • Encendido ordenado de todos los servidores de virtualización comprobando que ven los discos ... y no todos lo hacen a la primera
  • Encendido ordenado de todas las máquinas virtuales
  • Ir a casa haciendo slalom entre los coches
  • Bañar, dar de cenar y meter en la cama a un niño de 3 años y una niña de 10 meses

Pero todo falla todo el tiempo

Hoy me he levantado para ver como iba todo y me encuentro:

SRX shelf 3> list -l
 0 3000.647GB online 
  0.0   3000.647GB raid5 normal 
    0.0.0  normal    500.108GB 3.0 
    0.0.1  normal    500.108GB 3.1 
    0.0.2  normal    500.108GB 3.2 
    0.0.3  normal    500.108GB 3.3 
    0.0.4  normal    500.108GB 3.14 
    0.0.5  normal    500.108GB 3.5 
    0.0.6  normal    500.108GB 3.6 
 1 3000.647GB online 
  1.0   3000.647GB raid5 degraded 
    1.0.0  normal    500.108GB 3.7 
    1.0.1  failed    500.108GB 3.13 
    1.0.2  normal    500.108GB 3.9 
    1.0.3  normal    500.108GB 3.10 
    1.0.4  normal    500.108GB 3.11 
    1.0.5  normal    500.108GB 3.12 
    1.0.6  normal    500.108GB 3.4 
SRX shelf 3>

Pero bueno, ya me ocuparé de eso el Lunes ... o le diré a alguien que se ocupe de ello.

Como Neo en Matrix

Si te sientes demasiado a gusto en tu trabajo la ecuación está desequilibrada así que deberías intentar buscar otra actividad para equilibrar la ecuación.

Lo que quiero decir es que corres peligro de convertirte en un dinosaurio si te mantienes siempre en tu área de confort. Hay que tener siempre retos nuevos, aprender cosas nuevas, nuevos lenguajes, nuevas formas de hacer las cosas, ... porque sino algún día, cuando tengas 50 años tu no habrás cambiado pero el mundo si lo habrá hecho y de repente de verás diciendo ¿Quién se ha llevado mi queso?

Cambio de área de actividad

Ayer fue el día que realmente me ha empujado a tomar la decisión de delegar todo mi trabajo de sistemas para ponerme en serio a aprender bien a manejar puppet, AWS, ruby, ..., esperanto ;-) .

Salir de mi área de confort, sentirme de nuevo tan inseguro como un universitario en su primera semana de trabajo (aunque eso lo veo difícil), buscar enfoques nuevos ... dar soluciones hoy con enfoques actuales.

El álbum de hoy

Point of No Return by Roger Subirama Mata.

A veces todo se rompe a la vez

Ayer fue un día curioso, primero porque me pasé toda la mañana fuera de la oficina y luego porque por la tarde solucioné más problemas críticos por hora que en toda mi vida.

Por la mañana estuve en las charlas de Amazon y ya nos avisaron de que el sistema de correo de un cliente había dejado de funcionar, pero eso solo fue la punta del iceberg.

Los problemillas

Cuando llegué tras comer a base de canapés en el cóctel posterior a las charlas me encuentro los siguientes problemillas:

  • Sistema de correo en cliente no funciona.
  • Espejos entre cabinas de almacenamiento rotos.
  • Disco de la cabina de almacenamiento secundaria roto y sin disco de reserva.
  • Disco del segundo servidor de backup en disco (llámame paranoico si quieres) roto y sin disco de reserva.
  • RAID del primer servidor de backup en disco reconstruyéndose.
  • Fallos en el acceso a los discos de las cabinas de almacenamiento.

Y eso que solo me he ido al centro. ¡Si me hubiera ido a Ávila todo el día!

¡Y encima un Juernes! ¡Que quiero llevar al niño a ver los tanques por la Castellana!

Las soluciones

Lo bueno es que según vas haciendo años te vas sintiendo como Neo en Matrix. Esto, además de ser un indicador de que tienes que empezar a pensar en cambiar tu área de actividad, te da una seguridad y una tranquilidad que asusta a los demás y te permiten pensar fríamente las cosas actuando rápido y priorizando tareas.

En 6 horas...

  • Arreglamos el servicio de correo del cliente
  • Baile de discos:
    • Apagué los contenedores del servidor de backup 2 para que el raid se reconstruyera más rápido y puse una tarea para que se reiniciase una vez reconstruido el RAID.
    • Pregunté a nuestro querido becario si alguno de los discos que le había mandado comprobar con badblocks funcionaba ¡y me dijo que si!
    • Poner ese disco en la cabina con el disco roto y dejar reconstruyendo el RAID.
    • Sustituir un disco en uso en una cabina por otro de menor capacidad y dejar reconstruyendo el RAID.
    • Poner el disco en el segundo servidor de backup y dejar reconstruyendo el RAID.
  • Veo que se ha roto el controlador de las cabinas de disco VSX y que por eso no se ven los discos así que lo apago, enciendo el de reserva y ... funciona
  • Muevo los contenedores de web y redmine a dos servidores libres de reserva.
  • Reinicio primer servidor para que reenganche los discos de las cabinas. Todo OK.
  • Apagado de los servidores de virtualización con sus 74 máquinas virtuales.
  • Encendido ordenado de todos los servidores de virtualización comprobando que ven los discos ... y no todos lo hacen a la primera
  • Encendido ordenado de todas las máquinas virtuales
  • Ir a casa haciendo slalom entre los coches
  • Bañar, dar de cenar y meter en la cama a un niño de 3 años y una niña de 10 meses

Pero todo falla todo el tiempo

Hoy me he levantado para ver como iba todo y me encuentro:

SRX shelf 3> list -l
 0 3000.647GB online 
  0.0   3000.647GB raid5 normal 
    0.0.0  normal    500.108GB 3.0 
    0.0.1  normal    500.108GB 3.1 
    0.0.2  normal    500.108GB 3.2 
    0.0.3  normal    500.108GB 3.3 
    0.0.4  normal    500.108GB 3.14 
    0.0.5  normal    500.108GB 3.5 
    0.0.6  normal    500.108GB 3.6 
 1 3000.647GB online 
  1.0   3000.647GB raid5 degraded 
    1.0.0  normal    500.108GB 3.7 
    1.0.1  failed    500.108GB 3.13 
    1.0.2  normal    500.108GB 3.9 
    1.0.3  normal    500.108GB 3.10 
    1.0.4  normal    500.108GB 3.11 
    1.0.5  normal    500.108GB 3.12 
    1.0.6  normal    500.108GB 3.4 
SRX shelf 3>

Pero bueno, ya me ocuparé de eso el Lunes ... o le diré a alguien que se ocupe de ello.

Como Neo en Matrix

Si te sientes demasiado a gusto en tu trabajo la ecuación está desequilibrada así que deberías intentar buscar otra actividad para equilibrar la ecuación.

Lo que quiero decir es que corres peligro de convertirte en un dinosaurio si te mantienes siempre en tu área de confort. Hay que tener siempre retos nuevos, aprender cosas nuevas, nuevos lenguajes, nuevas formas de hacer las cosas, ... porque sino algún día, cuando tengas 50 años tu no habrás cambiado pero el mundo si lo habrá hecho y de repente de verás diciendo ¿Quién se ha llevado mi queso?

Cambio de área de actividad

Ayer fue el día que realmente me ha empujado a tomar la decisión de delegar todo mi trabajo de sistemas para ponerme en serio a aprender bien a manejar puppet, AWS, ruby, ..., esperanto ;-) .

Salir de mi área de confort, sentirme de nuevo tan inseguro como un universitario en su primera semana de trabajo (aunque eso lo veo difícil), buscar enfoques nuevos ... dar soluciones hoy con enfoques actuales.

El álbum de hoy

Point of No Return by Roger Subirama Mata.