Mi biblioteca y caja de herramientas

No se puede construir sin planos

En mi viaje hacia la mentalidad SRE, una de las cosas más importantes ha sido apoyarme en la experiencia de quienes definieron esta disciplina. No se trata de reinventar la rueda, sino de aprender a usar las mejores herramientas y planos que ya existen.

Hoy quiero compartir los recursos que considero absolutamente esenciales y a los que vuelvo una y otra vez.

1. La “Biblia” de SRE: Los libros de Google

No hay atajos aquí. Si quieres entender SRE, tienes que leer los libros que lo iniciaron todo. Son densos, pero cada capítulo es oro puro.

Mi recomendación es leer primero el libro original para asentar las bases y luego usar el Workbook para aplicar los conceptos a tu propio trabajo.

2. Blogs que hay que tener en favoritos

La tecnología avanza rápido. Estos blogs son parte de mi fuente principal para mantenerme al día sobre cómo las grandes empresas abordan los problemas de fiabilidad a escala.

  • El Blog de SRE de Google: Obviamente. Publican artículos profundos sobre temas muy específicos.
  • Netflix Technology Blog: Netflix opera a una escala masiva y son pioneros en microservicios y resiliencia. Sus artículos sobre caos engineering (Chaos Monkey) son fascinantes.
  • El Blog de Ingeniería de Slack (Several Nines): Slack ha tenido que escalar de forma masiva y su blog detalla muchos de los desafíos de fiabilidad que han enfrentado. Es muy honesto y transparente.

3. Una Charla que me cambió la perspectiva

A veces, una buena charla puede hacer “clic” en tu cabeza de una forma que un libro no consigue. Esta es una de mis favoritas:

  • “Getting Started with SRE” por Stephen Thorne (Google): Es una charla introductoria fantástica que resume los principios clave de SRE de una forma muy amena y accesible. Si tienes que convencer a tu equipo o a tu jefe de por qué SRE es importante, enséñales este vídeo. Puedes encontrar varias versiones de esta charla en YouTube de diferentes eventos de SREcon.

Empezar en SRE puede ser abrumador. Mi consejo es que no intentes leerlo todo de golpe. Empieza por el capítulo de SLOs del libro de Google, intenta aplicarlo a un servicio pequeño que gestiones y ve construyendo desde ahí.