Mi biblioteca y caja de herramientas
No se puede construir sin planos
En mi viaje hacia la mentalidad SRE, una de las cosas más importantes ha sido apoyarme en la experiencia de quienes definieron esta disciplina. No se trata de reinventar la rueda, sino de aprender a usar las mejores herramientas y planos que ya existen.
Hoy quiero compartir los recursos que considero absolutamente esenciales y a los que vuelvo una y otra vez.
1. La “Biblia” de SRE: Los libros de Google
No hay atajos aquí. Si quieres entender SRE, tienes que leer los libros que lo iniciaron todo. Son densos, pero cada capítulo es oro puro.
- Site Reliability Engineering: How Google Runs Production Systems: Este es el libro fundacional. Explica el qué y el porqué de SRE. Los capítulos sobre SLOs, Error Budgets y Toil son de lectura obligatoria.
- The Site Reliability Workbook: Practical Ways to Implement SRE: Este es el manual práctico. Mientras que el primer libro es la teoría, este es la práctica. Está lleno de ejemplos concretos sobre cómo implementar SLOs, cómo gestionar incidentes, etc.
Mi recomendación es leer primero el libro original para asentar las bases y luego usar el Workbook para aplicar los conceptos a tu propio trabajo.
2. Blogs que hay que tener en favoritos
La tecnología avanza rápido. Estos blogs son parte de mi fuente principal para mantenerme al día sobre cómo las grandes empresas abordan los problemas de fiabilidad a escala.
- El Blog de SRE de Google: Obviamente. Publican artículos profundos sobre temas muy específicos.
- Netflix Technology Blog: Netflix opera a una escala masiva y son pioneros en microservicios y resiliencia. Sus artículos sobre caos engineering (Chaos Monkey) son fascinantes.
- El Blog de Ingeniería de Slack (Several Nines): Slack ha tenido que escalar de forma masiva y su blog detalla muchos de los desafíos de fiabilidad que han enfrentado. Es muy honesto y transparente.
3. Una Charla que me cambió la perspectiva
A veces, una buena charla puede hacer “clic” en tu cabeza de una forma que un libro no consigue. Esta es una de mis favoritas:
- “Getting Started with SRE” por Stephen Thorne (Google): Es una charla introductoria fantástica que resume los principios clave de SRE de una forma muy amena y accesible. Si tienes que convencer a tu equipo o a tu jefe de por qué SRE es importante, enséñales este vídeo. Puedes encontrar varias versiones de esta charla en YouTube de diferentes eventos de SREcon.
Empezar en SRE puede ser abrumador. Mi consejo es que no intentes leerlo todo de golpe. Empieza por el capítulo de SLOs del libro de Google, intenta aplicarlo a un servicio pequeño que gestiones y ve construyendo desde ahí.