같은 서비스를 전세계의 사람들이 사용하면서 트래픽이 늘어남에 따라 우리는 안정성있게 제공되는 서비스에 대해서 주목하게 되었다. 수 많은 사람들이 사용하는 서비스에서 문제가 발생하고 빠르게 조치가 취해지지 않으면 모두가 혼란에 빠질 수 있는데 이런 상황을 빠르게 대처할 수 있게 하는 것이 SRE이다. SRE는 소프트웨어를 툴로 활용하여 시스템을 관리, 문제를 해결하고 운영 태스크를 자동화하는 접근 방식이다. SRE를 담당하는 팀은 장애를 예측하여 예방하고, 발생한 장애를 빠르게 탐지하고, 빠른 복구를 위한 지원을 제공한다. 또한 발생했던 장애가 다시 일어나지 않도록 조치한다.
이 책은 SRE의 필요성을 느낀 저자가 엔지니어링 팀의 행동 걍령과 이것을 실현하기 위한 방법을 소개하고 있다. 규모가 작은 소프트웨어 개발 회사부터 큰 개발 회사(넷플릭스)까지 다양한 환경에서 경험을 쌓아온 저자가 그동안의 경험을 통해서 얻은 지식을 공유한다.
솔직히 아직 개발자라고 하긴 어려운 내 수준에서 이 책은 어려웠다. 두 번 정도 읽었는데 아직은 완전히 와닿지 않는 개념도 있었다. 하지만 어렵게 이해해가는 와중에도 이 기술은 알아야 하는 기술이기에 내가 개발 지식을 좀 더 많이 쌓고 나면 꼭 다시 한 번 읽어야할 책이라고 생각되었다. 이 책을 읽고 나면 내가 서버를 담당하는 개발자가 되었을 때 나의 기술력을 한 단계 높이고자 할 때 이떤 면을 고민해야할지 방향성을 잡을 수 있다. 그래서 다시 한 번 읽고 싶은 책이다.
또한 처음보는 용어가 수두룩했음에도 끝까지 읽을 수 있게 전개되었다. 글이 많아 부담스러울 수 있지만 막상 읽어보면 그렇게 불친절한 책이 아니라는 이야기다. 저자가 넷플릭스에서 근무한 경험을 바탕으로 썼기때문에 대규모의 서비스를 제공하는 회사에서는 개발할 때 어떤 것을 고민하는지 간접 경험할 수 있는 기회가 될 것도 같다.
* 대규모 트래픽을 감당해야하는 서비스를 제공하는 기업에서는 장애를 예방하기 위해 집중적으로 관리하고, 발생한 장애를 빠르게 처리할 수 있는 방법을 계속해서 원하기 때문에 특히 서버를 담당하거나, 혹은 팀을 이끌어가는 사람이라면 SRE에 대해서 꼭 공부해야한다고 생각한다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."