幡ヶ谷亭直吉ブログ

娘のここねと格闘するエンジニア。

『SREをはじめよう』を読んで ~ 信頼性を改善するフィードバックループを作る人たち

読書メモ。2025年5冊目。
『SREをはじめよう』を読んでの感想となります。(2025/1/14記載)

本の概要

Webシステムの信頼性は、いまや企業と組織の信頼性にも大きな影響を及ぼしています。そのシステムの信頼性を確保するのがSRE、つまり「サイトリライアビリティエンジニア」と呼ばれる職種、あるいは「サイトリライアビリティエンジニアリング」という技能、活動です。
本書は、自身もSRE/DevOps/システム管理の分野で40年のキャリアを持つ筆者による、個人がSREになるための、また組織がSREを導入し、発展させるための指針を平易かつコンパクトにまとめた書籍です。
「SREとはどのようなものか」「SREになるには何をすればよいのか」「SREを導入するにはどのように始めればいいのか」「するべきこと、避けるべきこと」といった、SREにまつわるさまざまなトピックを幅広く解説します。
SREという技能/概念をゼロから学びたい人、SREを目指すエンジニア、またSREを組織に導入することを検討している、導入したけれど思ったより上手く行っていない組織や企業にとって、多くの発見のある書籍となるでしょう。

引用:

www.oreilly.co.jp

動機

・SREという存在を聞くようになったけど分かっていない。
・プラットフォーム・エンジニアとの違いを知り合い。
・担当案件において運用監視の対応に困ることがあり、SREは回答となるのか知りたい。

感想

SREに対する知識ゼロの人間が頭に入れるには凄く分かりやすい内容でした。

プラットフォームエンジニアと役割は異なり、信頼性獲得のための主体的な役割と理解しました。
なんとなくストリームアラインドチームに所属するか、イネーブリングチームとしての配置が適切なのかも知れないと思っています。
QAの役割とも近い気が。

また、開発チームの運用監視の設定などのノイズとなるタスクを引き受けて欲しい、という自分の意図ともニュアンスが違うと思いました。
あくまで信頼性が保証された環境を構築することが主目的であり、向き合いはストリームアラインドチームだけではなく、プロダクトの先のユーザーにもあると理解しました。

もっとSLI/SLOやエラーバジェットについても理解したく、他のSRE本も追いたいと思いました。
本書はSREの全体像を把握するのに非常に分かりやすい1冊でした。

忘れたくないメモ

■SREについて
・SREは、組織がシステム、サービス、製品において適切なレベルの信頼性を持続的に達成できるよう支援することを目的とした工学分野。

・SREは、新しい状況や技術が発生したときに、信頼性に関する理解を調査し、明瞭化し、 反復することを促す。

■信頼性を醸成するフィードバックループについて
・SREは本番環境から始まり、後方にある開発者のパソコン、顧客に与える影響にも強い好奇心を持つ。

・SREは失敗を『学ぶ機会』として扱う。
・失敗から学ぶことは、自分たちの望む適切なレベルの信頼性をもたらす。
・SREの組織文化はインシデントの処理とレビューに集中的に取り組むことで醸成される。
・SREの心構えは、「信頼性はフィードバックループを通じて改善される」という考えに根ざす。
・積極的なSRE実践の接結点について。
 第一に、監視/オブザーバビリティが、システムの現在の状態を明らかにする。
 第二に、SLI/SLOのような作業計画プロセスが、私たちの意図や「あるべき姿」の目標を合理的な程度に明確にする。
 最後に、インシデントや障害、それに伴う対応策が、あるべき姿から現状がどのように乖離しうるか、あるいはしてきたかについてのデータを提供する。
 失敗から意図的に学ぶことで、現在地から目指す場所へと反復するためのフィードバックループを作り、育成できる。
フィードバックループを可能な限り作成し、育成することがSREの役割。
・SREは、本番環境での失敗時だけでなく、プロジェクトの計画段階からその専門知識と経験を発揮することができる。

■SRE文化の醸成について
・SREは、プライバシー、倫理、インクルージョン、平等に対する、継続的かつ積極的な学び、改善が求められる
・SREチームのメンバーが一時的に他チー ムのポジションに就く、または他チームのメンバーがSREとして働くことで、組織全体のSRE文化の醸成につながる


■トイル軽減について
・より高度なトイル軽減の取り組みは、将来抱えるトイルを軽減することを目的とする
・小規模なトイル削減作業から、中級から上級のステップアップのためには、トイルを特定し、定量化することが必要

■なぜなぜ分析について

hiliteeternal.hatenablog.com

備考

本書内でもいろいろSREについての書籍が紹介されている中、次のSRE本として以下を積みました。

SRE サイトリライアビリティエンジニアリングが”ザックリ”「すっきり」分かる本: Googleが実践している新DevOps方法論 

知りたいことが多すぎで本当に時間が足りない。

最近ポットキャストのこの回も分かりやすかったです。

open.spotify.com