gslb

SRE: How Google Runs Production Systems 讀書筆記（一）

2022 年 5 月 25 日2022 年 5 月 25 日
Ops

Google SRE 全球共計約 1000 人
SRE 是一群天生的懷疑論者，懷疑一切「高大尚」技術，以及任何「神奇的產品」
SRE 在確保系統可靠性方面沒有什麼萬靈丹，有的只是極度的務實(progmatic)
如果用一個詞來描述 Google 的歷史，那就是不斷的 scaling up
系統維運本質上是人與電腦共同參預的一項系統性工程
IT 產業大多自我封閉，交流過少，很多從業人員或多或少受到教條主義的限制
今天我們能感受到整個業界都在鼓吹厚顏無恥的「給我程式碼，其餘免談」；開源社群內部也正在形成一種「別問我問題」的風氣，過於強調平等卻忽略專家的意見
相對於最終的軟體結果、架構設計，真實的設計過程和作者本身的思考歷程更具價值
一套軟體的 40% ~ 90% 成本，其實是花費在建置之後的不斷維護過程

SRE 的工作範疇

維運具體服務
設計研發大型分散式系統
協助產品部門開發其系統的額外元件，如負載平衡，同時盡可能重複使用這些元件
想出各式各樣的方法，利用現有元件解決新的問題
對架構設計、維運流程不斷最佳化，讓這些大型系統有更好的「可靠性」

可靠性(reliability)——系統能夠在指定環境下，在要求的時間內成功持續執行某個功能的機率
SRE 的「S」最開始指的是 google.com
SRE 是從 Google 的內部職位、從 Web 社群中誕生的
與 DevOps 一詞不同的是，SRE 同樣認同 IaC，但 SRE 最關注的是可靠性（或者說是風險），甚至可以為了可靠性而「消除維運的需求」
可靠性就像安全性，愈早關注愈好
「無論對一套系統的執行原理掌握得多麼透徹，也不能阻止人為的意外錯誤。」
SRE 的「E」可以指事 —— Engineering，也可以是指人——Engineer

Read More »SRE: How Google Runs Production Systems 讀書筆記（一）