如何做好一名穩定性 SRE?

**導讀:**穩定性目前不再侷限於大促時的保障和平時的穩定性輪值,越來越體系化。本文基於作者在業務團隊工作過程中的沉澱,以及在盒馬兩年 SRE 的實戰經驗,從穩定性心態、監控體系、故障應急體系、資源體系、大促保障機制、日常保障機制等幾個層面,就如何做好 SRE 的工作進行了分享。

前言

2013 年,當我第一次接觸穩定性的時候,我是有些懵的,當時完全不知道穩定性是什麼,也不清楚要做什麼。在接下來的 8 年裏,我先後在菜鳥、天貓、盒馬從事中間件、業務系統、架構等方面的工作,期間一直穿插着負責穩定性和大促的保障工作。我的心態,大致經歷過以下幾個階段:

 

近兩年來,穩定性不再僅僅侷限於之前的大促保障和平時的穩定性輪值,越來越體系化,在保障體系、監控體系、資源體系、質量保障、變更管控等多個方面,越來越系統。阿里的各個事業部,也紛紛成立專職的 SRE 安全生產團隊。然而仍有很多人和業務團隊,對於穩定性的理解和認知未形成一個體系化的機制,下面就結合我在業務團隊系統穩定性上的認識,以及最近 2 年在盒馬的一些思考,做一個分享。

什麼是 SRE

SRE(Site Reliability Engineering,站點可靠性 / 穩定性工程師),與普通的開發工程師(Dev)不同,也與傳統的運維工程師(Ops)不同,SRE 更接近是兩者的結合,也就是 2008 年末提出的一個概念:DevOps,這個概念最近也越來越流行起來。SRE 模型是 Google 對 Dev+Ops 模型的一種實踐和拓展(可以參考《Google 運維解密》一書),SRE 這個概念我比較喜歡,因爲這個詞不簡單是兩個概念的疊加,而是一種對系統穩定性、高可用、團隊持續迭代和持續建設的體系化解決方案。

那麼要如何做好一個 SRE 呢,這是本文要探討的話題。

一  心態 & 態度

1  誰適合做穩定性?

就像前言裏我做穩定性前期的心態一樣,穩定性最初上手,是提心吊膽、不得其門而入的,所以想要做好穩定性,心態最重要,業務團隊想要找到合適做穩定性的人,態度也很重要。對於業務團隊,要如何挑選和培養團隊中最合適做穩定性的人呢?

必須選擇負責任的人

負責任是第一要素,主動承擔,對報警、工單、線上問題、風險主動響應,不怕喫苦;一個不負責任的人,遇到問題與我無關的人,邊界感太強的人,難以做好穩定性的工作。

原則上不要選擇新人

對於團隊 leader 而言,“用新人做別人不願意做的工作”,這個決定比較容易做出,但是這也相當於是把團隊的穩定性放在了一定程度的風險上,用新人做穩定性,其實只是用新人佔了穩定性的一個坑而已。新人不熟悉業務,不瞭解上下游,最多隻能憑藉一腔熱血,對業務和系統感知不足,容易導致線上風險無法被快速發現、故障應急無法迅速組織。

不要用過於 "老實" 的人

這裏的 “老實” 的定義是不去主動想優化的辦法,不主動出頭解決問題,但是很能喫苦,任勞任怨,也很能忍耐系統的腐爛和低效;這樣的人平時很踏實,用起來也順手,但是卻無法主動提高系統穩定性,有的時候反而會給系統穩定性造成傷害(穩定性就像大堤,不主動升級,就早晚會腐爛)。

2  業務團隊如何支持穩定性 SRE 人員

給資源

穩定性從來不只是穩定性負責人的事情,而是全團隊的事情,穩定性負責人要做的是建立機制,主動承擔,但是穩定性意識,要深入到團隊所有人腦子裏,穩定性的事情,要能夠調動團隊一切資源參與。

給空間

做穩定性的人,往往面臨一個尷尬場景:晉升困難,主要是因爲在技術深度和業務價值兩個方面,很容易被挑戰,對於業務團隊,一定要留給做穩定性的人足夠的思考和上升空間,將穩定性與團隊的技術架構升級、業務項目結合起來,共同推動。經過集團安全生產團隊的推動,目前在阿里,SRE 已經有了自己專門的晉升體系。

區分責任

當出現故障時,區分清楚責任,到底是穩定性工作沒有做到位,還是做到位了,但是團隊同學疏忽了,還是說只是單純的業務變化。

3  開發和 SRE 的區別

都是做技術的,很多開發剛剛轉向負責穩定性時,有些彎轉不過來。

舉個例子:對於 “問題”,傳統的開發人員更多的傾向於是“bug / 錯誤”,而 SRE 傾向於是一種“風險 / 故障”,所以,兩者對“問題” 的處理方法是不一樣的:

可見,開發人員面對問題,會首先嚐試去探究根因,研究解決方案;而 SRE 人員首先是評估影響,快速定位,快速止損恢復。目標和側重點的不同,造成了 SRE 思考問題的特殊性。

所以,成爲一名 SRE,就一定要從態度和方式上進行轉變,切換到一個 “團隊穩定性負責人” 的角度上去思考問題。

4  SRE 心態上的一些釋疑

下面這些疑惑,有很多是我最初做穩定性的時候面臨的問題,這裏給大家分享和解釋一下我的解決方法:

疑惑 1:做好了是應該的,出了問題就要負責任

不出問題,就是穩定性的基線,也是 SRE 的基本目標,所以這個話雖然殘酷,但是也不能說錯,關鍵在於:你要如何去做。

如果抱着一個 “背鍋” / “打雜” 的思想去做穩定性,那麼 “做好沒好處、做不好背鍋” 這句話就會成爲擊垮心理防線的最重的稻草。

應對這種心態的最關鍵一點,在於 “做好” 不出問題這條基線,要從下面 3 個方面去做:

(1)及時、快速的響應

這是最關鍵的一點,作爲一個 SRE,能夠及時、快速的響應是第一要務,遇到報警、工單、線上問題,能夠第一時間衝上去,不要去問是不是自己的,而是要問這個事情的影響是什麼,有沒有坑,有沒有需要優化的風險?這是對自己負責;

同時,快速的響應,還需要讓你的老闆第一時間知悉,這個不是在老闆面前愛表現拍馬屁,而是要讓你的老闆第一時間瞭解風險的發生,一個好的團隊 leader,一定是對質量、穩定性和風險非常敏感的 leader,所以,你要將風險第一時間反饋。這是對老闆負責。

反饋也是有技巧的,不僅僅是告知這麼簡單,你需要快速的說明以下幾個信息:

需要注意的是:如果你響應了,但是沒有及時的同步出來,等於沒響應,默默把事情做了,是開發者(Dev)的思維,作爲 SRE,風險和進展的及時組織和通報,纔是你應該做的。

當然,你的通報要注意控制範圍,最好優先同步給你的主管和產品進行評估,避免範圍過大引起恐慌,要根據事情的嚴重程度來共同決定,這是對團隊負責。

及時、快速的響應,是保證不出問題的關鍵,也是 SRE 人員贏得領導、業務方、產品和其他合作方信任的關鍵,贏得信任,是解決 “做好沒好處、做不好背鍋” 的基石。

(2)把機制建立好,切實落地

前面已經說過,“穩定性從來不只是穩定性負責人的事情”,這一點,要深入到團隊每個人的心裏,更要深入到 SRE 自己心裏,一人抗下所有,不是英雄的行爲,在 SRE 工作中,也不值得讚許,很多時候一人抗下所有隻會讓事情變得更糟糕。

作爲一個 SRE,想做到 “不出問題” 這個基線,關鍵還是要靠大家,如何靠大家呢?就是要落地一套穩定性的機制體系,用機制的嚴格執行來約束大家,這套機制也必須得到團隊 leader 的全力支持,不然無法展開,這套機制包括:

比如,如果總是 SRE 人員去響應報警和值班,就會非常疲憊勞累,人不可能永遠關注報警,那怎麼辦呢?可以從報警機制、自動化、值班機制 3 個方面入手:

一方面,讓報警更加準確和完善,減少誤報和漏報,防止大家不必要的介入,另一方面產出自動化機器人,自動進行一些機器重啓,工單查詢,問題簡單排查之類的工作,還有就是建立值班輪班,讓每個人都參與進來,既能讓大家熟悉業務,又能提高每個人的穩定性意識。

對於 SRE 來說,指定機制並且嚴格落地,比事必躬親更加重要。上面這些機制,將在後面的章節中詳細論述。

(3)主動走到最前線

SRE 工作,容易給人一種錯覺:“是做後勤保障的”,如果有這種思想,是一定做不好的,也會把 “做好沒好處、做不好背鍋” 這個疑惑無限放大。作爲 SRE 人員,一定要主動走到最前線,把責任擔起來,主動做以下幾個事情:

疑惑 2:穩定性總是做擦屁股的工作

這麼想,是因爲沒有看到穩定性的前瞻性和價值,如果你走在系統的後面,你能看到的就只有系統的屁股,也只能做擦屁股的工作,如果你走到了系統的前面,你就能看到系統的方向,做的也就是探索性的工作。

所以,要讓穩定性變成不 “擦屁股” 的工作,建議從下面 2 個方面思考:

(1)不能只做當下,要看到未來的風險,善於總結

暖曰:“王獨不聞魏文王之問扁鵲耶?曰:‘子昆弟三人其孰最善爲醫?’扁鵲曰:‘長兄最善,中兄次之,扁鵲最爲下。’魏文侯曰:‘可得聞邪?’扁鵲曰:‘長兄於病視神,未有形而除之,故名不出於家。中兄治病,其在毫毛,故名不出於閭。若扁鵲者,鑱血脈,投毒藥,副肌膚,閒而名出聞於諸侯。’魏文侯曰:‘善。使管子行醫術以扁鵲之道,曰桓公幾能成其霸乎!’凡此者不病病,治之無名,使之無形,至功之成,其下謂之自然。故良醫化之,拙醫敗之,雖幸不死,創伸股維。” 

——《鶡冠子 · 卷下 · 世賢第十六》

與扁鵲三兄弟一樣,如果想要讓穩定性有價值,SRE 同學一定不能站到系統的屁股後面等着擦屁股,必須走到前面,看到未來的風險。既要在發生問題時快速解決問題(做扁鵲),也要把風險歸納總結,推動解決(做二哥),還要在系統健康的時候評估鏈路,發現隱藏的問題(做大哥)。

  1. 做扁鵲大哥:在系統健康時發現問題

  2. 做扁鵲二哥:在系統有隱患時發現問題

  3. 做扁鵲:在系統發生問題時快速解決問題

(2)自動化、系統化、數據化

SRE 不是在做一種收尾型、擦屁股的工作,而是在做一種探索性、前瞻性的工作,但 SRE 不可避免的,會面對很多重複性的工作,所以除了要在組織和機制上做好分工,讓恰當的人做恰當的事之外,SRE 人員要經常思考產品的系統化和彈性化,要常常思考下面幾個問題:

這 3 個問題,我覺得可以從 3 個方面着手:

(1)自動化

這裏自動化,包括自動和自助 2 個部分。自動是指能夠系統能夠對一些異常自動恢復、自動運維,這部分,也可以叫做 “彈性”,它一方面包括兜底、容災,另一方面也包括智能化、機器人和規則判斷。比如,對一些可能導致問題的服務失敗,能夠自動走兜底處理邏輯,能夠建立一個調度任務,自動對這部分數據進行調度處理;對一些機器的 load 飈高、服務抖動等,能自動重啓,自動置換機器。

自助是讓你的客戶自己動手,通過提供機器人,自動識別訂單類型,自動排查訂單狀態和節點,自動告知服務規則特徵,自動匹配問題類型給出排查結果或排查過程等。

Google SRE 設置了一個 50% 的上限值,要求 SRE 人員最多隻在手工處理上花費 50% 的時間,其他時間都用來編碼或者自動化處理。這個可以供我們參考。

(2)系統化

系統化,可以體現在 SRE 工作的方方面面,我覺得,可以主要在 “監控、鏈路治理、演練” 3 方面入手。這 3 個方面也正好對應着“發現問題、解決風險、因事修人” 3 個核心。通過系統化,目的是讓我們 SRE 的工作形成體系,不再是一個個“點” 的工作,而是能夠連成“面”,讓 SRE 工作不再侷限於“後期保障 / 兜底保障”,而是能夠通過監控體系、鏈路風險、演練體系發現問題。

監控、鏈路治理和演練的系統化,將在後面的章節中詳細探討。

(3)數據化

穩定性工作,如果要拿到結果,做到可量化,可度量,就一定要在數據化上下功夫,這個數據化,包括如下幾個方面:

疑惑 3:穩定性似乎總是新人的垃圾場

雖然前文中說過,對於團隊而言,最好不要讓新人從事穩定性工作,但是穩定性畢竟是很多希望 “專注工作” 的開發人員不願意做的,這個時候,團隊 leader 很容易做出讓一個剛進入團隊的人從事穩定性工作,畢竟其他核心開發崗位的人似乎對團隊更加重要,也不能調開去從事這種 “重要不緊急” 的工作,不是嗎?

所以這個時候,新人被安排了穩定性工作,也是敢怒不敢言,充滿抱怨的做已經約定好的工作,或者渾渾噩噩的劃劃水,只在需要 “應急” 的時候出現一下。

這個現狀要解決,就要涉及到一個人的 “被認可度”,也是我們經常說一個人的價值(在個人自我感知上,我們認爲這是 “成就感”),很多人可能覺得一個人是因爲有價值,纔會被認可。而我認爲,一個人是因爲被認可,纔會覺得自己有價值,這樣纔會產生做一件事情的成就感。

畢竟,能一開始就找到自己喜歡並且願意去創造價值的事情,是很少的。大多數人是在不情不願的去做自己並不知道方向也無所謂成敗的事情。這個時候,是做的事情被認可,讓自己感覺有價值,產生興趣,而不是反過來,愛一行做一行是幸運的,做一行愛一行是勇敢的。

那麼對於穩定性的新人,如果你 “被安排” 從事了穩定性,那麼首先要注意下面 3 個點:

在有了上面 3 點心理建設之後,要開始在自己的心裏,構建 3 張圖,3 張表:

(1)3 張圖

(2)3 張表

心中 3 張圖,3 張表,可以讓自己心中有數,不會抓瞎,這就像林彪在《怎樣當好一個師長》一文中寫的那樣,心裏要有個 “活地圖”。這樣,一個新人才能快速熟悉起團隊的業務和系統,明白風險在哪裏,要往哪裏打。才能讓自己的工作變得被認可,直擊痛點,有價值。

二  監控

再牛的 SRE,也不可能對整個複雜系統瞭如指掌,也不可能做到對每次變更和發佈,都在掌控之內,所以對於 SRE 人員來說,就必須要有一雙敏銳的 “眼睛”,這雙 “眼睛”,無論是要快速響應,還是要發現風險,都能快速發現問題,這就是 “監控”。

從運維意義上講,“發現問題” 的描述 和 “監控” 的實現之間的對應關係如下:

QkCvE5

1  監控的 5 個維度

監控的核心目標,是快速發現 “異常”。那如何定位異常呢?是不是低於我們設置的閾值的,都是異常?如果要是這麼定義的話,你會發現,報警非常多,應接不暇。

要定義異常,就要考慮一個問題:兼容系統的彈性,也就是系統要有一定的容錯能力和自愈能力,不然就會非常脆弱和敏感。因此,我對 “異常” 的定義,是:在服務(體驗)、數據、資金 3 個方面中至少 1 個方面出現了損失 或 錯誤。我認爲,一個系統,如果在下面 3 個方面沒有出現問題,那麼即使中間過程出現了偏差,或者沒有按既定路徑達到最終結果,我也認爲沒有出現“異常”(這也是一種彈性):

所以監控一個系統是否具有健壯性(即:彈性 (Resilient),這一點在後面【彈性建設】中詳細論述),就要從這 3 個最終目標去實現,爲了達到這 3 個目標,我們可以從 系統自身、服務接口、業務特徵、數據、資金對賬 5 個維度保障監控的準確性。

下圖詳細解釋了這 5 個維度:

2  監控大盤

建立監控大盤的目的,是在大促等關鍵時期,在一張圖上能夠看到所有的關鍵指標。所以大盤的 key point 應該是 “直觀簡潔、指標核心、集中聚焦”。在大盤上,我認爲要包括以下要素:

3  避免監控信息爆炸

在 SRE 的實踐過程中,爲了保證監控的全面,往往會增加很多報警項,報警多了之後,就會像洪水一樣,漸漸的 SRE 對於監控就不再敏感了,讓 SRE 比較煩惱的一個問題,就是如何做監控報警瘦身?

目前一般來說,我們的監控報警至少包括 2 種方式:

  1. 推送到手機的報警,如電話、短信報警。

  2. 推送到釘釘的報警,如報警小助手、報警。

我個人的建議是:

謹慎使用電話報警

因爲這會讓人非常疲憊,尤其是夜間,而且容易導致接收者將電話加入騷擾攔截,當真正需要電話報警的時候,就會通知不到位;因此電話報警,一定要設置在不處理要死人的大面積 / 關鍵問題上;

設置專門的唯一的釘釘報警羣

一定一定要建設專門釘釘報警羣,而且 1 個團隊只能建 1 個羣,中間可以用多個報警機器人進行區分。報警羣的目的只有 1 個:讓所有的報警能夠在這個羣裏通知出來。只建一個羣,是爲了報警集中,且利於值班同學在報警羣中集中響應。

報警留底

所有報警,一定要能留底,也就是有地方可以查到歷史報警,所以建議所有報警,不管最終用什麼方式通知,都要在釘釘報警羣裏同時通知一份,這樣大家只看這個羣,也能查到歷史報警。在進行復盤的時候,歷史報警作用非常關鍵,可以看到問題發現時間,監控遺漏,問題恢復時間。

日常報警數量限制

一般來說,如果一段時間內,報警短信的數量超過 99 條,顯示了 99+,大家就會失去查看報警的興趣,因此,一定要不斷調整報警的閾值,使其在業務正常的情況下,不會頻繁報警。在盒馬履約,我們基本可以做到 24 小時內,報警羣內的報警總數,在不出故障 / 風險的情況下小於 100 條;這樣的好處是明顯的,因爲我們基本上可以做到 1 個小時以上才查看報警羣,只要看到報警羣的新增條數不多(比如只有 10 條左右),就能大致判斷過去的一個小時內,沒有嚴重的報警發生;減少報警的方法,可以採用如下手段:

報警要能夠互補

我們經常提到監控的覆蓋率,但是覆蓋還是不夠的,因爲監控可能出現多種可能性的缺失(丟日誌、通信異常等),因此要能夠從多個維度覆蓋,比如,除了要直接用指標覆蓋 qps,還需要通過日誌來覆蓋一遍,除了要用日誌覆蓋一些訂單趨勢,還要從 db 統計上覆蓋一遍,這樣一個報警丟失,還至少有另外一個報警可以 backup。

4  有效發現監控問題

作爲一個 SRE 人員,很容易發現一個點,如果有幾次線上問題或報警響應不及時,就會被老闆和同事質疑。同樣的,如果每次線上問題都能先於同事們發現和響應,就會贏得大家信任,那要如何做到先於大家發現呢?我的建議是:像刷抖音一樣刷監控羣和值班羣。

一般來說,一個團隊的穩定性問題在 3 類羣裏發現:BU 級消防羣、團隊的監控報警羣、業務值班羣;所以沒有必要紅着眼睛盯着監控大盤,也沒必要對每個報警都做的好像驚弓之鳥,這樣很快自己就會疲憊厭煩。

我的經驗是按下面的步驟:

要做到 “有效” 兩個字,SRE 人員,需要有一個精確的判斷:當前報警是否需要處理?當前報警是否意味着問題?當前報警的影響範圍和涉及人員是誰?當前工單 / 問題是否可能進一步擴大,不同的判斷,採取的行動是不同的。

三  故障應急

前面 1.4.1 中,有提到如何及時、快速的響應,這一點是作爲 SRE 人員在故障應急時的關鍵,也是平時處理線上問題的關鍵。除此之外,在應對故障方面,還有很多事情需要做。

1  系統可用性的定義

ufried 在 2017 年的經典彈性設計 PPT:《Resilient software design in a nutshell》中,對系統可用性的定義如下:

可見,影響系統可用性的指標包括 2 個方面:MTTF(不出故障的時間)和 MTTR(出故障後的恢復時間),所以,要提高系統可用性,要從 2 個方面入手:

  1. 儘量增加無故障時間

  2. 儘量縮短出故障後的恢復時間

對故障應急來說,也要從這兩個方面入手,首先要增加無故障時間,包括日常的風險發現和風險治理,借大促機會進行的鏈路梳理和風險治理。只有不斷的發現風險,治理風險,才能防止系統穩定性腐爛,才能增加無故障時間。

其次,要縮短出故障之後的恢復時間,這一點上,首先要把功夫花在平時,防止出現故障時的慌張無助。平時的功夫,主要就是場景梳理和故障演練。

2  場景梳理

故障場景梳理,重點在於要把可能出現故障的核心場景、表現、定位方法、應對策略梳理清楚,做到應對人員爛熟於心,爲演練、故障應急提供腳本。

s7Yqu3

通過這種程度的梳理,SRE 以及其掌控的故障應對人員,能夠快速的明確發生問題的場景,以及場景下的影響、表現、定位方法、應對策略。當然,如果要把這些場景牢記,做到快速應對,就需要依靠:演練。

3  故障演練

演練對故障應急無比重要,但是,我個人十分反對把演練作爲解決一切問題的手段。演練本身,應該是驗證可行性和增加成熟度的方式,只能錦上添花,而不能解決問題,真正解決問題的應該是方案本身。

不要進行無場景演練

有些演練,不設置場景,純粹考察大家的反應,這種演練,上有政策下有對策,表面上是在搞突然襲擊,其實已經預設了時間段,預設了參加的域,不太可能做到完全毫無準備,到了演練的時間點,大家可以通過死盯着報警羣,調整各種報警閾值的方式,更快的發現問題;而且完全無場景的演練,一般只能演練如 fullGC,線程池滿,機器 load 高,接口注入異常,對於一些數據錯誤,消息丟失,異步任務積壓等場景,很難演練。

針對性的,我建議多進行場景演練,各域要提前進行 3.2 節這種詳細的場景梳理,通過場景攻擊,提高大家的應對成熟度。事實上,現在橫向安全生產團隊不對各個業務團隊進行場景攻擊的原因,也是因爲橫向安全生產團隊自己也不熟悉各個業務團隊的業務場景,這個就需要加強對業務場景攻擊方式的規範化,橫向安全生產團隊也要加強機制建設,讓縱向業務團隊能夠產出場景,而不是每次都在線程池、fullGC、磁盤空間這些方面進行攻擊。

不要無意義的提速演練

演練本身雖然確實有一個重要目的是提高應對熟練度,但是不同的業務是有區別的,有些業務的發現本身,就不止 1 分鐘(比如某些單據積壓場景,消息消費場景),這些場景,如果不參加評比,或者流於形式了,就會讓攻擊本身沒有意義。

針對性的,我建議各個業務根據各自的特點,定製演練。如:普通電商業務,關注下單成功率,有大量的實時同步調用;新零售業務,關注單據履約效率,有大量的異步調度;每個業務,根據實際場景和業務需要,制定 “有各自特色的要求” 的演練標準,演練不一定要千篇一律,但是一定要達到業務的需求標準。這樣也更加有利於演練場景的落地,有利於藍軍針對性的制定攻擊策略。

各個 SRE 同學,不管大的政策怎麼樣,還是要關注團隊內部的場景本身:

同時,在演練前後,要注意跟老闆的溝通,要讓老闆理解到你組織的演練的目標和效果,不然就不是演習,而是演戲了。要和老闆的目標契合,在演練過程中,通過演練提高大家對業務場景的理解深度和對問題的應對速度,增加大家的穩定性意識,達到 “因事修人” 的目的。

4  故障應急過程

如果不幸真的產生了故障,作爲 SRE,要記得如下信息:

我個人其實不太贊同預案自動化和強運營的故障應急方案,這一點也是給安全生產同學的建議,比如預案自動化,有很強的侷限性,只有在明確預案的執行肯定不會有問題、或者明顯有優化作用的情況下,才能自動執行。否則都應該有人爲判斷。

強運營類的工作,會導致人走茶涼,比如 GOC 上自動推送的預案,故障場景關聯的監控這種,一方面應該儘量減少強運營的工作,另一方面應該定期組織維護一些必要預案。

5  與兄弟團隊的關係

如果兄弟團隊發生故障,一定注意:

  1. 不能嘲笑別人,看笑話。

  2. 不能當沒事人,高高掛起,要檢查自身。

  3. 不能話說的太滿,比如說我肯定沒故障。

尤其是 1 和 3,非常邪性,嘲笑別人的團隊,或者覺得自己萬事大吉,很容易沾染故障。(其實本身是由科學依據的,嘲笑別人的,一般容易放鬆警惕)

4  資源管控

作爲一個 SRE,在資源管控領域,一定要保證自己域有足夠的機器,同時又不會浪費太多。我個人的建議是,核心應用,應該控制 load 在 1-1.5 左右(日常峯值或 A 級活動場景下),控制核心應用在 10 個以內,非核心應用,應該控制 load 在 1.5-2 左右(日常峯值或 A 級活動場景下)。目前集團很多應用 load 不到 1,甚至只有 0. 幾,其實很浪費的。

同時,一個團隊的 SRE,至少隨時手上應該握有 20% 左右的空餘額度 buffer,方便隨時擴容,或者應對新業務增長。這些額度,目前按照集團的預算策略,只要不真的擴容上去,都是不收費的,所以應當持有。

除了機器以外,tair、db、消息、精衛等,也要如上操作,除了年初準備好一年的預算,還要額外準備 20% 左右的 buffer。

SRE 要自己梳理一份資源表,表中一方面要明確有哪些資源,餘量多少,另一方面要明確資源的當前水位、壓力。

比如機器資源,要關注當前機器數、額度、load,如:

再比如對數據庫資源,要關注數據庫的配置、空間、日常和峯值 qps、單均訪問量(創建一個訂單,要讀和寫 DB 多少次,這一點很關鍵)。

限於篇幅,以上是本文的上半部分,下半部分作者將分享大促保障機制、日常穩定性機制、彈性建設及價值建設方面的內容,同學們可點擊 “閱讀原文” 繼續閱讀~

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/jouVDaK8UuQwDMbrxizD5A