云時代的運維群像:從“救火隊”到“建筑師”
一名“云端救火隊員”的自我修養
作為一名擁有近20年工齡的老華為人,李寧泊在進入到SRE崗位之前,做了許多年的通訊產品和云產品的開發和設計工作,具備豐富的軟硬件開發設計經驗,在軟件工程和系統維護等方面,也形成了自己獨到的理解。
華為云SRE運維團隊工作場景
雖不是“根正苗紅”、“科班出身”,但豐富的開發經驗,讓李寧泊對于云計算時代的運維有著不一樣的視角和思考。
“運維”二字,一言以蔽之,就是“維護軟硬件系統的穩定運行”。在李寧泊看來,“維護”分為兩種:被動維護和主動維護。
所謂被動維護,即通過運維團隊的快速反應和即時修復,守護服務器和現網的安全穩定,就如同常見的Windows更新、打補丁、修漏洞。此時的運維工程師,扮演的是一個“救火隊員”的角色:
在這種模式下,運維工程師在問題出現之前需隨時待命,實時關注系統的各項數據、定時巡檢、查漏補缺;在問題出現時緊急出動,尋找、定位、檢測、驗證,盡快制定并執行解決方案,撲滅“火情”;解決問題后,還需要填補問題的漏洞、優化巡檢的路徑、部署缺失的設備。
在這個“打地鼠”式的被動維護過程中,隨著總結經驗的積累,也出現了一些自動化的手段。對于一些高頻問題,通過預先編寫設置好的腳本,可以提升解決效率。
“傳統的被動運維更像一個身處后方的守護者,出了問題就快速地恢復解決?!崩顚幉凑f。
但互聯網行業快速發展,用戶數量呈指數級擴大,需要維護的系統和資源,也隨之大規模增長——當增長到了一定量級,即便雇再多的“救火隊員”、編再多的自動腳本,也將難以應付。對此,李寧泊深有感受:
“在云時代,一個超級數據中心每天出現各類故障的服務器可能有上百臺,現網大概每30秒就會出現一次變更,即使變更出問題的概率是萬分之一,也架不住海量業務帶來的運維壓力?!?/span>
蝴蝶效應的存在,讓任何一個小問題,都有可能演變成巨大損失。即便不計成本增加救火隊員的數量,也不能完全堵住所有的問題,況且人也是一個不確定因素。
華為云貴安數據中心
此外,越來越多企業數據實時上云,海量民生服務云上轉型,也對“云底座”的穩定性提出了更高的要求。沒有任何一個客戶和消費者愿意忍受高延遲、頻宕機、易丟包的用云體驗,云上的服務一旦出錯,更可能影響千行百業和百姓的日常生產。
因此,必須盡可能保證不出問題。在這方面,比“人海戰術”更有效的是“智能運維”。運維工程師不僅需要“向前看”——主動參與系統軟件架構的開發和設計,從云服務的設計開發、工程部署、發布上線到運行態的運維能力構筑,全生命周期視角審視風險;還要“向下沉”——將SRE的運維專家經驗沉淀到運維平臺中,變成IT系統。SRE的能力不是僅僅構筑在人的能力上,更重要的是構筑在云服務的架構和運維平臺中。
在爆炸式增長的云時代,臨場救火式的維護已經遠遠不夠。如今,李寧泊和他的同事們正在做的,正是為運維體系打造一個具備智慧思考能力的 “高可用架構”——他們不僅要當救火隊,更要成為云上建筑的架構師。
“讓機器去負責救火,而SRE負責制造機器?!?/span>
風云變幻中,尋找一抹確定性
有人說,SRE就是一名懂運維的資深開發工程師,是“殺雞用牛刀”。
但目睹行業風云變幻的李寧泊,深知“殺雞就要用牛刀”的必要性。
2021年11月7日凌晨,在英雄聯盟全球總決賽中,來自中國大陸賽區的EDG戰隊以3:2的戰績逆風翻盤,戰勝韓國DK戰隊,登頂世界冠軍寶座。
包括李寧泊在內,數以億計的觀眾在各大平臺上觀看了直播,關于EDG奪冠的多個話題沖上了熱搜榜單,各地電競愛好者狂歡慶祝。
巨大的流量,考驗著各大視頻直播和社交平臺的承壓能力。網友投稿顯示,EDG奪冠之后,某即時聊天軟件的服務器似乎遭遇了短暫崩潰,導致群聊消息一度發不出去。
出乎意料的勝利,帶來出乎意料的流量沖擊,也再度把云服務的“安全,穩定,高可靠”,列入了所有數字化企業的重點關注事項。
Gartner預計,2025年或將有90%的企業關閉傳統數據中心,企業行業的應用開發將全面走向云化。而GIV也預測,至2025年,全球企業云技術使用率將達到100%。全面云化已經勢不可擋,聯網的設備、終端和傳感器將越來越多,加快云化和SaaS化的應用也會越來越多,對運維的質量和安全,也提出了越來越高的要求。
在市場和機遇的爭奪戰中,華為云無疑是近年來最積極的弄潮兒之一。在工作中,李寧泊親眼見證了華為云的版本迭代,從以前的半年一次甚至一年一次,加快到如今每天都有數百次微服務組件的迭代發布。
小步快跑的開發和上線節奏,帶來的是對云底座安全穩定高質量的極致需求:
“軟件故障、硬件故障、機房故障、甚至人為操作所導致的故障,這些無處不在的隱患,實際上就是SRE每天要面對的問題?!比绾卧诟叨炔淮_定性的環境中,保證現網質量結果是確定性的。
李寧泊的答案,也就是SRE的角色使命所在——站點可用性工程師,本質也就是云上的軟件工程師——通過軟件工程的方法,解決現網的問題。SRE必須深入開發前端,對產品和系統進行“庖丁解?!?,搜索痛點隱患并迅速切除、打通、重構。指導這把牛刀的,則是華為云近年來提出的“確定性運維”理念。
華為云的SRE能力素質模型
所謂確定性運維,簡言之,就是讓云提供的系統和服務——
-
有一個確定的失效率,它不會經常發生故障,失效率可控;
-
失效后有一個確定的恢復時長,不會讓用戶漫無止境地等下去;
-
失效故障有一個確定的爆炸半徑,限制失效的影響范圍,不會擴散到全網。
這三點的合集,共同形成了華為云的高可用性架構。這套架構,支撐著華為云在全球170多個國家和地區的超過240個云服務、370萬開發者和海量企業業務的安全穩定高質量運行。
同時,華為云每年都在內部開展超過2000次混沌工程演練,聯合外部客戶完成超過20次交易類、游戲類等應用的高可用演練。通過這種高覆蓋度、高隨機性的混沌工程,讓華為云的業務不斷處于高可用性的實時檢測中,確保一旦遭遇真實故障,也能始終保持真正的可用和可信。
華為云每年在內部開展超過2000次混沌工程演練
這一技術愿景和目標,也隨著華為云的“全球一張網”布局,開始走遍全球和廣大企業。
萬里之行,始于足下
2018年,為了長久保障云的高可用性,華為云開始在海外進行SRE布局。
同一年,龍田興奮地加入了年輕的華為云——他明白,這是一次重新從零開始定義云的機會。
在陸續參與了幾次與國際技術專家的研討后,龍田決定接替從國外派返的同事,在2020年疫情最嚴重時,逆行前往萬里之外的愛爾蘭,負責建立華為云的SRE歐洲人才前哨站。
如今的愛爾蘭,是許多科技企業駐歐洲的總部所在地,也是國際頂級IT人才的聚集地。在高密度的技術交流和切磋中,龍田清晰地認識到了國內外技術理念的差異,也看到了不少潛在的創新機會。
第二年,龍田與SRE專家團隊一起拿下了三個核心技術項目,自己也發表了三篇發明專利,其中一篇在華為內部得到了“Excellent”評級,還有一篇參與了業界的通用標準建設中。
遠在中國,李寧泊帶著團隊最近剛剛“謀劃”了一場針對南京華為終端云的“深夜突襲”。這場發生在現網的演練,直接“下架”整個可用區四千多臺服務器,規??胺Q空前。而南京也表現出色,在大規模突襲的4分鐘后,立即修復了故障。
這只是過去一年數千場突襲演練的其中一場,對于華為云SRE和運維團隊來說,他們早已習以為常。
華為云運維突襲演練紀實
作為華為云服務的客戶企業,美圖高級技術總監王關勝也有一番不同的感受。
擁有超2億月活用戶的美圖,產品線分布廣泛,既有面向大眾消費者的APP,如美圖秀秀、美顏相機、美拍等,也有面向企業用戶的商業圖像解決方案。經歷了自建機房和全面上云的兩大階段,王關勝最大的感受是,投入和效率在此前后呈現的巨大差異。
在2019年之前,美圖投入了較大的人力物力建設IDC,從服務器選型、托管,到工具系統開發、運維,都是費心費力不討好。工具系統多但不好用,接口API不統一不標準,難以進行自動化建設,整體效率并不如意。
在全量上云之后,美圖選擇把IDC基礎設施和一些中間工具的組建,都交給了華為云負責。美圖的運維團隊逐漸變得小而精,重復勞動減少,也讓運維工作得到了蛻變——團隊能更專注于行業先進技術,系統的自動化和穩定性也都有大幅提升。
在王關勝看來,華為云提出的“確定性運維”很好地詮釋了華為云以客戶為中心的價值觀。而在實際業務中,華為云也幫助美圖獲得了更好的用戶體驗:
“每年在我們負責重大活動保障時,都能做到0故障?!?/span>
同樣對華為云“確定性運維”表現出極大認同的,還有虎牙直播的SRE架構師張觀石。張觀石常年關注互聯網服務可靠性工程和網站高可用架構,是《運維前線》的聯合作者,著有《SRE原理與實踐-構建高可靠性互聯網應用》一書。
他把“確定性運維”融入到實踐當中,提出了平臺的系統要“通過確定性的目標,進行定性與定量的度量。通過確定性的運維工程,保障軟件可靠性,避免故障的發生?!?/span>
面對企業與開發者需求,華為云持續對外開展“確定性運維”培訓服務
無論是來自云服務商的SRE技術專家們,還是身處不同行業、不同公司的運維團隊,在他們看來,SRE不僅僅是個概念,而更代表著一種在數字時代里構筑互聯網安全穩定、守護用戶流暢體驗的力量和責任。
他們是數字時代風險隱患的“先知者”,也是安全穩定高質量的“守夜人”。
結語
曾幾何時,許多運維的理想之一,就是做一名“無名英雄”——因為往往出名之日,也是背鍋之時。
但在這場全面上云的浪潮中,“運維”這一角色的定位,正在發生大轉變:如今的他們,更像是維護數字化服務穩定運行的“幕后英雄”。
在過去數年,李寧泊和同事們像建筑師一般通過各種架構創新,為華為云武裝了一身“真功夫”。除此之外,他們還將這些“武學精髓”與行業共享、切磋、碰撞——持續開展行業咨詢和服務交流,攜手客戶設計混沌工程,幫助更多企業去理解和參與到這些全周期的運維準備中。
“從架構上來講,從來沒有十全十美的方案?!崩顚幉凑J識到,云上運維的挑戰和演進永無止境,在確定性運維的基礎上,如何讓企業客戶更易用一些,讓SLA服務可用性更高一些,讓云更自動化、更智能、更便于運維,都是未來仍需攻堅的方向。
“只有用更先進的理念和架構,和更多團隊一起筑好云底座,造好云工具,才能讓客戶更高效地商業成功,讓開發者更自由地揮灑創意?!彼f。
*文中李寧泊、龍田為化名
網絡編輯:kuangyx