B站半夜崩潰 企業(yè)云容災預警沒做好?

面對極端情況,如果云上的應用沒有合理規(guī)劃災備,一定會造成業(yè)務中斷甚至數(shù)據(jù)丟失。多云戰(zhàn)略也是未來的重要方向。

作者: 呂倩 來莎莎

7月13日深夜,微博、朋友圈等社交平臺紛紛在熱議一個話題——B站怎么崩了?“B站崩了”話題一度在微博熱搜第一名上,并呈現(xiàn)“爆了”的狀態(tài)。

與此同時,很多網(wǎng)友反映,A站、豆瓣、晉江……都崩了。

互聯(lián)網(wǎng)企業(yè)難免宕機。尷尬的是,B站的修復進展緩慢,讓網(wǎng)友十分著急上火。子夜時分,“后浪”們的吐槽在社交媒體上發(fā)酵。

7月14日凌晨0時20分,A站發(fā)微博稱,“在修復了”。4分鐘后,即0時24分稱“已修復,歡迎來玩”。

在宕機約三個小時后,7月14日凌晨2時20分,B站(09626.HK)通過其官方微博就“部分服務器機房發(fā)生故障造成無法訪問”致歉,稱:“昨晚,B站的部分服務器機房發(fā)生故障,造成無法訪問。技術團隊隨即進行了問題排查和修復,現(xiàn)在服務已經(jīng)陸續(xù)恢復正常。耽誤大家看視頻了,對不起!

但至于服務器機房發(fā)生故障的具體原因,B站并未進一步詳細說明。盡管遭遇突發(fā)事件,B站港股股價表現(xiàn)尚可,14日微跌收于863.5港元。

具體宕機原因不明

“B站崩了”引發(fā)熱議后,其背后原因也引發(fā)多方猜測。當晚,上海消防第一時間回應稱,“經(jīng)了解,位于上海市政立路485號國正中心內(nèi)的嗶哩嗶哩彈幕網(wǎng)B站(總部)未出現(xiàn)火情,未接到相關報警!

此前,B站技術總監(jiān)毛劍在公開分享中表示,在應對連鎖故障時,要做到——盡可能避免過載;通過一些手段去做限流,以及在無法正常服務時,通過有損服務犧牲掉一些非核心服務去保證關鍵服務做到優(yōu)雅降級;重試策略上,在微服務內(nèi)盡可能做退避,盡可能考慮到重試放大的流量倍數(shù)對下游的沖擊;考慮在移動端用戶無法使用某個功能的情況下,通常頻繁刷新頁面產(chǎn)生流量沖擊,在移動端進行配合來做流控等方式。

但是在現(xiàn)實案例里,B站對突發(fā)事件的應對顯然不夠迅速,有網(wǎng)友在分享帖子下評論稱“三個多小時才陸續(xù)恢復,這次絕對是一級事故”。

更多猜測聚焦在技術層面。多位接受第一財經(jīng)記者采訪的技術人員表示,B站采用混合云模式,內(nèi)容分發(fā)網(wǎng)絡(CDN)也是采用的騰訊云而非自建,因此目前從B站自身角度來考慮的話,更大可能是物理層面的問題,如網(wǎng)絡問題、數(shù)據(jù)中心光纖被挖斷、光纜被損害等。

騰訊云在官網(wǎng)客戶案例中介紹稱,B站采用騰訊云自研GSLB調(diào)度體系,結合全網(wǎng)實時監(jiān)控數(shù)據(jù),將用戶請求精準調(diào)度至最優(yōu)接入節(jié)點,最大程度降低用戶訪問時延和減少視頻卡頓,最終用戶用相同的帶寬可以流暢地觀看更高清的直播視頻,提升用戶體驗,建立平臺品牌形象。

實際上除了B站,此前諸多網(wǎng)站均發(fā)生過網(wǎng)絡事故。

2019年6月1日,亞馬遜旗下云服務商AWS中國區(qū)的許多互聯(lián)網(wǎng)公司發(fā)生宕機,受影響的包括亞馬遜中國官網(wǎng)、VIPKID、流利說、三星應用商店等。后根據(jù)AWS的官方調(diào)查,AWS北京區(qū)域一處道路施工中有幾處光纜被切斷,導致可用區(qū)無法鏈接網(wǎng)絡。

行業(yè)人士認為,AWS因光纜被切斷便導致近12小時大面積服務癱瘓,是沒有做好網(wǎng)絡冗余設計,即為確保業(yè)務正常運轉,除配置主線路外,同時做好第二種、第三種線路的部署。

2020年,AWS宕機又來。去年12月25日,AWS出現(xiàn)大范圍宕機,影響軟件企業(yè)Adobe、流媒體終端商Roku等服務。AWS稱,由于處理大量串流數(shù)據(jù)的Kinesis服務遭遇問題,導致好幾個網(wǎng)站錯誤率提高,并影響更新網(wǎng)站頁面的能力,已著手緊急修復。

2020年2月,微盟(02013.HK)收到系統(tǒng)監(jiān)控警報,經(jīng)排查后獲悉是微盟研發(fā)中心運維部核心運維人員賀某通過個人VPN登入公司內(nèi)網(wǎng)跳板機,對微盟線上生產(chǎn)環(huán)境進行了惡意的破壞。隨后,微盟諸多客戶的小程序電商商城均處于宕機狀態(tài),當時恰逢線上購物高峰期,宕機與數(shù)據(jù)丟失對微盟及其合作商家產(chǎn)生了極為負面的影響。

警醒容災準備必要性

不論是AWS還是B站、微盟,其宕機事故所帶來的負面影響均需引發(fā)警惕。

另外,目前企業(yè)數(shù)字化轉型漸成大趨勢,5G、物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、云計算、人工智能等新技術在各行各業(yè)中的應用越來越多,所產(chǎn)生的海量數(shù)據(jù)正呈指數(shù)級增長。一旦發(fā)生數(shù)據(jù)丟失與網(wǎng)站崩潰,對業(yè)務極有可能產(chǎn)生致命性危機。

對于每家公司的運維團隊來說,降低容災TCO、簡化容災方案、業(yè)務快速恢復,都是極大挑戰(zhàn)。

萬博智云首席技術官(CTO)孫琦對第一財經(jīng)記者表示,雖然互聯(lián)網(wǎng)應用架構已經(jīng)從應用層實現(xiàn)了高可靠和冗余的特性,但是面對物理層面或應用邏輯的異常時,也無法全身而退。近幾年,云上構建的應用架構的最佳實踐已經(jīng)非常完善,多可用區(qū)、彈性可擴展的方式為應用構建提供了便捷。

除了阿里云、騰訊云,主流云服務廠商均提供各種災備方案。中國電信天翼云的方案為“2+31+X”資源部署,以內(nèi)蒙古、貴州兩大數(shù)據(jù)中心為核心,定位為冷數(shù)據(jù)存儲、海量密集計算、遠程災備基地;在全國31個省份進行一省一池的核心部署,定位為溫數(shù)據(jù)存儲、屬地集中計算、專屬云等業(yè)務;X指下沉到地市甚至區(qū)縣的邊緣節(jié)點,定位為熱數(shù)據(jù)高速緩存,邊緣計算等業(yè)務,承載屬地化要求極高的業(yè)務。

UCloud優(yōu)刻得的容災解決方案顯示,在國內(nèi),該公司以北京、上海、廣州為中心節(jié)點,中心之間的網(wǎng)絡實現(xiàn)雙環(huán)、異路、全互聯(lián),每個中心下會分布多個可用區(qū)、可用區(qū)下又有多個數(shù)據(jù)中心,可以實現(xiàn)同城多活,異地容災。

UCloud創(chuàng)始人兼CEO季昕華曾在接受記者采訪時表示:“云計算公司有四大謊言,分別是云計算先服務于內(nèi)部客戶,再服務于外部客戶;云計算能保證100%的安全;云計算消耗大量資金;云計算是不盈利的!

季昕華稱:“云計算雖然比本地研發(fā)更安全,但不可能是100%。就算微軟、亞馬遜、谷歌、阿里、騰訊一樣都會出問題。所以用戶更愿意使用多家云來服務,多云戰(zhàn)略是未來的重要方向!

在具體容災落地過程中,騰訊云技術運營服務工程師康開元在騰訊大講堂上表示,做容災首先要梳理當前系統(tǒng)“災”主要有哪些痛點,并對其優(yōu)先級排序。如單點隱患、難擴展性、運維成本高等現(xiàn)狀。而異地容災的核心特征在于——范圍上地域粒度的容災;流量分布上單地域承載100%業(yè)務流量;數(shù)據(jù)存儲方面在數(shù)據(jù)庫及存儲均在異地做冷備,數(shù)據(jù)單向同步;常見使用場景主要在數(shù)據(jù)層安全級別容災,業(yè)務層較少異地部署。

孫琦告訴第一財經(jīng),面對極端情況,如果云上的應用沒有合理規(guī)劃災備,也一定會造成業(yè)務中斷,甚至數(shù)據(jù)丟失,造成更大的損失。所以,云上的應用架構除了利用云原生的服務能力為應用創(chuàng)造更快的迭代速度,還要考慮云原生服務在單元多區(qū)域,甚至多云多區(qū)域之間的災備,才能實現(xiàn)最高級別的業(yè)務連續(xù)性。


微信掃描分享本文到朋友圈
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料

本周熱點本月熱點

 

  最熱通信招聘

  最新招聘信息