1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Facebook史上最嚴重宕機:互聯(lián)網(wǎng)企業(yè)是時候重新審視架構(gòu)了?

        共 3362字,需瀏覽 7分鐘

         ·

        2021-10-13 00:18

        作者 | 核子可樂 褚杏娟

        扎克伯格個人財富一日蒸發(fā)逾 60 億美元。??
        剛被指責“利用放大仇恨言論的算法謀取利益”沒多久,F(xiàn)acebook 再次陷入危機。
        美國東部時間 10 月 4 日上午 11 點 39 分左右,美國社交媒體 Facebook、Instagram 和即時通訊軟件 WhatsApp 出現(xiàn)大規(guī)模宕機,此次宕機長達近 7 個小時,刷新了 Facebook 自 2008 年以來的最長宕機時長。
        美國互聯(lián)網(wǎng)監(jiān)控網(wǎng)站 DownDectors 的監(jiān)控情況顯示,F(xiàn)acebook 在歐洲、美洲、大洋洲幾乎是完全下線,在亞洲的日本、韓國、印度等國也無法訪問。據(jù)悉,WhatsApp 和 Facebook Messenger 兩款“微信”類即時通信產(chǎn)品,分別在全球范圍擁有 20 億用戶和 13 億用戶,社交平臺 Instagram 用戶數(shù)也達到了 10 億用戶。
        除了讓數(shù)十億用戶陷入困境之外, Facebook 服務(wù)中斷還使其員工無法使用內(nèi)部工具相互交流。Facebook 的電子郵件和工具都是企業(yè)內(nèi)部管理的,F(xiàn)acebook 很多員工也無法正常工作。
        Facebook 首席技術(shù)官 Mike Schroepfer 在推特上道歉

        ?

        一條指令引發(fā)的“血案”

        Facebook 表示,這次故障的根本原因是例行維護工作發(fā)出了一條糟糕的指令,結(jié)果導(dǎo)致其 DNS 服務(wù)器不可使用,切斷了 Facebook 整個骨干網(wǎng)絡(luò)與數(shù)據(jù)中心之間的連接。
        所謂骨干網(wǎng),是 Facebook 為一切計算設(shè)施構(gòu)建而成的全局連接網(wǎng)絡(luò),由長達數(shù)萬英里的光纖線纜組成,跨越全球并將各地的數(shù)據(jù)中心連接了起來。Facebook 基礎(chǔ)設(shè)施副總裁 Santosh Janardhan 在文章中解釋道,數(shù)據(jù)中心主要有兩種形式,一種是存放著數(shù)百萬臺數(shù)據(jù)存儲與高強度計算負載運行設(shè)備的“巨大的建筑”,另一種則屬于小型設(shè)備,通過骨干網(wǎng)絡(luò)接入整體互聯(lián)網(wǎng)并構(gòu)建起 Facebook 社交平臺的方方面面。
        當用戶打開應(yīng)用并加載摘要或消息時,應(yīng)用提出的數(shù)據(jù)請求會由當前設(shè)備傳輸至最近的設(shè)施,之后再直接通過骨干網(wǎng)絡(luò)與更大的數(shù)據(jù)中心進行通信。應(yīng)用所需要的信息將在這些數(shù)據(jù)中心內(nèi)進行檢索與處理,再把結(jié)果通過網(wǎng)絡(luò)發(fā)送回用戶手機上。
        維護基礎(chǔ)設(shè)施的日常工作非常繁重。工程師們還經(jīng)常需要讓部分骨干網(wǎng)絡(luò)離線以實施維護——包括修復(fù)光纖線路、擴大容量或者更新路由器自身軟件等等。而這也是此次宕機事件的原因所在。
        Janardhan 表示,在一項日常維護工作中,工程師們發(fā)出一條用于評估全球骨干網(wǎng)容量可用性的指令,但意外切斷了骨干網(wǎng)絡(luò)中的所有連接,這實質(zhì)上就是斷開了 Facebook 全球數(shù)據(jù)中心之間的連接。不幸的是,F(xiàn)acebook 的系統(tǒng)在設(shè)計上能夠?qū)彶榇祟愔噶钜苑乐钩霈F(xiàn)錯誤,但其功能只是發(fā)出錯誤提示,并不能真正阻止指令執(zhí)行。
        這次意外,導(dǎo)致 Facebook 的數(shù)據(jù)中心與互聯(lián)網(wǎng)之間的服務(wù)器連接完全斷開,由此帶來了一系列連鎖效應(yīng)讓情況進一步惡化。
        在此次宕機事件中,由于整個骨干網(wǎng)都已陷入癱瘓,因此各 DNS 服務(wù)器位置均上報連接狀態(tài)問題并撤回邊界網(wǎng)關(guān)協(xié)議(BGP)通告。最終結(jié)果是,F(xiàn)acebook 的 DNS 服務(wù)器雖然仍在運行但卻無法正常訪問,導(dǎo)致其他互聯(lián)網(wǎng)用戶也無法正常接入其服務(wù)器。
        響應(yīng) DNS 查詢是小型設(shè)施執(zhí)行的一項重要任務(wù)。DNS 可以稱之為互聯(lián)網(wǎng)的地址簿,能夠?qū)⒂脩粼跒g覽器中輸入的簡單網(wǎng)絡(luò)名稱轉(zhuǎn)換為特定的服務(wù)器 IP 地址。這些轉(zhuǎn)換查詢由 Facebook 的權(quán)威名稱服務(wù)器給出應(yīng)答,而這些服務(wù)器本身就占用著最眾所周知的 IP 地址。接下來,這些服務(wù)器再通過邊界網(wǎng)關(guān)協(xié)議(BGP)向互聯(lián)網(wǎng)的其余部分發(fā)布通告。為了確保運行可靠性,如果 DNS 服務(wù)器自身無法與數(shù)據(jù)中心通信,則所有 BGP 通告都將被禁用,表示當前網(wǎng)絡(luò)連接狀態(tài)不正確。
        簡單來說,F(xiàn)acebook 拿走了告訴世界計算機如何找到其各種在線資產(chǎn)的地圖。結(jié)果,當在 Web 瀏覽器中鍵入 Facebook.com 時,瀏覽器不知道在哪里可以找到 Facebook.com,因此返回到了錯誤頁面。
        ?
        為什么無法及時修復(fù)
        為什么這次故障持續(xù)了近 7 個小時之久呢?
        Janardhan 表示,工程師們在修復(fù)這一故障時,面臨著兩個巨大的障礙:首先,F(xiàn)acebook 的工程師們無法通過正常方式訪問自己的 Facebook 數(shù)據(jù)中心,因為這時候骨干網(wǎng)已經(jīng)出現(xiàn)了故障;其次,DNS 沒有響應(yīng)致使 Facebook 無法使用調(diào)查及解決宕機問題的常規(guī)內(nèi)部工具。
        骨干網(wǎng)與帶外網(wǎng)絡(luò)訪問均出現(xiàn)故障,這意味著工程師只能親自前往現(xiàn)場進行調(diào)試并嘗試重啟系統(tǒng)。但這需要時間,因為各處設(shè)施都遵循高水平的物理與系統(tǒng)安全保護政策。
        錯誤的更新阻止了 Facebook 員工(其中大多數(shù)是遠程工作)恢復(fù)和更改系統(tǒng)。與此同時,那些可以物理訪問 Facebook 大樓的人無法訪問 Facebook 的內(nèi)部工具。
        “任何人員都很難進入,而且一旦進入并獲得物理訪問能力,這些硬件與路由器的設(shè)計也很難得到修改。因此,需要更多的時間將工程師們引導(dǎo)進機房,并為他們提供在服務(wù)器上工作所需要的安全訪問協(xié)議。只有這樣,我們才能確認問題并讓骨干網(wǎng)重新上線?!盝anardhan 寫道。
        有專家估計,F(xiàn)acebook、Instagram、WhatsApp 全球服務(wù)中斷一小時將給全球經(jīng)濟造成 1.6 億美元的損失。同時,F(xiàn)acebook 當日股價盤中暴跌 6%,扎克伯格個人財富一日蒸發(fā)逾 60 億美元。
        屋漏偏逢連夜雨。在 Facebook 全球網(wǎng)絡(luò)服務(wù)中斷期間,據(jù)稱在黑客論壇上有超過 15 億 Facebook 用戶的數(shù)據(jù)被出售。但 Facebook 方面否認了這次用戶數(shù)據(jù)泄露與服務(wù)中斷有關(guān)。
        “我們要明確表示,這次宕機背后沒有惡意活動,其根本原因是我們端的錯誤配置更改。我們也沒有證據(jù)表明用戶數(shù)據(jù)因此次停機而受到損害。”Janardhan 說道。
        ?
        架構(gòu)缺陷
        美國東部時間下午 6 點 33 分,F(xiàn)acebook 發(fā)推文稱其應(yīng)用程序和服務(wù)已開始恢復(fù)運行。隨著各數(shù)據(jù)中心區(qū)域中的骨干網(wǎng)連接的恢復(fù),一切都隨之復(fù)原。但問題還沒有真正結(jié)束。
        一次性對所有服務(wù)全部重啟會帶來新的隱患,因為流量激增很可能導(dǎo)致新一輪崩潰。個別數(shù)據(jù)中心還上報稱宕機導(dǎo)致設(shè)施耗電量下降了幾十兆瓦,而突然上線帶來的用電量暴增很可能給電氣系統(tǒng)、緩存等各類裝置帶來意外沖擊。
        Janardhan 表示,雖然 Facebook 一直在做“風暴”演習(xí),對服務(wù)、數(shù)據(jù)中心乃至整個區(qū)域進行脫機,并針對一切相關(guān)基礎(chǔ)設(shè)施與軟件開展壓力測試以模擬主要系統(tǒng)故障,但并未演練過全球骨干網(wǎng)絡(luò)脫機的狀況,后續(xù)會找可行性方法作出應(yīng)對。
        據(jù)監(jiān)測互聯(lián)網(wǎng)流量和故障的思科 ThousandEyes 的產(chǎn)品營銷主管 Angelique Medina 表示,這起事件暴露了 Facebook 架構(gòu)的一個缺點:如果本身出現(xiàn) DNS 故障,又沒有后備 DNS,就可能會出現(xiàn)長時間的故障,“所以我認為,這件事帶來的一大經(jīng)驗教訓(xùn)就是要有冗余 DNS?!?/span>
        Medina 表示,一套更穩(wěn)健的架構(gòu)將擁有雙 DNS 服務(wù),那樣一個 DNS 服務(wù)可以支援另一個。據(jù) Medina 聲稱,比如說,亞馬遜(其 AWS 提供 DNS 服務(wù))為其 DNS 使用兩項外部服務(wù):Dyn 和 UltraDNS。
        同時,這次宕機事件也讓身處反壟斷調(diào)查的 Facebook 雪上加霜。
        美國國會眾議院成員 Alexandria Ocasio-Cortez 表示,F(xiàn)acebook 爆發(fā)大規(guī)模宕機事故,這凸顯出該公司在全球通信和其他服務(wù)領(lǐng)域的壟斷地位。其在推特上表示,F(xiàn)acebook 周一發(fā)生的大規(guī)模宕機事故是對該公司壟斷全球通訊和其他服務(wù)的一次提醒,再次表明 Facebook 應(yīng)該被分拆。

        有道無術(shù),術(shù)可成;有術(shù)無道,止于術(shù)

        歡迎大家關(guān)注Java之道公眾號


        好文章,我在看??

        瀏覽 37
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            一弯下腰白球球就蹦出来了 | 成人片18禁在线播放视频 | 免费 无码 国产成年在线观看 | 五月丁香久久综合 | 女性脱给我揉漫画 | 制服丝袜二区 | 懂色av粉嫩av蜜臀av | 国产成人一区二区三区A片免费 | 成人高清无码视频在观看 | 国产日韩欧美操逼 |