1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        一次莫名其妙的故障……

        共 3660字,需瀏覽 8分鐘

         ·

        2022-08-25 18:33

        粉絲福利:文末送書
        大家好,我是小樂,一名普通的網(wǎng)絡(luò)工程師。

        前段時(shí)間,我看到新聞,說是日本、加拿大等地接連爆出通信網(wǎng)絡(luò)故障,引發(fā)了大規(guī)模的網(wǎng)絡(luò)中斷。心驚之余,我也想起,就在不久前,我也遇到了一個(gè)非常詭異的網(wǎng)絡(luò)故障,差點(diǎn)引發(fā)重大事故。

        這個(gè)故障,到現(xiàn)在我還心有余悸。

        今天,我就給大家講講我的故事——

        我所就職的單位,是一家大型國(guó)企。平時(shí),我主要負(fù)責(zé)網(wǎng)絡(luò)維護(hù)的相關(guān)工作。

        在我單位的網(wǎng)絡(luò)中,有各種不同的業(yè)務(wù),有的業(yè)務(wù)對(duì)網(wǎng)絡(luò)實(shí)時(shí)性和可靠性要求很高。

        因?yàn)槟甏眠h(yuǎn),單位大部分業(yè)務(wù)所使用的網(wǎng)絡(luò)設(shè)備,是某國(guó)外大廠的設(shè)備(姑且稱之為S司設(shè)備吧,下同)。

        我們單位的網(wǎng)絡(luò)規(guī)模極其龐大,因S司的私有生成樹協(xié)議已經(jīng)先入為主,所以,目前很難將整張網(wǎng)進(jìn)行國(guó)產(chǎn)設(shè)備替換。

        故障發(fā)生在今年疫情中的某一天。

        那天,單位輪崗上班,在崗人員較少。臨近下班時(shí),我正在執(zhí)行巡檢任務(wù)。突然,單位的綜合監(jiān)控系統(tǒng)開始“鐺鐺鐺的告警,對(duì)話框點(diǎn)完一個(gè)又出來另一個(gè),冒個(gè)沒完。

        仔細(xì)一看,告警的設(shè)備一大堆,其中一個(gè)提示:某業(yè)務(wù)核心網(wǎng)絡(luò)交換機(jī)(姑且稱之為9型機(jī)吧)-B機(jī)的IP地址可用性異常!

        情況緊急,我和辦公室的幾個(gè)同事趕緊下樓,直奔機(jī)房?;艁y之中,同事的鞋都差點(diǎn)跑丟了。

        到了機(jī)房,值班的同事興師問罪:

        “都快下班了,what are you 弄啥捏?

        “冤枉啊,我們啥也沒干!

        來到心交換機(jī)B機(jī)的機(jī)柜前,定睛一看:我擦,整個(gè)設(shè)備除了電源燈,其它燈全都不亮了!啥情況這是?!

        同事趕緊拿來了筆記本,接上Console線,登陸系統(tǒng)。結(jié)果,屏幕上只有“>”符號(hào),根本沒有出現(xiàn)熟悉的命令交互界面!

        這套系統(tǒng)是A機(jī)和B機(jī)雙機(jī)備份。我們趕緊用Console線接A機(jī)——謝天謝地,A機(jī)一切正常。

        這些年,我們定期會(huì)對(duì)核心設(shè)備做切換演練,驗(yàn)證單機(jī)獨(dú)立支撐網(wǎng)絡(luò)?,F(xiàn)在看來,沒有白做。

        有A機(jī)頂著,業(yè)務(wù)總算沒有中斷,我們也可以長(zhǎng)吁一口氣。

        心理踏實(shí)些之后,我們趕緊就聯(lián)系了保修公司。在等待之余,我們也在機(jī)房想辦法,進(jìn)行一些故障恢復(fù)嘗試。

        坦率地說,我干了十多年的網(wǎng)工,交換機(jī)板卡故障遇到了不少,整個(gè)設(shè)備宕機(jī)還是第一次遇到呢。

        我先嘗試把引擎拔出來,又重新插回去,設(shè)備沒有反應(yīng)。干脆,我祭出了重啟大法,直接對(duì)整個(gè)設(shè)備進(jìn)行斷電。

        薅掉四條電源線,等了半分鐘,然后,重新插回去。運(yùn)氣不錯(cuò),console界面開始顯示自檢。十多分鐘后,設(shè)備啟動(dòng)完畢,一切恢復(fù)正常!果然……還是重啟大法最好用??!

        故障雖然恢復(fù)了,問題原因要找到啊。于是,show tech,把日志啊配置啊一堆材料收集齊,發(fā)給了保修公司。保修公司再去找S司開“case(上報(bào)問題,建立故障單)。

        結(jié)果,就在等待反饋的過程中,還沒過幾天,核心交換機(jī)-A機(jī)也出問題了!

        故障現(xiàn)象完全一致:狀態(tài)燈全滅,系統(tǒng)無響應(yīng)。

        有了上次的經(jīng)驗(yàn),這次我們直接斷電重啟。十多分鐘后,A機(jī)恢復(fù)正常,生成樹切了,熱備網(wǎng)關(guān)切了,對(duì)業(yè)務(wù)稍稍有影響,但總體可控,影響不大。

        這就讓人很納悶了——上次是B機(jī),這次是A機(jī)。難不成,這個(gè)故障和新冠一樣,還會(huì)相互傳染?A機(jī)B機(jī)變成了難兄難弟?S司設(shè)備現(xiàn)在這么不靠譜了嗎?這才用了三年多,怎么就宕機(jī)罷工了呢?

        當(dāng)時(shí),我們甚至把原因都想到了太陽身上。

        因?yàn)椋饲霸?jīng)有一次,使用S司的另外一型號(hào)設(shè)備,出現(xiàn)業(yè)務(wù)板卡故障。case給出的結(jié)論,就是近期太陽活動(dòng)頻繁,黑子耀斑啥的,造成設(shè)備內(nèi)部信號(hào)紊亂,引發(fā)業(yè)務(wù)板卡重啟(囧)。為此,我還特意收藏了中科院國(guó)家天文臺(tái)太陽活動(dòng)預(yù)報(bào)中心的網(wǎng)站,有事沒事就上去看看(又囧)。


        一邊怪太陽,一邊加緊催促S司盡快跟進(jìn)case!

        結(jié)果,case出來了,我們所有人簡(jiǎn)直無語。

        case”說,這是一個(gè)已知BUG,問題出在固態(tài)硬盤上。

        原來,在這個(gè)9型機(jī)系列交換機(jī)的引擎上,使用了某光的某版本固態(tài)硬盤。這個(gè)硬盤在累計(jì)使用28224小時(shí)后,會(huì)自動(dòng)鎖死,從而導(dǎo)致引擎宕機(jī)。注意,是累計(jì)小時(shí),就算關(guān)機(jī)重啟也不會(huì)清零。

        28224小時(shí),掐指一算,1176天,差不多就是3年多一點(diǎn)的時(shí)間。

        我們這兩個(gè)發(fā)生故障的核心網(wǎng)絡(luò)交換機(jī),就是三年前啟動(dòng)的。相差幾天宕機(jī),可能是當(dāng)時(shí)進(jìn)機(jī)房加電時(shí)間不一樣。

        用人話來說,就是:“這機(jī)器有個(gè)定時(shí)炸彈,到了三年多的時(shí)間,就會(huì)爆炸!

        這叫神馬玩意????!

        無語之外,我們趕緊排查了所有的在網(wǎng)運(yùn)行設(shè)備。結(jié)果發(fā)現(xiàn),同樣還有幾臺(tái)這個(gè)系列交換機(jī),正在使用。

        我們用case給出的命令,查看了一下累計(jì)小時(shí)。我勒個(gè)去,果然有一對(duì)支撐重要業(yè)務(wù)的交換機(jī),到28224小時(shí)還有兩天!更要命的是,這對(duì)交換機(jī)的累計(jì)時(shí)間是完全一樣!也就是說,兩天后,兩臺(tái)機(jī)器很可能會(huì)同時(shí)宕機(jī)!

        這簡(jiǎn)直是要了我們的命。對(duì)于我們的業(yè)務(wù)運(yùn)行,是毀滅性的災(zāi)難。

        趕緊仔細(xì)S司的解決方案。S司給出的方案有兩個(gè):

        1、升級(jí)NXOS系統(tǒng);
        2、升級(jí)某光SSD的固件。

        短時(shí)間內(nèi)對(duì)關(guān)鍵交換機(jī)進(jìn)行關(guān)停升級(jí)是不現(xiàn)實(shí)的。于是,我們選擇了升級(jí)SSD固件的方案。

        到了臨近28224小時(shí)的那天,大伙兒在辦公室里如坐針氈,簡(jiǎn)直就是等待宣判。我坐不住,干脆跑去機(jī)房,蹲在機(jī)柜前,等著薅電源線。

        幸運(yùn)的是,到了28225小時(shí),系統(tǒng)一切正常!看來,升級(jí)固件還是有用的!我們同事瞬時(shí)歡呼雀躍!

        以上就是故障的整個(gè)過程?,F(xiàn)在回想起來,我的手心都還在冒汗。

        事實(shí)上,S司的這個(gè)故障隱患是極大的。這個(gè)9型機(jī)系列交換機(jī),定位就是數(shù)據(jù)中心級(jí)核心網(wǎng)絡(luò)交換,各大企業(yè)都會(huì)將它用在非常重要的業(yè)務(wù)上。

        況且,核心設(shè)備基本上都是雙機(jī)同時(shí)加電測(cè)試。三年內(nèi),基本不會(huì)主動(dòng)去升級(jí)軟件版本。這個(gè)重大缺陷,極有可能導(dǎo)致雙機(jī)同時(shí)宕機(jī),帶來的危害是難以想象的!

        最讓人生氣的,不是產(chǎn)品缺陷。因?yàn)楫a(chǎn)品有bug也是很正常的事情。

        讓人生氣的是,S司明明知道這個(gè)bug,卻不告知客戶!他們賣出這么多設(shè)備,難道就沒有建立客戶檔案嗎?就沒有進(jìn)行設(shè)備售后跟蹤嗎?小設(shè)備就算了,這種大型關(guān)鍵設(shè)備,難道賣出去就啥事也不管了嗎?

        作為一家正常的公司,在發(fā)現(xiàn)缺陷后,應(yīng)該查看產(chǎn)品或客戶銷售記錄,積極主動(dòng)通知客戶,盡快規(guī)避或解決吧?下個(gè)通知單,有那么難嗎?

        我個(gè)人認(rèn)為,通信網(wǎng)絡(luò)設(shè)備也應(yīng)該像汽車領(lǐng)域一樣,建立召回機(jī)制。如果發(fā)生重大缺陷,廠商應(yīng)該給國(guó)家有關(guān)部門備案,然后啟動(dòng)召回機(jī)制。

        現(xiàn)在,通信網(wǎng)絡(luò)設(shè)備是和水、電一樣重要的基礎(chǔ)設(shè)施,關(guān)乎國(guó)家安全、企業(yè)安全和消費(fèi)者安全。廠商有義務(wù)建立更完善的跟蹤和回訪機(jī)制,監(jiān)督售出設(shè)備的運(yùn)行健康,保證網(wǎng)絡(luò)安全。

        好了,我的故事就講到這里吧。

        作為一名網(wǎng)絡(luò)工程師,我講這個(gè)故事,主要是為了分享經(jīng)驗(yàn),讓大家引以為戒。

        此外,也希望外界對(duì)我們網(wǎng)工多一些理解,多一些支持。現(xiàn)在網(wǎng)絡(luò)產(chǎn)品很多,故障現(xiàn)象層出不窮,廠商有時(shí)候也有意無意回避一些產(chǎn)品缺陷,給我們挖坑。

        我們已經(jīng)很難了,不要每次出事都讓我們背鍋,可以嘛?

        ——全文完——

        注:文中小樂為化名。
        ??????????

        贈(zèng)書福利來襲啦

        聯(lián)合北京大學(xué)出版社為大家送福利

        推薦理由:國(guó)內(nèi)首本成體系的kerberos域網(wǎng)絡(luò)安全教程,填補(bǔ)域網(wǎng)絡(luò)安全書籍空白。域網(wǎng)絡(luò)安全非常重要,但是市場(chǎng)上關(guān)于域網(wǎng)絡(luò)安全的圖書都是國(guó)外引進(jìn),并不完全適應(yīng)我國(guó)企業(yè)需求,本書則從國(guó)內(nèi)企業(yè)的實(shí)際需求出發(fā),介紹符合實(shí)際的攻防對(duì)抗方案,更有參考價(jià)值

        推薦理由:本書以簡(jiǎn)單易懂的文字,搭配輕松詼諧的原創(chuàng)漫畫,讓更多人理解什么是元宇宙的 “宏架構(gòu)”,了解從原子到比特的邏輯,明白智能合約、數(shù)學(xué)及NFT之間的關(guān)系,用圖片解析未來世界,讓你輕松走進(jìn)虛實(shí)共生的數(shù)字時(shí)空,解鎖人類新文明,設(shè)計(jì)屬于自己的元宇宙

        推薦理由:當(dāng)前AI圖書市場(chǎng),理論知識(shí)與實(shí)踐經(jīng)驗(yàn)的脫節(jié),是很多書籍的缺點(diǎn)。本書立足于理論,從實(shí)例入手,將理論知識(shí)和實(shí)際應(yīng)用結(jié)合,目標(biāo)是讓讀者能夠快速地熟悉人工智能中經(jīng)典算法

        推薦理由:本書知識(shí)點(diǎn)全覆蓋,案例翔實(shí),實(shí)戰(zhàn)型強(qiáng)。主要內(nèi)容包括:立項(xiàng)、需求分析、系統(tǒng)設(shè)計(jì)、詳細(xì)參數(shù)設(shè)計(jì)、測(cè)試、維護(hù)和團(tuán)隊(duì)分工合作整個(gè)硬件生命周期所有關(guān)鍵節(jié)點(diǎn)的內(nèi)容,把所有的關(guān)鍵節(jié)點(diǎn)有序組織起來,高效、高質(zhì)量地完成硬件開發(fā)工作

        推薦理由:人工智能被廣泛應(yīng)用和普及,極大地提高了人們學(xué)習(xí)和工作的效率。而要深入理解人工智能,必須全面理解底層各類機(jī)器學(xué)習(xí)算法的基本原理。只有全面掌握機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),才能更好地理解、提高和駕馭人工智能的各種應(yīng)用
        截止時(shí)間:2022 年 8 月 23 日 16:00  整  
         兌獎(jiǎng)時(shí)間:2022 年 8 月 24 日 16:00截止 

        #留言有禮# 以上的書你喜歡嗎?分享一下你想要這本書的理由!或者你對(duì)本文的見解,活動(dòng)截止時(shí)小編選出10位幸運(yùn)小錦鯉,中獎(jiǎng)?wù)呖色@得實(shí)體書籍一本,我們包郵贈(zèng)送~

          

        1、社區(qū)糾紛不斷:程序員何苦為難程序員?

        2、該死的單元測(cè)試,寫起來到底有多痛?

        3、互聯(lián)網(wǎng)人為什么學(xué)不會(huì)擺爛

        4、為什么國(guó)外JetBrains做 IDE 就可以養(yǎng)活自己,國(guó)內(nèi)不行?區(qū)別在哪?

        5、相比高人氣的Rust、Go,為何 Java、C 在工具層面進(jìn)展緩慢?

        6、讓程序員早點(diǎn)下班的《技術(shù)寫作指南》

        點(diǎn)

        點(diǎn)

        點(diǎn)點(diǎn)

        點(diǎn)在看

        瀏覽 36
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            中国少妇和黑人老外做爰小说 | 午夜福利视频在线观看免费 | 老太婆一级淫一片免费看一看 | 精品人妻一区二区三区浪潮无限 | 我被老板解开了乳罩 | 青娱乐在线观看人人 | 靠逼操逼操逼网站 | 看操大逼片 | 毛片aaaaaa | 日韩无码黄色视频 |