大家好,我是小樂,一名普通的網(wǎng)絡(luò)工程師。前段時(shí)間,我看到新聞,說是日本、加拿大等地接連爆出通信網(wǎng)絡(luò)故障,引發(fā)了大規(guī)模的網(wǎng)絡(luò)中斷。心驚之余,我也想起,就在不久前,我也遇到了一個(gè)非常詭異的網(wǎng)絡(luò)故障,差點(diǎn)引發(fā)重大事故。這個(gè)故障,到現(xiàn)在我還心有余悸。我所就職的單位,是一家大型國(guó)企。平時(shí),我主要負(fù)責(zé)網(wǎng)絡(luò)維護(hù)的相關(guān)工作。在我單位的網(wǎng)絡(luò)中,有各種不同的業(yè)務(wù),有的業(yè)務(wù)對(duì)網(wǎng)絡(luò)實(shí)時(shí)性和可靠性要求很高。因?yàn)槟甏眠h(yuǎn),單位大部分業(yè)務(wù)所使用的網(wǎng)絡(luò)設(shè)備,是某國(guó)外大廠的設(shè)備(姑且稱之為S司設(shè)備吧,下同)。我們單位的網(wǎng)絡(luò)規(guī)模極其龐大,因S司的私有生成樹協(xié)議已經(jīng)先入為主,所以,目前很難將整張網(wǎng)進(jìn)行國(guó)產(chǎn)設(shè)備替換。那天,單位輪崗上班,在崗人員較少。臨近下班時(shí),我正在執(zhí)行巡檢任務(wù)。突然,單位的綜合監(jiān)控系統(tǒng)開始“鐺鐺鐺”的告警,對(duì)話框點(diǎn)完一個(gè)又出來另一個(gè),冒個(gè)沒完。仔細(xì)一看,告警的設(shè)備一大堆,其中一個(gè)提示:某業(yè)務(wù)核心網(wǎng)絡(luò)交換機(jī)(姑且稱之為9型機(jī)吧)-B機(jī)的IP地址可用性異常!情況緊急,我和辦公室的幾個(gè)同事趕緊下樓,直奔機(jī)房?;艁y之中,同事的鞋都差點(diǎn)跑丟了。
“都快下班了,what are you 弄啥捏?”來到核心交換機(jī)B機(jī)的機(jī)柜前,定睛一看:我擦,整個(gè)設(shè)備除了電源燈,其它燈全都不亮了!啥情況這是?!同事趕緊拿來了筆記本,接上Console線,登陸系統(tǒng)。結(jié)果,屏幕上只有“>”符號(hào),根本沒有出現(xiàn)熟悉的命令交互界面!這套系統(tǒng)是A機(jī)和B機(jī)雙機(jī)備份。我們趕緊用Console線接A機(jī)——謝天謝地,A機(jī)一切正常。這些年,我們定期會(huì)對(duì)核心設(shè)備做切換演練,驗(yàn)證單機(jī)獨(dú)立支撐網(wǎng)絡(luò)?,F(xiàn)在看來,沒有白做。有A機(jī)頂著,業(yè)務(wù)總算沒有中斷,我們也可以長(zhǎng)吁一口氣。心理踏實(shí)些之后,我們趕緊就聯(lián)系了保修公司。在等待之余,我們也在機(jī)房想辦法,進(jìn)行一些故障恢復(fù)嘗試。坦率地說,我干了十多年的網(wǎng)工,交換機(jī)板卡故障遇到了不少,整個(gè)設(shè)備宕機(jī)還是第一次遇到呢。我先嘗試把引擎拔出來,又重新插回去,設(shè)備沒有反應(yīng)。干脆,我祭出了重啟大法,直接對(duì)整個(gè)設(shè)備進(jìn)行斷電。薅掉四條電源線,等了半分鐘,然后,重新插回去。運(yùn)氣不錯(cuò),console界面開始顯示自檢。十多分鐘后,設(shè)備啟動(dòng)完畢,一切恢復(fù)正常!果然……還是重啟大法最好用??!故障雖然恢復(fù)了,問題原因要找到啊。于是,show tech,把日志啊配置啊一堆材料收集齊,發(fā)給了保修公司。保修公司再去找S司開“case”(上報(bào)問題,建立故障單)。結(jié)果,就在等待反饋的過程中,還沒過幾天,核心交換機(jī)-A機(jī)也出問題了!故障現(xiàn)象完全一致:狀態(tài)燈全滅,系統(tǒng)無響應(yīng)。有了上次的經(jīng)驗(yàn),這次我們直接斷電重啟。十多分鐘后,A機(jī)恢復(fù)正常,生成樹切了,熱備網(wǎng)關(guān)切了,對(duì)業(yè)務(wù)稍稍有影響,但總體可控,影響不大。這就讓人很納悶了——上次是B機(jī),這次是A機(jī)。難不成,這個(gè)故障和新冠一樣,還會(huì)相互傳染?A機(jī)B機(jī)變成了難兄難弟?S司設(shè)備現(xiàn)在這么不靠譜了嗎?這才用了三年多,怎么就宕機(jī)罷工了呢?當(dāng)時(shí),我們甚至把原因都想到了太陽身上。因?yàn)椋饲霸?jīng)有一次,使用S司的另外一型號(hào)設(shè)備,出現(xiàn)業(yè)務(wù)板卡故障。“case”給出的結(jié)論,就是近期太陽活動(dòng)頻繁,黑子耀斑啥的,造成設(shè)備內(nèi)部信號(hào)紊亂,引發(fā)業(yè)務(wù)板卡重啟(囧)。為此,我還特意收藏了中科院國(guó)家天文臺(tái)太陽活動(dòng)預(yù)報(bào)中心的網(wǎng)站,有事沒事就上去看看(又囧)。
一邊怪太陽,一邊加緊催促S司盡快跟進(jìn)“case”!結(jié)果,“case”出來了,我們所有人簡(jiǎn)直無語。“case”說,這是一個(gè)已知BUG,問題出在固態(tài)硬盤上。原來,在這個(gè)9型機(jī)系列交換機(jī)的引擎上,使用了某光的某版本固態(tài)硬盤。這個(gè)硬盤在累計(jì)使用28224小時(shí)后,會(huì)自動(dòng)鎖死,從而導(dǎo)致引擎宕機(jī)。注意,是累計(jì)小時(shí),就算關(guān)機(jī)重啟也不會(huì)清零。28224小時(shí),掐指一算,1176天,差不多就是3年多一點(diǎn)的時(shí)間。我們這兩個(gè)發(fā)生故障的核心網(wǎng)絡(luò)交換機(jī),就是三年前啟動(dòng)的。相差幾天宕機(jī),可能是當(dāng)時(shí)進(jìn)機(jī)房加電時(shí)間不一樣。用人話來說,就是:“這機(jī)器有個(gè)定時(shí)炸彈,到了三年多的時(shí)間,就會(huì)爆炸!”無語之外,我們趕緊排查了所有的在網(wǎng)運(yùn)行設(shè)備。結(jié)果發(fā)現(xiàn),同樣還有幾臺(tái)這個(gè)系列交換機(jī),正在使用。我們用case給出的命令,查看了一下累計(jì)小時(shí)。我勒個(gè)去,果然有一對(duì)支撐重要業(yè)務(wù)的交換機(jī),到28224小時(shí)還有兩天!更要命的是,這對(duì)交換機(jī)的累計(jì)時(shí)間是完全一樣!也就是說,兩天后,兩臺(tái)機(jī)器很可能會(huì)同時(shí)宕機(jī)!這簡(jiǎn)直是要了我們的命。對(duì)于我們的業(yè)務(wù)運(yùn)行,是毀滅性的災(zāi)難。趕緊仔細(xì)S司的解決方案。S司給出的方案有兩個(gè):短時(shí)間內(nèi)對(duì)關(guān)鍵交換機(jī)進(jìn)行關(guān)停升級(jí)是不現(xiàn)實(shí)的。于是,我們選擇了升級(jí)SSD固件的方案。到了臨近28224小時(shí)的那天,大伙兒在辦公室里如坐針氈,簡(jiǎn)直就是等待宣判。我坐不住,干脆跑去機(jī)房,蹲在機(jī)柜前,等著薅電源線。幸運(yùn)的是,到了28225小時(shí),系統(tǒng)一切正常!看來,升級(jí)固件還是有用的!我們同事瞬時(shí)歡呼雀躍!以上就是故障的整個(gè)過程?,F(xiàn)在回想起來,我的手心都還在冒汗。事實(shí)上,S司的這個(gè)故障隱患是極大的。這個(gè)9型機(jī)系列交換機(jī),定位就是數(shù)據(jù)中心級(jí)核心網(wǎng)絡(luò)交換,各大企業(yè)都會(huì)將它用在非常重要的業(yè)務(wù)上。況且,核心設(shè)備基本上都是雙機(jī)同時(shí)加電測(cè)試。三年內(nèi),基本不會(huì)主動(dòng)去升級(jí)軟件版本。這個(gè)重大缺陷,極有可能導(dǎo)致雙機(jī)同時(shí)宕機(jī),帶來的危害是難以想象的!最讓人生氣的,不是產(chǎn)品缺陷。因?yàn)楫a(chǎn)品有bug也是很正常的事情。讓人生氣的是,S司明明知道這個(gè)bug,卻不告知客戶!他們賣出這么多設(shè)備,難道就沒有建立客戶檔案嗎?就沒有進(jìn)行設(shè)備售后跟蹤嗎?小設(shè)備就算了,這種大型關(guān)鍵設(shè)備,難道賣出去就啥事也不管了嗎?作為一家正常的公司,在發(fā)現(xiàn)缺陷后,應(yīng)該查看產(chǎn)品或客戶銷售記錄,積極主動(dòng)通知客戶,盡快規(guī)避或解決吧?下個(gè)通知單,有那么難嗎?我個(gè)人認(rèn)為,通信網(wǎng)絡(luò)設(shè)備也應(yīng)該像汽車領(lǐng)域一樣,建立召回機(jī)制。如果發(fā)生重大缺陷,廠商應(yīng)該給國(guó)家有關(guān)部門備案,然后啟動(dòng)召回機(jī)制。現(xiàn)在,通信網(wǎng)絡(luò)設(shè)備是和水、電一樣重要的基礎(chǔ)設(shè)施,關(guān)乎國(guó)家安全、企業(yè)安全和消費(fèi)者安全。廠商有義務(wù)建立更完善的跟蹤和回訪機(jī)制,監(jiān)督售出設(shè)備的運(yùn)行健康,保證網(wǎng)絡(luò)安全。作為一名網(wǎng)絡(luò)工程師,我講這個(gè)故事,主要是為了分享經(jīng)驗(yàn),讓大家引以為戒。此外,也希望外界對(duì)我們網(wǎng)工多一些理解,多一些支持。現(xiàn)在網(wǎng)絡(luò)產(chǎn)品很多,故障現(xiàn)象層出不窮,廠商有時(shí)候也有意無意回避一些產(chǎn)品缺陷,給我們挖坑。我們已經(jīng)很難了,不要每次出事都讓我們背鍋,可以嘛?
——全文完——
贈(zèng)書福利來襲啦
聯(lián)合北京大學(xué)出版社為大家送福利
推薦理由:國(guó)內(nèi)首本成體系的kerberos域網(wǎng)絡(luò)安全教程,填補(bǔ)域網(wǎng)絡(luò)安全書籍空白。域網(wǎng)絡(luò)安全非常重要,但是市場(chǎng)上關(guān)于域網(wǎng)絡(luò)安全的圖書都是國(guó)外引進(jìn),并不完全適應(yīng)我國(guó)企業(yè)需求,本書則從國(guó)內(nèi)企業(yè)的實(shí)際需求出發(fā),介紹符合實(shí)際的攻防對(duì)抗方案,更有參考價(jià)值
推薦理由:本書以簡(jiǎn)單易懂的文字,搭配輕松詼諧的原創(chuàng)漫畫,讓更多人理解什么是元宇宙的 “宏架構(gòu)”,了解從原子到比特的邏輯,明白智能合約、數(shù)學(xué)及NFT之間的關(guān)系,用圖片解析未來世界,讓你輕松走進(jìn)虛實(shí)共生的數(shù)字時(shí)空,解鎖人類新文明,設(shè)計(jì)屬于自己的元宇宙
推薦理由:當(dāng)前AI圖書市場(chǎng),理論知識(shí)與實(shí)踐經(jīng)驗(yàn)的脫節(jié),是很多書籍的缺點(diǎn)。本書立足于理論,從實(shí)例入手,將理論知識(shí)和實(shí)際應(yīng)用結(jié)合,目標(biāo)是讓讀者能夠快速地熟悉人工智能中經(jīng)典算法
推薦理由:本書知識(shí)點(diǎn)全覆蓋,案例翔實(shí),實(shí)戰(zhàn)型強(qiáng)。主要內(nèi)容包括:立項(xiàng)、需求分析、系統(tǒng)設(shè)計(jì)、詳細(xì)參數(shù)設(shè)計(jì)、測(cè)試、維護(hù)和團(tuán)隊(duì)分工合作整個(gè)硬件生命周期所有關(guān)鍵節(jié)點(diǎn)的內(nèi)容,把所有的關(guān)鍵節(jié)點(diǎn)有序組織起來,高效、高質(zhì)量地完成硬件開發(fā)工作
推薦理由:人工智能被廣泛應(yīng)用和普及,極大地提高了人們學(xué)習(xí)和工作的效率。而要深入理解人工智能,必須全面理解底層各類機(jī)器學(xué)習(xí)算法的基本原理。只有全面掌握機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),才能更好地理解、提高和駕馭人工智能的各種應(yīng)用
截止時(shí)間:2022 年 8 月 23 日 16:00 整
兌獎(jiǎng)時(shí)間:2022 年 8 月 24 日 16:00截止 
#留言有禮# 以上的書你喜歡嗎?分享一下你想要這本書的理由!或者你對(duì)本文的見解,活動(dòng)截止時(shí)小編選出10位幸運(yùn)小錦鯉,中獎(jiǎng)?wù)呖色@得實(shí)體書籍一本,我們包郵贈(zèng)送~