1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        民生銀行 IT運維故障管理 可視化案例

        共 3830字,需瀏覽 8分鐘

         ·

        2021-08-21 02:15

        一、前言

        民生銀行 IT 運維工作經(jīng)歷了多年實踐,已經(jīng)建設(shè)了CMDB、IT運維管理系統(tǒng)(流程平臺)、集中監(jiān)控系統(tǒng)、交易性能監(jiān)控系統(tǒng)、自動化運維系統(tǒng)、日志管理平臺等管理工具,并在實際工作中不斷深入的優(yōu)化,在近年還打造了運維大數(shù)據(jù)平臺,用以支撐 IT 運維管理工作。

        在日常工作中,監(jiān)(各類監(jiān)控)、管(流程)、控(自動化)和CMDB系統(tǒng)均建立了映射關(guān)系,用以打通各系統(tǒng)的數(shù)據(jù)消費場景。

        但實際工作中依然面臨著工具分散,依靠運維人員經(jīng)驗和頻繁切換各專業(yè)分析工具,以實現(xiàn)故障定位、影響分析等操作,運維數(shù)據(jù)消費效率存在進步空間。


        二、建設(shè)思路與成果

        基于上述背景,民生銀行嘗試借助架構(gòu)管理可視化工具,將配置數(shù)據(jù)(CMDB)、監(jiān)控數(shù)據(jù)(集中監(jiān)控告警、交易性能監(jiān)控)、自動化運維管理工具、IT運維管理系統(tǒng)的變更數(shù)據(jù)整合到 IT 運維架構(gòu)圖上,打造統(tǒng)一的運維數(shù)據(jù)消費場景 - IT運維架構(gòu)管理可視化平臺,行內(nèi)稱之為云圖系統(tǒng)。

        在系統(tǒng)建設(shè)之初,我們先定義了四類運維數(shù)據(jù)消費場景,如下圖所示:

        下面,我們先對這四個比較具備代表性的場景進行說明:

        1.日常監(jiān)控

        作為運維人員,每個人都需要對各自負責(zé)系統(tǒng)的運行情況了如指掌。系統(tǒng)本身的各項性能指標可以通過對數(shù)據(jù)庫、中間件、操作系統(tǒng)和網(wǎng)絡(luò)流量分析等監(jiān)控手段實時主動監(jiān)測,系統(tǒng)的交易性能情況則需要通過交易性能監(jiān)控系統(tǒng)進行實時的診斷輸出和告警。

        一線值班人員需要打開不同工具的監(jiān)控窗口,實時監(jiān)測系統(tǒng)的告警和異常指標,這些窗口占用了大量的終端資源;

        二線運維人員接到異常告警后,也需要打開各個監(jiān)控平臺進行故障判斷和問題定位,往往在登陸和跳轉(zhuǎn)的過程中浪費一定的時間和精力,無法有效滿足“10分鐘定位故障、10分鐘處置恢復(fù)”的“雙十”目標。

        通過云圖系統(tǒng)對上述各專業(yè)監(jiān)控工具的數(shù)據(jù)實現(xiàn)高效整合,目前已經(jīng)能夠以應(yīng)用為中心,在統(tǒng)一的頁面上實現(xiàn)上述多種運行狀態(tài)數(shù)據(jù)的呈現(xiàn),實時同步的顯示告警數(shù)據(jù)和性能數(shù)據(jù),并與特定場景的可視化相結(jié)合,直觀高效,一目了然。

        舉例:圖1是我行網(wǎng)銀互聯(lián)系統(tǒng)發(fā)往工行、農(nóng)行、中行、建行、交行、招行等14家對手行的交易量、響應(yīng)時間、響應(yīng)率和成功率一覽圖,當交易異常告警發(fā)生時,告警會實時掛載在應(yīng)用系統(tǒng)圖標上。

        圖1:網(wǎng)銀互聯(lián)至對手機構(gòu)交易情況監(jiān)控

        2.排障定位

        在日常IT運維工作中,有時會面對一些較復(fù)雜的故障定位場景,比如大量系統(tǒng)幾乎同時涌現(xiàn)高級別告警,這些系統(tǒng)之間依托于各類網(wǎng)絡(luò),存在著支撐和依賴關(guān)系,而每個系統(tǒng)本身也被復(fù)雜的系統(tǒng)架構(gòu)所承載。

        這種情況下,如何在有限的時間內(nèi)定位故障并快速恢復(fù)業(yè)務(wù),是運維人員面臨的低頻但高風(fēng)險的疑難問題。

        對比傳統(tǒng)排障思路,運維人員需要綜合分析這些告警,確定可能的根因。

        一般思路是各應(yīng)用系統(tǒng)負責(zé)人分別找數(shù)據(jù)庫、操作系統(tǒng)、中間件、網(wǎng)絡(luò)等團隊確認是否是本系統(tǒng)導(dǎo)致的。

        如果不是,則需要通過事前繪制的上下游系統(tǒng)關(guān)系圖梳理可能的根因節(jié)點,再查詢相應(yīng)疑似故障根因系統(tǒng)的架構(gòu)內(nèi)是否存在故障,從而進行進一步處理。

        由于相關(guān)工作既存在跨部門溝通,又需要強大的視圖化邏輯思維能力,對運維人員要求極高。

        而通過云圖系統(tǒng),我們可以先通過對應(yīng)用墻的整體查看(如圖2所示),分析各系統(tǒng)告警的分布情況,之后依照經(jīng)驗初步判斷交易關(guān)鍵節(jié)點,點擊鉆取進入應(yīng)用關(guān)系全景圖。

        圖2:應(yīng)用墻展示

        在圖中可以查看到基于時序的告警、性能指標曲線、近期變更記錄,從而進一步縮小需要深入判斷的故障域;再基于疑似的故障根因節(jié)點鉆取到系統(tǒng)架構(gòu)圖和網(wǎng)絡(luò)拓撲圖,同樣對架構(gòu)圖中對象的告警、變更、性能數(shù)據(jù)進行分析,進一步定位故障源頭(如圖3所示)。

        圖3:應(yīng)用交互關(guān)系展示

        最后,將自動化操作也集成到相應(yīng)的架構(gòu)圖中,包括一鍵巡檢等操作,縮短大腦思考和逐一登陸各系統(tǒng)消耗的寶貴時間,完成處理后再次對比相應(yīng)架構(gòu)圖中的實時監(jiān)控數(shù)據(jù),確認故障處理效果。

        排障結(jié)束后,還可借助應(yīng)用畫像功能(如下圖4所示),對故障的形成原因及解決方法進行復(fù)盤,制定預(yù)案,為可能的故障二次發(fā)生或次生風(fēng)險提供預(yù)防措施和緊急處理指導(dǎo)意見。

        圖4:應(yīng)用畫像展示

        3.變更影響分析

        在日常的變更管理工作中,分析變更影響,進行變更過程評審是變更管理工作的重點。

        就變更影響分析而言,如果CMDB數(shù)據(jù)中的關(guān)系數(shù)據(jù)不夠完善,影響范圍的確認就變得異常艱辛,需要投入更多的經(jīng)驗判斷、多方溝通以及大量思考。

        依托于云圖系統(tǒng),變更影響分析的工作得到了系統(tǒng)化改善。舉例來說,當需要對存儲系統(tǒng)進行維護時,只需要搜索該存儲設(shè)備的任意配置項屬性,便可知道哪些系統(tǒng)與該存儲存在關(guān)聯(lián)關(guān)系,同時還可以鏈接到相應(yīng)的系統(tǒng)架構(gòu)圖,從而進一步了解深層次的影響范圍(如下圖5所示)

        圖5:存儲與應(yīng)用影響關(guān)系展示

        4.知識共享

        知識共享能夠提升人與人之間的協(xié)作和分享能力,發(fā)揮團隊成員的主動性和創(chuàng)造性。舉例來說,基于配置數(shù)據(jù)的架構(gòu)圖,結(jié)合相關(guān)的監(jiān)控信息和變更記錄,可以由專業(yè)二線人員進行場景組裝,并將其分享給ECC一線值班經(jīng)理。

        值班經(jīng)理一方面可以通過更易理解的架構(gòu)圖,熟悉所需管理的各類系統(tǒng)情況,還能夠在故障定位時,更易縮小故障域根因范圍,進而向?qū)I(yè)二線傳遞信息,提升整體排障效率。

        此外,日常運維中演示匯報是知識共享的場景之一,架構(gòu)圖作為IT管理領(lǐng)域存在共識的表現(xiàn)形式,本身就具備演示匯報的基礎(chǔ)能力。

        不論是對新員工培訓(xùn)或與運維備份崗的日常溝通過程中,還是在向業(yè)務(wù)單位介紹IT運維日常工作,又或者是描述一些重要的系統(tǒng)建設(shè)成果。

        通過該系統(tǒng)的演示模式都可以有效的提升溝通效率,使整個組織形成知識積累、統(tǒng)一認知、快速分享和實時更新的機制。

        圖6:演示匯報大屏模式

        三、未來展望

        1.可視化AIOps

        近年來AIOps的理念逐漸深入人心,Gartner也在監(jiān)管控運維架構(gòu)的基礎(chǔ)上補充了AIOps的核心節(jié)點。作為AIOps,從各類數(shù)據(jù)源匯總成為大數(shù)據(jù)庫,在這個基礎(chǔ)上進行計算、分析、融入算法、增加機器學(xué)習(xí)能力,并最終以可視化供給數(shù)據(jù)消費是已知的發(fā)展路徑。

        民生銀行運維大數(shù)據(jù)平臺已經(jīng)建設(shè)完成,目前也已開展與清華大學(xué)智能運維實驗室的合作,將其機器學(xué)習(xí)和算法研究成果投入到生產(chǎn)環(huán)境進行積累和學(xué)習(xí)。

        下一步云圖系統(tǒng)將對接智能運維系統(tǒng)的異常監(jiān)測分析數(shù)據(jù),實現(xiàn)AiOps與IT運維架構(gòu)可視化故障定位的展示能力。

        舉例來說,在架構(gòu)圖中呈現(xiàn)的事件信息,除了經(jīng)歷了過濾、壓縮、關(guān)聯(lián)、豐富等操作,還會補充單值標異常檢測系統(tǒng)在性能數(shù)據(jù)中挖掘的系統(tǒng)異常。

        比如業(yè)務(wù)系統(tǒng)交易響應(yīng)時長原本定義在100ms生成告警事件,而在異常檢測系統(tǒng)上線后,機器學(xué)習(xí)會基于數(shù)據(jù)特征,在低峰期,即便其響應(yīng)時長只有50ms,也可以發(fā)現(xiàn)系統(tǒng)異常,從而進一步補充事件提醒,結(jié)合云圖系統(tǒng),實現(xiàn)故障預(yù)警的可視化,進一步提高運維質(zhì)量。

        圖7:Gartner監(jiān)管控運維架構(gòu)

        2.自動化場景可視化

        下一步,系統(tǒng)將實現(xiàn)應(yīng)用發(fā)布及災(zāi)備切換自動化的可視化能力:

        應(yīng)用發(fā)布和災(zāi)備切換需要管理的各種資源關(guān)系復(fù)雜,應(yīng)用系統(tǒng)之間依存性高,自動化運維系統(tǒng)的流程管理可以清晰定義以上各種關(guān)系,有力的保障了災(zāi)備系統(tǒng)的服務(wù)質(zhì)量、提高應(yīng)對突發(fā)事件的能力。

        與此同時,各部門同事及領(lǐng)導(dǎo)可以通過大屏幕,一目了然的了解流程執(zhí)行情況,使ECC成為統(tǒng)一的“作戰(zhàn)指揮中心”。

        3.深入的場景化建設(shè)

        基于架構(gòu)圖和各類數(shù)據(jù)的集成,架構(gòu)管理可視化工具已經(jīng)成為了最貼近運維人員的綜合情勢研判工具。

        基于此,系統(tǒng)可以做進一步深化,站在運維人員不同的工作場景進行功能深化和數(shù)據(jù)封裝。

        舉例而言,故障在很多情況下源于變更,在系統(tǒng)變更前需要對變更進行評審,場景化能力可以在評審前,將變更前后需要關(guān)注的系統(tǒng)架構(gòu)、應(yīng)用交易性能指標、系統(tǒng)和網(wǎng)絡(luò)層面負載指標,以及各應(yīng)用的日志新產(chǎn)生數(shù)量,均封裝在一個頁面上。

        當變更日的次日清晨,應(yīng)用運維人員可以自動收到郵件通知,將上述信息進行匯總,點擊后即可打開封裝好上述數(shù)據(jù)和圖形的場景化頁面,從而對變更后的狀態(tài)一目了然,一旦出現(xiàn)問題也可以查看問題表征,并迅速定位上下游影響。

        四、總結(jié)

        “心靈沒有意象就永遠不能思考”,亞里士多德的這句名言,映射到IT運維管理中,架構(gòu)圖便是心靈意象的一種可視化呈現(xiàn)。

        對于IT架構(gòu)圖的規(guī)范化梳理,一方面在IT治理層面保障了運維管理工作可持續(xù)的優(yōu)化;

        另一方面隨著架構(gòu)可視化管理的深入,以IT架構(gòu)圖貫穿運維工作思考流的習(xí)慣正在逐漸形成。

        未來,將配置數(shù)據(jù)、監(jiān)控數(shù)據(jù)、日志數(shù)據(jù)、自動化工具、流程工具,基于架構(gòu)圖進行有機整合,激發(fā)了運維人員對運維所需工具的新需求,從而形成更加高效的數(shù)據(jù)消費場景。

        伴隨著工具深入使用和持續(xù)優(yōu)化,相應(yīng)的需求仍在不斷涌現(xiàn),未來會根據(jù)進展與大家分享。

        - END -

         推薦閱讀 

        31天拿下K8s含金量最高的CKA+CKS證書! 
        這些 K8S 日常故障處理集錦,運維請收藏~
        豬八戒網(wǎng) CI/CD 最佳實踐之路
        從零開始搭建創(chuàng)業(yè)公司DevOps技術(shù)棧
        Jenkins Pipeline 流水線部署 Kubernetes 應(yīng)用
        快、狠、準!系統(tǒng)有效的排查運維類故障
        Nginx 常用配置清單
        最強整理!常用正則表達式速查手冊
        12年資深運維老司機的成長感悟
        60道常見的 Kubernetes 面試題總結(jié)



        點亮,服務(wù)器三年不宕機

        瀏覽 47
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            真人一级婬片120分钟 | 国产资源网| 国产麻豆视频免费观看 | 无码成人午夜电影免费 | 农村老女人一级毛片 | 日本少妇videos高潮 | 91亚洲狠狠色综合久久久久久久 | 亚洲AV成人无码久久精品麻豆 | 十八岁新疆女rapper更新内容 | 国产内射90后白浆 |