1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        HDFS+Clickhouse+Spark:從0到1實(shí)現(xiàn)一款輕量級(jí)大數(shù)據(jù)分析系統(tǒng)

        共 3356字,需瀏覽 7分鐘

         ·

        2021-05-14 06:22

        導(dǎo)語(yǔ) | 在產(chǎn)品精細(xì)化運(yùn)營(yíng)時(shí)代,經(jīng)常會(huì)遇到產(chǎn)品增長(zhǎng)問(wèn)題:比如指標(biāo)漲跌原因分析、版本迭代效果分析、運(yùn)營(yíng)活動(dòng)效果分析等。這一類(lèi)分析問(wèn)題高頻且具有較高時(shí)效性要求,然而在人力資源緊張情況,傳統(tǒng)的數(shù)據(jù)分析模式難以滿足。本文嘗試從0到1實(shí)現(xiàn)一款輕量級(jí)大數(shù)據(jù)分析系統(tǒng)——MVP,以解決上述痛點(diǎn)問(wèn)題。文章作者:數(shù)據(jù)熊(筆名),騰訊云大數(shù)據(jù)分析工程師。

        一、背景及問(wèn)題


        在產(chǎn)品矩陣業(yè)務(wù)中,通過(guò)儀表盤(pán)可以快速發(fā)現(xiàn)增長(zhǎng)中遇到的問(wèn)題。然而,如何快速洞悉問(wèn)題背后的原因,是一個(gè)高頻且復(fù)雜的數(shù)據(jù)分析訴求。
        如果數(shù)據(jù)分析師通過(guò)人工計(jì)算分析,往往會(huì)占用0.5-1天時(shí)間才能找到原因。因此,人工計(jì)算分析方式,占用人力大,且數(shù)據(jù)分析效率低。
        另外,產(chǎn)品版本迭代與業(yè)務(wù)運(yùn)營(yíng)活動(dòng),也需要對(duì)新版本、新功能、新活動(dòng)進(jìn)行快速數(shù)據(jù)分析,已驗(yàn)證效果。因此,在產(chǎn)品矩陣業(yè)務(wù)精細(xì)化運(yùn)營(yíng)中,存在大量的數(shù)據(jù)分析訴求,且需要快速完成。
        在傳統(tǒng)的數(shù)據(jù)分析模式下,對(duì)于每個(gè)需求,一般需要經(jīng)歷3-5天才能解決問(wèn)題。除此之外,該模式還需要大量數(shù)據(jù)分析師對(duì)接需求。因此,在數(shù)據(jù)分析師人力緊缺情況下,該模式無(wú)法滿足產(chǎn)品增長(zhǎng)的數(shù)據(jù)分析訴求。

        二、解決辦法


        在傳統(tǒng)數(shù)據(jù)分析模式失效情況下,急需開(kāi)拓新的數(shù)據(jù)分析模式,以快速滿足產(chǎn)品增長(zhǎng)的數(shù)據(jù)分析訴求。
        為此,筆者和項(xiàng)目小團(tuán)隊(duì)從0到1實(shí)現(xiàn)一款輕量級(jí)大數(shù)據(jù)分析系統(tǒng)——MVP,希望通過(guò)MVP數(shù)據(jù)分析,驅(qū)動(dòng)產(chǎn)品從"Minimum Viable Product" to "Most Valuable Product"。
        除此之外,通過(guò)MVP數(shù)據(jù)分析系統(tǒng),一方面希望提升數(shù)據(jù)分析效率;另一方面希望節(jié)省數(shù)據(jù)分析人力。
        MVP數(shù)據(jù)分析系統(tǒng)分為四個(gè)模塊,在產(chǎn)品業(yè)務(wù)-經(jīng)營(yíng)指標(biāo)模塊,基于AARRR模型對(duì)產(chǎn)品增長(zhǎng)指標(biāo)分析,分析產(chǎn)品增長(zhǎng)北極星指標(biāo);在指標(biāo)異常-根因預(yù)警模塊,對(duì)增長(zhǎng)指標(biāo)異動(dòng)進(jìn)行監(jiān)控,并提供根因線索;在分析工具-增長(zhǎng)分析模塊,對(duì)用戶行為進(jìn)行深入分析,洞悉用戶行為;在AB-Test實(shí)驗(yàn)評(píng)估模塊,對(duì)業(yè)務(wù)決策方案進(jìn)行實(shí)驗(yàn),評(píng)估業(yè)務(wù)決策的合理性。通過(guò)四個(gè)模塊,實(shí)現(xiàn)數(shù)據(jù)分析驅(qū)動(dòng)產(chǎn)品精細(xì)化運(yùn)營(yíng)。

        三、技術(shù)實(shí)現(xiàn)


        一款輕量級(jí)大數(shù)據(jù)分析系統(tǒng),至少需要從數(shù)據(jù)建模、技術(shù)選型、頁(yè)面交互三方面實(shí)現(xiàn)。數(shù)據(jù)建模如水流,貫穿整個(gè)數(shù)據(jù)分析系統(tǒng);技術(shù)選型是基礎(chǔ)設(shè)施,支撐整個(gè)系統(tǒng)高效運(yùn)轉(zhuǎn);頁(yè)面交互是面向用戶,用數(shù)據(jù)說(shuō)話,對(duì)業(yè)務(wù)增長(zhǎng)進(jìn)行數(shù)據(jù)賦能。
        1. 數(shù)據(jù)建模
        在開(kāi)發(fā)MVP之前,由于歷史原因,現(xiàn)有的產(chǎn)品矩陣中產(chǎn)品與產(chǎn)品之間,存在數(shù)據(jù)建設(shè)分散、數(shù)據(jù)開(kāi)發(fā)重復(fù)、數(shù)據(jù)隔離等問(wèn)題,一個(gè)用戶會(huì)存在多條信息記錄。
        這種數(shù)據(jù)格局,不僅會(huì)導(dǎo)致計(jì)算、存儲(chǔ)、人力資源的浪費(fèi),更嚴(yán)重的是會(huì)很大程度影響上層數(shù)據(jù)應(yīng)用的效率。因此,舊的數(shù)據(jù)模式行不通,需要開(kāi)拓新的數(shù)據(jù)模式。
        MVP數(shù)據(jù)分析系統(tǒng)底層數(shù)據(jù)建設(shè),一方面基于“用戶(User)+事件ID(Event)+配置(Config)”思路,對(duì)產(chǎn)品數(shù)據(jù)信息進(jìn)行高度抽象整合,收斂產(chǎn)品矩陣業(yè)務(wù)數(shù)據(jù);另一方面,基于Key-Value模型,生成用戶大寬表,一個(gè)User_Id僅有一條記錄信息。
        2. 技術(shù)選型
        在日常產(chǎn)品數(shù)據(jù)可視化中,通常會(huì)想到使用MySQL進(jìn)行頁(yè)面交互式數(shù)據(jù)分析,但是MySQL數(shù)據(jù)庫(kù)承載數(shù)據(jù)能力在百萬(wàn)級(jí),適合對(duì)結(jié)果型數(shù)據(jù)進(jìn)行分析,對(duì)于上億級(jí)數(shù)據(jù)是無(wú)能為力。
        在復(fù)雜的數(shù)據(jù)分析場(chǎng)景中,通常需要基于用戶畫(huà)像與用戶行為,對(duì)用戶進(jìn)行OLAP多維自由交叉組合分析。因此,對(duì)于百萬(wàn)級(jí)以上的產(chǎn)品業(yè)務(wù),使用MySQL是無(wú)法滿足OLAP實(shí)時(shí)分析,需要嘗試新的技術(shù)選型。
        為了實(shí)現(xiàn)實(shí)時(shí)OLAP分析,對(duì)業(yè)界的大數(shù)據(jù)分析平臺(tái)的技術(shù)方案我們進(jìn)行了調(diào)研比較。業(yè)界存儲(chǔ)引擎主要是HDFS與HBASE,計(jì)算引擎使用比較多的是Impala,Druid,Clickhouse,Spark。Druid系統(tǒng)維護(hù)成本高,無(wú)Join能力,且語(yǔ)法應(yīng)用相對(duì)復(fù)雜。
        從計(jì)算速度角度,Clickhouse比Presto快2倍+,比Impala快3倍+,比SparkSql快約4倍,計(jì)算性能比較如下。
        實(shí)測(cè)數(shù)據(jù),對(duì)2.2億+條1.79GB記錄數(shù)據(jù),進(jìn)行單表聚合0.095s,分析速度18.95GB/s。
        和Impala相比,Clickhouse可以通過(guò)JDBC直接導(dǎo)入,數(shù)據(jù)導(dǎo)入成本低,Clickhouse系統(tǒng)維護(hù)成本相對(duì)低。另外,Clickhouse語(yǔ)法簡(jiǎn)單,易用性很強(qiáng),對(duì)頁(yè)面開(kāi)發(fā)友好,可以快速開(kāi)發(fā)出可視化頁(yè)面。
        基于上面這些因素,我們采用HDFS+Clickhouse+Spark技術(shù)方案。在這里,使用Spark補(bǔ)齊Clickhouse無(wú)法進(jìn)行大規(guī)模Join操作短板,比如處理大規(guī)模復(fù)雜的關(guān)聯(lián)分析任務(wù)。
        另外,Spark可以無(wú)縫訪問(wèn)HDFS中Hive表數(shù)據(jù),無(wú)需重新導(dǎo)數(shù)據(jù),應(yīng)用效率高。使用HDFS存儲(chǔ)歷史全量用戶標(biāo)簽與用戶行為數(shù)據(jù)(占比約80%),使用Clickhouse存儲(chǔ)近期用戶標(biāo)簽與用戶行為數(shù)據(jù)(占比20%)。
        3. 頁(yè)面交互
        MVP頁(yè)面交互形式,80%數(shù)據(jù)分析訴求是可以直接通過(guò)頁(yè)面實(shí)時(shí)分析完成,剩下約20%復(fù)雜分析任務(wù),是通過(guò)提交任務(wù)式分析完成。
        頁(yè)面實(shí)時(shí)分析秒級(jí)返回分析結(jié)果,提交任務(wù)式分析需要5-15分鐘返回結(jié)果。經(jīng)營(yíng)指標(biāo)體系、事件模型分析、漏斗模型分析、留存模型分析等,是通過(guò)頁(yè)面實(shí)時(shí)分析完成,用戶人群畫(huà)像洞察、用戶興趣偏好洞察是通過(guò)提交任務(wù)式分析完成。
        4. 應(yīng)用效果
        按照傳統(tǒng)數(shù)據(jù)分析模式,根據(jù)“提出需求->需求評(píng)審->寫(xiě)需求單->數(shù)據(jù)分析->輸出結(jié)果”的規(guī)范流程,數(shù)據(jù)訴求需要經(jīng)歷3-5天才能解決問(wèn)題,通過(guò)MVP系統(tǒng)可以快速完成數(shù)據(jù)分析訴求,大大縮短工期,對(duì)分析效率提升明顯。目前MVP數(shù)據(jù)分析系統(tǒng)已經(jīng)在內(nèi)部使用,近期,使用MVP進(jìn)行數(shù)據(jù)分析任務(wù)數(shù)達(dá)到1500+,高峰突破兩千次。
        從“人工數(shù)據(jù)分析 -> 工具化數(shù)據(jù)分析”的轉(zhuǎn)變,對(duì)數(shù)據(jù)分析效率提升明顯,更有利于數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品精細(xì)化運(yùn)營(yíng)。
        5. 總結(jié)
        本文嘗試介紹從0到1實(shí)現(xiàn)一款輕量級(jí)大數(shù)據(jù)分析系統(tǒng)——MVP。目前MVP數(shù)據(jù)分析系統(tǒng)已經(jīng)在內(nèi)部使用,對(duì)于提升數(shù)據(jù)分析效率明顯,為數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品業(yè)務(wù)增長(zhǎng)賦能。同時(shí),節(jié)省了數(shù)據(jù)分析師的人力投入。后期,基于產(chǎn)品矩陣業(yè)務(wù),在完善現(xiàn)有模塊情況下,還將對(duì)各個(gè)增長(zhǎng)工具進(jìn)行進(jìn)一步打磨,提升MVP使用體驗(yàn)。

        MVP乘風(fēng)出海,結(jié)合先悉數(shù)據(jù)平臺(tái)服務(wù)產(chǎn)業(yè)端


        MVP作為內(nèi)部系統(tǒng),目前為部門(mén)在移動(dòng)數(shù)據(jù)分析中節(jié)約了大量的時(shí)間成本,并沉淀了豐富的互聯(lián)網(wǎng)分析模板與工具。在部門(mén)服務(wù)行業(yè)客戶過(guò)程中,我們發(fā)現(xiàn)MVP所代表的移動(dòng)數(shù)據(jù)分析解決方案,是目前傳統(tǒng)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型同樣需要的必備工具。
        為此,后續(xù)我們利用輕量級(jí)數(shù)據(jù)平臺(tái)——先悉作為數(shù)據(jù)底座,解決了MVP對(duì)外部署的底層平臺(tái)問(wèn)題,開(kāi)發(fā)了可單獨(dú)私有化交付給行業(yè)客戶使用的MVP toB版本,幫助行業(yè)客戶通過(guò)實(shí)時(shí)用戶行為分析、畫(huà)像洞察為驅(qū)動(dòng),優(yōu)化運(yùn)營(yíng)策略。
        先悉數(shù)據(jù)平臺(tái)是一款輕量級(jí)的大數(shù)據(jù)平臺(tái)產(chǎn)品,有部署性價(jià)比高、運(yùn)維便利、可私有化等特點(diǎn),能夠以“小而美”的方式滿足中小規(guī)模項(xiàng)目的大數(shù)據(jù)應(yīng)用落地。在具體項(xiàng)目實(shí)踐中,先悉數(shù)據(jù)平臺(tái)+MVP形成了一套優(yōu)勢(shì)互補(bǔ)的組合,目前已經(jīng)開(kāi)始為行業(yè)客戶提供“開(kāi)箱即用”的移動(dòng)分析服務(wù)。

        先悉功能簡(jiǎn)介:

        • 先悉具備高性能、批流一體的大數(shù)據(jù)組件,無(wú)需自行部署各類(lèi)繁雜的開(kāi)源組件,快速實(shí)現(xiàn)私有化數(shù)據(jù)平臺(tái)的部署;
        • 先悉提供可視化任務(wù)流,作為數(shù)據(jù)開(kāi)發(fā)平臺(tái),結(jié)合Spark SQL及我們提供的SPL,在圖形化界面快速開(kāi)發(fā)一款數(shù)據(jù)應(yīng)用;
        • 先悉自帶強(qiáng)大可視化圖表能力,可快速建立一個(gè)可視化站點(diǎn),向同事、客戶及領(lǐng)導(dǎo)展示您的數(shù)據(jù)指標(biāo)。

        先悉數(shù)據(jù)平臺(tái)咨詢/商務(wù)合作:[email protected]
        參考文章:
        [1] https://zhuanlan.zhihu.com/p/54907288

        [2] https://clickhouse.tech/docs/en/sql-reference/statements/create/

        瀏覽 63
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            国产91视频一区 | 中文字幕丰满人妻无码区隔壁人爱 | 涩涩的视频在线观看 | 成人A片免费视频 | 亚洲插逼视频 | 扒开腿狂躁女人爽出白浆2 | 国产三级级舒淇在线观看 | 黄色成人短视频 | 国产日产欧美在线观看 | 18禁影库|