1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        8000字,詳解用戶畫像,助力企業(yè)精細(xì)化運(yùn)營(yíng)

        共 8225字,需瀏覽 17分鐘

         ·

        2022-03-09 21:59

        來(lái)源?:談數(shù)據(jù)


        導(dǎo)讀:在互聯(lián)網(wǎng)步入大數(shù)據(jù)時(shí)代后,用戶行為給企業(yè)的產(chǎn)品和服務(wù)帶來(lái)了一系列的改變和重塑,其中最大的變化在于,用戶的一切行為在企業(yè)面前是可“追溯”“分析”的。企業(yè)內(nèi)保存了大量的原始數(shù)據(jù)和各種業(yè)務(wù)數(shù)據(jù),這是企業(yè)經(jīng)營(yíng)活動(dòng)的真實(shí)記錄,如何更加有效地利用這些數(shù)據(jù)進(jìn)行分析和評(píng)估,成為企業(yè)基于更大數(shù)據(jù)量背景的問(wèn)題所在。

        隨著大數(shù)據(jù)技術(shù)的深入研究與應(yīng)用,企業(yè)的關(guān)注點(diǎn)日益聚焦在如何利用大數(shù)據(jù)來(lái)為精細(xì)化運(yùn)營(yíng)和精準(zhǔn)營(yíng)銷服務(wù),而要做精細(xì)化運(yùn)營(yíng),首先要建立本企業(yè)的用戶畫像。



        01
        畫像簡(jiǎn)介


        用戶畫像,即用戶信息標(biāo)簽化,通過(guò)收集用戶的社會(huì)屬性、消費(fèi)習(xí)慣、偏好特征等各個(gè)維度的數(shù)據(jù),進(jìn)而對(duì)用戶或者產(chǎn)品特征屬性進(jìn)行刻畫,并對(duì)這些特征進(jìn)行分析、統(tǒng)計(jì),挖掘潛在價(jià)值信息,從而抽象出用戶的信息全貌,如圖1-1所示。用戶畫像可看作企業(yè)應(yīng)用大數(shù)據(jù)的根基,是定向廣告投放與個(gè)性化推薦的前置條件,為數(shù)據(jù)驅(qū)動(dòng)運(yùn)營(yíng)奠定了基礎(chǔ)。由此看來(lái),如何從海量數(shù)據(jù)中挖掘出有價(jià)值的信息越發(fā)重要。


        圖1-1 某用戶標(biāo)簽化


        大數(shù)據(jù)已經(jīng)興起多年,其對(duì)于互聯(lián)網(wǎng)公司的應(yīng)用來(lái)說(shuō)已經(jīng)如水、電、空氣對(duì)于人們的生活一樣,成為不可或缺的重要組成部分。從基礎(chǔ)設(shè)施建設(shè)到應(yīng)用層面,主要有數(shù)據(jù)平臺(tái)搭建及運(yùn)維管理、數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、上層應(yīng)用的統(tǒng)計(jì)分析、報(bào)表生成及可視化、用戶畫像建模、個(gè)性化推薦與精準(zhǔn)營(yíng)銷等應(yīng)用方向。

        很多公司在大數(shù)據(jù)基礎(chǔ)建設(shè)上投入很多,也做了不少報(bào)表,但業(yè)務(wù)部門覺(jué)得大數(shù)據(jù)和傳統(tǒng)報(bào)表沒(méi)什么區(qū)別,也沒(méi)能體會(huì)大數(shù)據(jù)對(duì)業(yè)務(wù)有什么幫助和價(jià)值,究其原因,其實(shí)是“數(shù)據(jù)靜止在數(shù)據(jù)倉(cāng)庫(kù),是死的”。

        而用戶畫像可以幫助大數(shù)據(jù)“走出”數(shù)據(jù)倉(cāng)庫(kù),針對(duì)用戶進(jìn)行個(gè)性化推薦、精準(zhǔn)營(yíng)銷、個(gè)性化服務(wù)等多樣化服務(wù),是大數(shù)據(jù)落地應(yīng)用的一個(gè)重要方向。數(shù)據(jù)應(yīng)用體系的層級(jí)劃分如圖1-2所示。

        圖1-2 數(shù)據(jù)應(yīng)用體系的層級(jí)劃分

        標(biāo)簽類型:

        用戶畫像建模其實(shí)就是對(duì)用戶“打標(biāo)簽”,從對(duì)用戶打標(biāo)簽的方式來(lái)看,一般分為3種類型(如圖1-3所示):①統(tǒng)計(jì)類標(biāo)簽;②規(guī)則類標(biāo)簽;③機(jī)器學(xué)習(xí)挖掘類標(biāo)簽。

        圖1-3 標(biāo)簽類型

        下面我們介紹這3種類型的標(biāo)簽的區(qū)別:

        ① 統(tǒng)計(jì)類標(biāo)簽

        這類標(biāo)簽是最為基礎(chǔ)也最為常見(jiàn)的標(biāo)簽類型,例如,對(duì)于某個(gè)用戶來(lái)說(shuō),其性別、年齡、城市、星座、近7日活躍時(shí)長(zhǎng)、近7日活躍天數(shù)、近7日活躍次數(shù)等字段可以從用戶注冊(cè)數(shù)據(jù)、用戶訪問(wèn)、消費(fèi)數(shù)據(jù)中統(tǒng)計(jì)得出。該類標(biāo)簽構(gòu)成了用戶畫像的基礎(chǔ)。

        ② 規(guī)則類標(biāo)簽

        該類標(biāo)簽基于用戶行為及確定的規(guī)則產(chǎn)生。例如,對(duì)平臺(tái)上“消費(fèi)活躍”用戶這一口徑的定義為“近30天交易次數(shù)≥2”。在實(shí)際開(kāi)發(fā)畫像的過(guò)程中,由于運(yùn)營(yíng)人員對(duì)業(yè)務(wù)更為熟悉,而數(shù)據(jù)人員對(duì)數(shù)據(jù)的結(jié)構(gòu)、分布、特征更為熟悉,因此規(guī)則類標(biāo)簽的規(guī)則由運(yùn)營(yíng)人員和數(shù)據(jù)人員共同協(xié)商確定;

        ③ 機(jī)器學(xué)習(xí)挖掘類標(biāo)簽

        該類標(biāo)簽通過(guò)機(jī)器學(xué)習(xí)挖掘產(chǎn)生,用于對(duì)用戶的某些屬性或某些行為進(jìn)行預(yù)測(cè)判斷。例如,根據(jù)一個(gè)用戶的行為習(xí)慣判斷該用戶是男性還是女性、根據(jù)一個(gè)用戶的消費(fèi)習(xí)慣判斷其對(duì)某商品的偏好程度。該類標(biāo)簽需要通過(guò)算法挖掘產(chǎn)生。

        在項(xiàng)目工程實(shí)踐中,一般統(tǒng)計(jì)類和規(guī)則類的標(biāo)簽即可以滿足應(yīng)用需求,在開(kāi)發(fā)中占有較大比例。機(jī)器學(xué)習(xí)挖掘類標(biāo)簽多用于預(yù)測(cè)場(chǎng)景,如判斷用戶性別、用戶購(gòu)買商品偏好、用戶流失意向等。一般地,機(jī)器學(xué)習(xí)標(biāo)簽開(kāi)發(fā)周期較長(zhǎng),開(kāi)發(fā)成本較高,因此其開(kāi)發(fā)所占比例較小。


        02
        數(shù)據(jù)架構(gòu)


        在整個(gè)工程化方案中,系統(tǒng)依賴的基礎(chǔ)設(shè)施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除去基礎(chǔ)設(shè)施外,系統(tǒng)主體還包括Spark Streaming、ETL、產(chǎn)品端3個(gè)重要組成部分。圖1-4所示是用戶畫像數(shù)倉(cāng)架構(gòu)圖,下面對(duì)其進(jìn)行詳細(xì)介紹。

        圖1-4 用戶畫像數(shù)倉(cāng)架構(gòu)

        圖1-4下方虛線框中為常見(jiàn)的數(shù)據(jù)倉(cāng)庫(kù)ETL加工流程,也就是將每日的業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)、埋點(diǎn)數(shù)據(jù)等經(jīng)過(guò)ETL過(guò)程,加工到數(shù)據(jù)倉(cāng)庫(kù)對(duì)應(yīng)的ODS層、DW層、DM層中。

        中間的虛線框即為用戶畫像建模的主要環(huán)節(jié),用戶畫像不是產(chǎn)生數(shù)據(jù)的源頭,而是對(duì)基于數(shù)據(jù)倉(cāng)庫(kù)ODS層、DW層、DM層中與用戶相關(guān)數(shù)據(jù)的二次建模加工。在ETL過(guò)程中將用戶標(biāo)簽計(jì)算結(jié)果寫入Hive,由于不同數(shù)據(jù)庫(kù)有不同的應(yīng)用場(chǎng)景,后續(xù)需要進(jìn)一步將數(shù)據(jù)同步到MySQL、HBase、Elasticsearch等數(shù)據(jù)庫(kù)中。

        • Hive:存儲(chǔ)用戶標(biāo)簽計(jì)算結(jié)果、用戶人群計(jì)算結(jié)果、用戶特征庫(kù)計(jì)算結(jié)果。

        • MySQL:存儲(chǔ)標(biāo)簽元數(shù)據(jù),監(jiān)控相關(guān)數(shù)據(jù),導(dǎo)出到業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。

        • HBase:存儲(chǔ)線上接口實(shí)時(shí)調(diào)用類數(shù)據(jù)。

        • Elasticsearch:支持海量數(shù)據(jù)的實(shí)時(shí)查詢分析,用于存儲(chǔ)用戶人群計(jì)算、用戶群透視分析所需的用戶標(biāo)簽數(shù)據(jù)(由于用戶人群計(jì)算、用戶群透視分析的條件轉(zhuǎn)化成的SQL語(yǔ)句多條件嵌套較為復(fù)雜,使用Impala執(zhí)行也需花費(fèi)大量時(shí)間)。

        用戶標(biāo)簽數(shù)據(jù)在Hive中加工完成后,部分標(biāo)簽通過(guò)Sqoop同步到MySQL數(shù)據(jù)庫(kù),提供用于BI報(bào)表展示的數(shù)據(jù)、多維透視分析數(shù)據(jù)、圈人服務(wù)數(shù)據(jù);另一部分標(biāo)簽同步到HBase數(shù)據(jù)庫(kù)用于產(chǎn)品的線上個(gè)性化推薦。


        03
        主要覆蓋模塊


        搭建一套用戶畫像方案整體來(lái)說(shuō)需要考慮8個(gè)模塊的建設(shè),如圖1-5所示。

        • 用戶畫像基礎(chǔ):需要了解、明確用戶畫像是什么,包含哪些模塊,數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)是什么樣子,開(kāi)發(fā)流程,表結(jié)構(gòu)設(shè)計(jì),ETL設(shè)計(jì)等。這些都是框架,大方向的規(guī)劃,只有明確了方向后續(xù)才能做好項(xiàng)目的排期和人員投入預(yù)算。這對(duì)于評(píng)估每個(gè)開(kāi)發(fā)階段重要指標(biāo)和關(guān)鍵產(chǎn)出非常重要,重點(diǎn)可看1.4節(jié)。

        • 數(shù)據(jù)指標(biāo)體系:根據(jù)業(yè)務(wù)線梳理,包括用戶屬性、用戶行為、用戶消費(fèi)、風(fēng)險(xiǎn)控制等維度的指標(biāo)體系。

        • 標(biāo)簽數(shù)據(jù)存儲(chǔ):標(biāo)簽相關(guān)數(shù)據(jù)可存儲(chǔ)在Hive、MySQL、HBase、Elasticsearch等數(shù)據(jù)庫(kù)中,不同存儲(chǔ)方式適用于不同的應(yīng)用場(chǎng)景。

        • 標(biāo)簽數(shù)據(jù)開(kāi)發(fā):用戶畫像工程化的重點(diǎn)模塊,包含統(tǒng)計(jì)類、規(guī)則類、挖掘類、流式計(jì)算類標(biāo)簽的開(kāi)發(fā),以及人群計(jì)算功能的開(kāi)發(fā),打通畫像數(shù)據(jù)和各業(yè)務(wù)系統(tǒng)之間的通路,提供接口服務(wù)等開(kāi)發(fā)內(nèi)容。

        圖1-5 用戶畫像主要覆蓋模塊

        • 開(kāi)發(fā)性能調(diào)優(yōu):標(biāo)簽加工、人群計(jì)算等腳本上線調(diào)度后,為了縮短調(diào)度時(shí)間、保障數(shù)據(jù)的穩(wěn)定性等,需要對(duì)開(kāi)發(fā)的腳本進(jìn)行迭代重構(gòu)、調(diào)優(yōu)。

        • 作業(yè)流程調(diào)度:標(biāo)簽加工、人群計(jì)算、同步數(shù)據(jù)到業(yè)務(wù)系統(tǒng)、數(shù)據(jù)監(jiān)控預(yù)警等腳本開(kāi)發(fā)完成后,需要調(diào)度工具把整套流程調(diào)度起來(lái)。本書講解了Airflow這款開(kāi)源ETL工具在調(diào)度畫像相關(guān)任務(wù)腳本上的應(yīng)用。

        • 用戶畫像產(chǎn)品化:為了能讓用戶數(shù)據(jù)更好地服務(wù)于業(yè)務(wù)方,需要以產(chǎn)品化的形態(tài)應(yīng)用在業(yè)務(wù)上。產(chǎn)品化的模塊主要包括標(biāo)簽視圖、用戶標(biāo)簽查詢、用戶分群、透視分析等。

        • 用戶畫像應(yīng)用:畫像的應(yīng)用場(chǎng)景包括用戶特征分析、短信、郵件、站內(nèi)信、Push消息的精準(zhǔn)推送、客服針對(duì)用戶的不同話術(shù)、針對(duì)高價(jià)值用戶的極速退貨退款等VIP服務(wù)應(yīng)用。


        04
        開(kāi)發(fā)階段流程


        本節(jié)主要介紹畫像系統(tǒng)開(kāi)發(fā)上線的流程以及各階段的關(guān)鍵產(chǎn)出。

        1. 開(kāi)發(fā)上線流程

        用戶畫像建設(shè)項(xiàng)目流程,如圖1-6所示。


        圖1-6 用戶畫像建設(shè)項(xiàng)目流程


        第一階段:目標(biāo)解讀

        在建立用戶畫像前,首先需要明確用戶畫像服務(wù)于企業(yè)的對(duì)象,再根據(jù)業(yè)務(wù)方需求,明確未來(lái)產(chǎn)品建設(shè)目標(biāo)和用戶畫像分析之后的預(yù)期效果。

        一般而言,用戶畫像的服務(wù)對(duì)象包括運(yùn)營(yíng)人員和數(shù)據(jù)分析人員。不同業(yè)務(wù)方對(duì)用戶畫像的需求有不同的側(cè)重點(diǎn),就運(yùn)營(yíng)人員來(lái)說(shuō),他們需要分析用戶的特征、定位用戶行為偏好,做商品或內(nèi)容的個(gè)性化推送以提高點(diǎn)擊轉(zhuǎn)化率,所以畫像的側(cè)重點(diǎn)就落在了用戶個(gè)人行為偏好上;就數(shù)據(jù)分析人員來(lái)說(shuō),他們需要分析用戶行為特征,做好用戶的流失預(yù)警工作,還可根據(jù)用戶的消費(fèi)偏好做更有針對(duì)性的精準(zhǔn)營(yíng)銷。

        第二階段:任務(wù)分解與需求調(diào)研

        經(jīng)過(guò)第一階段的需求調(diào)研和目標(biāo)解讀,我們已經(jīng)明確了用戶畫像的服務(wù)對(duì)象與應(yīng)用場(chǎng)景,接下來(lái)需要針對(duì)服務(wù)對(duì)象的需求側(cè)重點(diǎn),結(jié)合產(chǎn)品現(xiàn)有業(yè)務(wù)體系和“數(shù)據(jù)字典”規(guī)約實(shí)體和標(biāo)簽之間的關(guān)聯(lián)關(guān)系,明確分析維度。就后文將要介紹的案例而言,需要從用戶屬性畫像、用戶行為畫像、用戶偏好畫像、用戶群體偏好畫像等角度去進(jìn)行業(yè)務(wù)建模。

        第三階段:需求場(chǎng)景討論與明確

        在本階段,數(shù)據(jù)運(yùn)營(yíng)人員需要根據(jù)與需求方的溝通結(jié)果,輸出產(chǎn)品用戶畫像需求文檔,在該文檔中明確畫像應(yīng)用場(chǎng)景、最終開(kāi)發(fā)出的標(biāo)簽內(nèi)容與應(yīng)用方式,并就該文檔與需求方反復(fù)溝通并確認(rèn)無(wú)誤。

        第四階段:應(yīng)用場(chǎng)景與數(shù)據(jù)口徑確認(rèn)

        經(jīng)過(guò)第三個(gè)階段明確了需求場(chǎng)景與最終實(shí)現(xiàn)的標(biāo)簽維度、標(biāo)簽類型后,數(shù)據(jù)運(yùn)營(yíng)人員需要結(jié)合業(yè)務(wù)與數(shù)據(jù)倉(cāng)庫(kù)中已有的相關(guān)表,明確與各業(yè)務(wù)場(chǎng)景相關(guān)的數(shù)據(jù)口徑。在該階段中,數(shù)據(jù)運(yùn)營(yíng)方需要輸出產(chǎn)品用戶畫像開(kāi)發(fā)文檔,該文檔需要明確應(yīng)用場(chǎng)景、標(biāo)簽開(kāi)發(fā)的模型、涉及的數(shù)據(jù)庫(kù)與表以及應(yīng)用實(shí)施流程。該文檔不需要再與運(yùn)營(yíng)方討論,只需面向數(shù)據(jù)運(yùn)營(yíng)團(tuán)隊(duì)內(nèi)部就開(kāi)發(fā)實(shí)施流程達(dá)成一致意見(jiàn)即可。

        第五階段:特征選取與模型數(shù)據(jù)落表

        本階段中數(shù)據(jù)分析挖掘人員需要根據(jù)前面明確的需求場(chǎng)景進(jìn)行業(yè)務(wù)建模,寫好HQL邏輯,將相應(yīng)的模型邏輯寫入臨時(shí)表中,并抽取數(shù)據(jù)校驗(yàn)是否符合業(yè)務(wù)場(chǎng)景需求。

        第六階段:線下模型數(shù)據(jù)驗(yàn)收與測(cè)試

        數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)的人員將相關(guān)數(shù)據(jù)落表后,設(shè)置定時(shí)調(diào)度任務(wù),定期增量更新數(shù)據(jù)。數(shù)據(jù)運(yùn)營(yíng)人員需要驗(yàn)收數(shù)倉(cāng)加工的HQL邏輯是否符合需求,根據(jù)業(yè)務(wù)需求抽取表中數(shù)據(jù)查看其是否在合理范圍內(nèi),如果發(fā)現(xiàn)問(wèn)題要及時(shí)反饋給數(shù)據(jù)倉(cāng)庫(kù)人員調(diào)整代碼邏輯和行為權(quán)重的數(shù)值。

        第七階段:線上模型發(fā)布與效果追蹤

        經(jīng)過(guò)第六階段,數(shù)據(jù)通過(guò)驗(yàn)收之后,會(huì)通過(guò)Git進(jìn)行版本管理,部署上線。使用Git進(jìn)行版本管理,上線后通過(guò)持續(xù)追蹤標(biāo)簽應(yīng)用效果及業(yè)務(wù)方反饋,調(diào)整優(yōu)化模型及相關(guān)權(quán)重配置。

        2. 各階段關(guān)鍵產(chǎn)出

        為保證程序上線的準(zhǔn)時(shí)性和穩(wěn)定性,需要規(guī)劃好各階段的任務(wù)排期和關(guān)鍵產(chǎn)出。畫像體系的開(kāi)發(fā)分為幾個(gè)主要階段,包括前期指標(biāo)體系梳理、用戶標(biāo)簽開(kāi)發(fā)、ETL調(diào)度開(kāi)發(fā)、打通數(shù)據(jù)服務(wù)層、畫像產(chǎn)品端開(kāi)發(fā)、面向業(yè)務(wù)方推廣應(yīng)用、為業(yè)務(wù)方提供營(yíng)銷策略的解決方案等,如表1-1所示。

        表1-1 用戶畫像項(xiàng)目各階段關(guān)鍵產(chǎn)出

        • 標(biāo)簽開(kāi)發(fā):根據(jù)業(yè)務(wù)需求和應(yīng)用場(chǎng)景梳理標(biāo)簽指標(biāo)體系,調(diào)研業(yè)務(wù)上定義的數(shù)據(jù)口徑,確認(rèn)數(shù)據(jù)來(lái)源,開(kāi)發(fā)相應(yīng)的標(biāo)簽。標(biāo)簽開(kāi)發(fā)在整個(gè)畫像項(xiàng)目周期中占有較大比重。

        • ETL調(diào)度開(kāi)發(fā):梳理需要調(diào)度的各任務(wù)之間的依賴關(guān)系,開(kāi)發(fā)調(diào)度腳本及調(diào)度監(jiān)控告警腳本,上線調(diào)度系統(tǒng)。

        • 打通服務(wù)層接口:為了讓畫像數(shù)據(jù)走出數(shù)據(jù)倉(cāng)庫(kù),應(yīng)用到用戶身上,需要打通數(shù)據(jù)倉(cāng)庫(kù)和各業(yè)務(wù)系統(tǒng)的接口。

        • 畫像產(chǎn)品化:需要產(chǎn)品經(jīng)理與業(yè)務(wù)人員、技術(shù)開(kāi)發(fā)人員一起對(duì)接業(yè)務(wù)需求點(diǎn)和產(chǎn)品功能實(shí)現(xiàn)形式,畫產(chǎn)品原型,確定工作排期。Java Web端開(kāi)發(fā)完成后,需要數(shù)據(jù)開(kāi)發(fā)人員向?qū)?yīng)的庫(kù)表中灌入數(shù)據(jù)。

        • 開(kāi)發(fā)調(diào)優(yōu):在畫像的數(shù)據(jù)和產(chǎn)品端搭建好架構(gòu)、能提供穩(wěn)定服務(wù)的基礎(chǔ)上,為了讓調(diào)度任務(wù)執(zhí)行起來(lái)更加高效、提供服務(wù)更加穩(wěn)健,需要對(duì)標(biāo)簽計(jì)算腳本、調(diào)度腳本、數(shù)據(jù)同步腳本等相關(guān)計(jì)算任務(wù)進(jìn)行重構(gòu)優(yōu)化。

        • 面向業(yè)務(wù)方推廣應(yīng)用:用戶畫像最終的價(jià)值產(chǎn)出點(diǎn)是業(yè)務(wù)方應(yīng)用畫像數(shù)據(jù)進(jìn)行用戶分析,多渠道觸達(dá)運(yùn)營(yíng)用戶,分析ROI,提升用戶活躍度或營(yíng)收。因此,面向業(yè)務(wù)人員推廣畫像系統(tǒng)的使用方式、提供針對(duì)具體業(yè)務(wù)場(chǎng)景的解決方案顯得尤為重要。在該階段,相關(guān)人員需要撰寫畫像的使用文檔,提供業(yè)務(wù)支持。


        05


        畫像應(yīng)用的落地

        用戶畫像最終的價(jià)值還是要落地運(yùn)行,為業(yè)務(wù)帶來(lái)實(shí)際價(jià)值。這里需要開(kāi)發(fā)標(biāo)簽的數(shù)據(jù)工程師和需求方相互協(xié)作,將標(biāo)簽應(yīng)用到業(yè)務(wù)中。否則開(kāi)發(fā)完標(biāo)簽后,數(shù)據(jù)還是只停留在數(shù)據(jù)倉(cāng)庫(kù)中,沒(méi)有為業(yè)務(wù)決策帶來(lái)積極作用。

        畫像開(kāi)發(fā)過(guò)程中,還需要開(kāi)發(fā)人員組織數(shù)據(jù)分析、運(yùn)營(yíng)、客服等團(tuán)隊(duì)的人員進(jìn)行畫像應(yīng)用上的推廣。對(duì)于數(shù)據(jù)分析人員來(lái)說(shuō),可能會(huì)關(guān)注用戶畫像開(kāi)發(fā)了哪些表、哪些字段以及字段的口徑定義;對(duì)運(yùn)營(yíng)、客服等業(yè)務(wù)人員來(lái)說(shuō),可能更關(guān)注用戶標(biāo)簽定義的口徑,如何在Web端使用畫像產(chǎn)品進(jìn)行分析、圈定用戶進(jìn)行定向營(yíng)銷,以及應(yīng)用在業(yè)務(wù)上數(shù)據(jù)的準(zhǔn)確性和及時(shí)性。

        只有業(yè)務(wù)人員在日常工作中真正應(yīng)用畫像數(shù)據(jù)、畫像產(chǎn)品,才能更好地推動(dòng)畫像標(biāo)簽的迭代優(yōu)化,帶來(lái)流量提升和營(yíng)收增長(zhǎng),產(chǎn)出業(yè)績(jī)價(jià)值。


        06
        某用戶畫像案例


        這里通過(guò)一個(gè)實(shí)踐案例來(lái)將大家更好地帶入實(shí)際開(kāi)發(fā)畫像、應(yīng)用畫像標(biāo)簽的場(chǎng)景中。本節(jié)主要介紹案例背景及相關(guān)的元數(shù)據(jù),以及開(kāi)發(fā)標(biāo)簽中可以設(shè)計(jì)的表結(jié)構(gòu)樣式。

        在本案例的開(kāi)發(fā)工作中,基于Spark計(jì)算引擎,主要涉及的語(yǔ)言包括HiveQL、Python、Scala、Shell等。

        1. 案例背景介紹

        某圖書電商網(wǎng)站擁有超過(guò)千萬(wàn)的網(wǎng)購(gòu)用戶群體,所售各品類圖書100余萬(wàn)種。用戶在平臺(tái)上可進(jìn)行瀏覽、搜索、收藏、下單、購(gòu)買等行為。商城的運(yùn)營(yíng)需要解決兩個(gè)問(wèn)題:一方面在企業(yè)產(chǎn)品線逐漸擴(kuò)張、信息資源過(guò)載的背景下,如何在兼顧自身商業(yè)目標(biāo)的同時(shí)更好地滿足消費(fèi)者的需求,為用戶帶來(lái)更個(gè)性化的購(gòu)物體驗(yàn),通過(guò)內(nèi)容的精準(zhǔn)推薦,更好地提高用戶的點(diǎn)擊轉(zhuǎn)化率;另一方面在用戶規(guī)模不斷增長(zhǎng)的背景下,運(yùn)營(yíng)方考慮建立用戶流失預(yù)警機(jī)制,及時(shí)識(shí)別將要流失的用戶群體,采取運(yùn)營(yíng)措施挽回用戶。

        商城自建立以來(lái),數(shù)據(jù)倉(cāng)庫(kù)中積累著大量的業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)及埋點(diǎn)數(shù)據(jù)。如何充分挖掘沉淀在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的價(jià)值,有效支持用戶畫像的建設(shè),成為當(dāng)前的重要工作。

        2. 相關(guān)元數(shù)據(jù)

        在本案例中,可以獲取的數(shù)據(jù)按其類型分為:業(yè)務(wù)類數(shù)據(jù)和用戶行為數(shù)據(jù)。其中業(yè)務(wù)類數(shù)據(jù)是指用戶在平臺(tái)上下單、購(gòu)買、收藏物品、貨物配送等與業(yè)務(wù)相關(guān)的數(shù)據(jù);用戶行為數(shù)據(jù)是指用戶搜索某條信息、訪問(wèn)某個(gè)頁(yè)面、點(diǎn)擊某個(gè)按鈕、提交某個(gè)表單等通過(guò)操作行為產(chǎn)生(在解析日志的埋點(diǎn)表中)的數(shù)據(jù)。

        涉及數(shù)據(jù)倉(cāng)庫(kù)中的表主要包括用戶信息表、商品訂單表、圖書信息表、圖書類目表、App端日志表、Web端日志表、商品評(píng)論表等。下面就用戶畫像建模過(guò)程中會(huì)用到的一些數(shù)據(jù)表做詳細(xì)介紹。

        ① 用戶信息表

        用戶信息表(見(jiàn)表1-2)存放有關(guān)用戶的各種信息,如用戶姓名、年齡、性別、電話號(hào)碼、歸屬地等信息。

        表1-2 用戶信息表(dim.user_basic_info)

        ② 商品訂單表

        商品訂單表(見(jiàn)表1-3)存放商品訂單的各類信息,包括訂單編號(hào)、用戶id、用戶姓名、訂單生成時(shí)間、訂單狀態(tài)等信息。



        表1-3 商品訂單表(dw.order_info_fact)

        ③ 埋點(diǎn)日志表

        埋點(diǎn)日志表(見(jiàn)表1-4)存放用戶訪問(wèn)App時(shí)點(diǎn)擊相關(guān)控件的打點(diǎn)記錄。通過(guò)在客戶端做埋點(diǎn),從日志數(shù)據(jù)中解析出來(lái)。

        表1-4 埋點(diǎn)日志表(ods.page_event_log)

        ④ 訪問(wèn)日志表

        訪問(wèn)日志表(見(jiàn)表1-5)存放用戶訪問(wèn)App的相關(guān)信息及用戶的LBS相關(guān)信息,通過(guò)在客戶端埋點(diǎn),從日志數(shù)據(jù)中解析出來(lái)。

        表1-5 訪問(wèn)日志表(ods.page_view_log)

        ⑤ 商品評(píng)論表

        商品評(píng)論表(見(jiàn)表1-6)存放用戶對(duì)商品的評(píng)論信息。

        表1-6 商品評(píng)論表(dw.book_comment)

        ⑥ 搜索日志表

        搜索日志表(見(jiàn)表1-7)存放用戶在App端搜索相關(guān)的日志數(shù)據(jù)。

        表1-7 搜索日志表(dw.app_search_log)

        ⑦ 用戶收藏表

        用戶收藏表(見(jiàn)表1-8)記錄用戶收藏圖書的數(shù)據(jù)。

        表1-8 用戶收藏表(dw.book_collection_df)

        ⑧ 購(gòu)物車信息表

        購(gòu)物車信息表(見(jiàn)表1-9)記錄用戶將圖書加入購(gòu)物車的數(shù)據(jù)。

        表1-9 購(gòu)物車信息表(dw.shopping_cart_df)

        3. 畫像表結(jié)構(gòu)設(shè)計(jì)

        表結(jié)構(gòu)設(shè)計(jì)也是畫像開(kāi)發(fā)過(guò)程中需要解決的一個(gè)重要問(wèn)題。

        表結(jié)構(gòu)設(shè)計(jì)的重點(diǎn)是要考慮存儲(chǔ)哪些信息、如何存儲(chǔ)(數(shù)據(jù)分區(qū))、如何應(yīng)用(如何抽取標(biāo)簽)這3個(gè)方面的問(wèn)題。

        不同業(yè)務(wù)背景有不同的設(shè)計(jì)方式,這里提供兩種設(shè)計(jì)思路:一是每日全量數(shù)據(jù)的表結(jié)構(gòu);二是每日增量數(shù)據(jù)的表結(jié)構(gòu)。

        Hive需要對(duì)輸入進(jìn)行全盤掃描來(lái)滿足查詢條件,通過(guò)使用分區(qū)可以優(yōu)化查詢。對(duì)于用戶標(biāo)簽這種日加工數(shù)據(jù),隨著時(shí)間的推移,分區(qū)數(shù)量的變動(dòng)也是均勻的。

        每日全量數(shù)據(jù),即該表的日期分區(qū)中記錄著截止到當(dāng)天的全量用戶數(shù)據(jù)。例如,“select ?count(*) ?from userprofile ?where data='20180701'”這條語(yǔ)句查詢的是userprofile表截止到2018年7月1日的全量用戶數(shù)據(jù)。日全量數(shù)據(jù)的優(yōu)勢(shì)是方便查詢,缺點(diǎn)是不便于探查更細(xì)粒度的用戶行為。

        每日增量數(shù)據(jù),即該表的日期分區(qū)中記錄著當(dāng)日的用戶行為數(shù)據(jù)。例如,同樣是“select count(*) from userprofile where data='20180701'”,這條語(yǔ)句查詢的是userprofile表在2018年7月1日記錄的當(dāng)日用戶行為數(shù)據(jù)。日增量數(shù)據(jù)可視為ODS層的用戶行為畫像,在應(yīng)用時(shí)還需要基于該增量數(shù)據(jù)做進(jìn)一步的建模加工。

        下面詳細(xì)介紹這兩種表結(jié)構(gòu)的設(shè)計(jì)方法。

        ① 日全量數(shù)據(jù)

        日全量數(shù)據(jù)表中,在每天對(duì)應(yīng)的日期分區(qū)中插入截止到當(dāng)天為止的全量數(shù)據(jù),用戶進(jìn)行查詢時(shí),只需查詢最近一天的數(shù)據(jù)即可獲得最新全量數(shù)據(jù)。下面以一個(gè)具體的日全量表結(jié)構(gòu)的例子來(lái)進(jìn)行說(shuō)明。

        這里userid表示用戶id,labelweight表示標(biāo)簽權(quán)重,theme表示標(biāo)簽歸屬的二級(jí)主題,labelid表示一個(gè)標(biāo)簽id。通過(guò)“日期 +標(biāo)簽歸屬的二級(jí)主題+標(biāo)簽id”的方式進(jìn)行分區(qū),設(shè)置三個(gè)分區(qū)字段更便于開(kāi)發(fā)和查詢數(shù)據(jù)。該表結(jié)構(gòu)下的標(biāo)簽權(quán)重僅考慮統(tǒng)計(jì)類型標(biāo)簽的權(quán)重,如:歷史購(gòu)買金額標(biāo)簽對(duì)應(yīng)的權(quán)重為金額數(shù)量,用戶近30日訪問(wèn)天數(shù)為對(duì)應(yīng)的天數(shù),該權(quán)重值的計(jì)算未考慮較為復(fù)雜的用戶行為次數(shù)、行為類型、行為距今時(shí)間等復(fù)雜情況。

        通過(guò)表名末尾追加“_all”的規(guī)范化命名形式,可直觀看出這是一張日全量表。

        例如,對(duì)于主題類型為“會(huì)員”的標(biāo)簽,插入“20190101”日的全量數(shù)據(jù),可通過(guò)語(yǔ)句:

        insert overwrite table dw. userprofile_userlabel_all partition(data_date= '20190101', theme= 'member', labelid='ATTRITUBE_U_05_001')來(lái)實(shí)現(xiàn)。

        查詢截止到“20190101”日的被打上會(huì)員標(biāo)簽的用戶量,可通過(guò)語(yǔ)句:

        select count(distinct userid) from dw.userprofile_userlabel_all where data_date='20190101'來(lái)實(shí)現(xiàn)。

        ② 日增量數(shù)據(jù)

        日增量數(shù)據(jù)表,即在每天的日期分區(qū)中插入當(dāng)天業(yè)務(wù)運(yùn)行產(chǎn)生的數(shù)據(jù),用戶進(jìn)行查詢時(shí)通過(guò)限制查詢的日期范圍,就可以找出在特定時(shí)間范圍內(nèi)被打上特定標(biāo)簽的用戶。下面以一個(gè)具體的日增量表結(jié)構(gòu)的例子來(lái)說(shuō)明。

        這里,labelid表示標(biāo)簽名稱;cookieid表示用戶id;act_cnt表示用戶當(dāng)日行為次數(shù),如用戶當(dāng)日瀏覽某三級(jí)品類商品3次,則打上次數(shù)為3;tag_type_id為標(biāo)簽類型,如母嬰、3C、數(shù)碼等不同類型;act_type_id表示行為類型,如瀏覽、搜索、收藏、下單等行為。分區(qū)方式為按日期分區(qū),插入當(dāng)日數(shù)據(jù)。

        通過(guò)表名末尾追加“_append”的規(guī)范化命名形式,可直觀看出這是一張日增量表。

        例如,某用戶在“20180701”日瀏覽某3C電子商品4次(act_cnt),即給該用戶(userid)打上商品對(duì)應(yīng)的三級(jí)品類標(biāo)簽(tagid),標(biāo)簽類型(tag_type_id)為3C電子商品,行為類型(act_type_id)為瀏覽。這里可以通過(guò)對(duì)標(biāo)簽類型和行為類型兩個(gè)字段配置維度表的方式,對(duì)數(shù)據(jù)進(jìn)行管理。例如對(duì)于行為類型(act_type_id)字段,可以設(shè)定1為購(gòu)買行為、2為瀏覽行為、3為收藏行為等,在行為標(biāo)簽表中以數(shù)值定義用戶行為類型,在維度表中維護(hù)每個(gè)數(shù)值對(duì)應(yīng)的具體含義。

        該日增量數(shù)據(jù)表可視為ODS層用戶行為標(biāo)簽明細(xì)。在查詢過(guò)程中,例如對(duì)于某用戶id為001的用戶,查詢其在“20180701”日到“20180707”日被打上的標(biāo)簽,可通過(guò)命令:

        select * from dw.userprofile_act_feature_append where userid = '001' and data_date>='20180701' and data_date<= '20180707'查詢。

        該日增量的表結(jié)構(gòu)記錄了用戶每天的行為帶來(lái)的標(biāo)簽,但未計(jì)算打在用戶身上標(biāo)簽的權(quán)重,計(jì)算權(quán)重時(shí)還需做進(jìn)一步建模加工。標(biāo)簽權(quán)重算法詳見(jiàn)4.6節(jié)的內(nèi)容。

        ③ 關(guān)于寬表設(shè)計(jì)

        用戶畫像表結(jié)構(gòu)如何設(shè)計(jì),沒(méi)有一定要遵循的固定的格式,符合業(yè)務(wù)需要、能滿足應(yīng)用即可。下面通過(guò)兩個(gè)寬表設(shè)計(jì)的案例,提供另一種解決方案的思路。

        用戶屬性寬表設(shè)計(jì)(見(jiàn)表1-10),主要記錄用戶基本屬性信息。

        表1-10 用戶屬性寬表設(shè)計(jì)

        用戶日活躍寬表設(shè)計(jì)(見(jiàn)表1-11),主要記錄用戶每天訪問(wèn)的信息。


        表1-11 用戶日活躍寬表設(shè)計(jì)
        07
        定性類畫像


        本書重點(diǎn)講解如何運(yùn)用大數(shù)據(jù)定量刻畫用戶畫像,然而對(duì)于用戶的刻畫除了定量維度外,定性刻畫也是常見(jiàn)手段。定性類畫像多見(jiàn)于用戶研究等運(yùn)營(yíng)類崗位,通過(guò)電話調(diào)研、網(wǎng)絡(luò)調(diào)研問(wèn)卷、當(dāng)面深入訪談、網(wǎng)上第三方權(quán)威數(shù)據(jù)等方式收集用戶信息,幫助其理解用戶。這種定性類調(diào)研相比大數(shù)據(jù)定量刻畫用戶來(lái)說(shuō),可以更精確地了解用戶需求和行為特征,但這個(gè)樣本量是有限的,得出的結(jié)論也不一定能代表大部分用戶的觀點(diǎn)。

        通過(guò)制定調(diào)研問(wèn)卷表,我們可以收集用戶基本信息以及設(shè)置一個(gè)或多個(gè)場(chǎng)景,專訪用戶或網(wǎng)絡(luò)回收調(diào)研問(wèn)卷,在分析問(wèn)卷數(shù)據(jù)后獲取用戶的畫像特征。目前市場(chǎng)上“問(wèn)卷星”等第三方問(wèn)卷調(diào)查平臺(tái)可提供用戶問(wèn)卷設(shè)計(jì)、鏈接發(fā)放、采集數(shù)據(jù)和信息、調(diào)研結(jié)果分析等一系列功能,如圖1-7所示。

        圖1-7 某調(diào)研問(wèn)卷示例(截圖自“問(wèn)卷星”)

        根據(jù)回收的調(diào)研問(wèn)卷,可結(jié)合統(tǒng)計(jì)數(shù)據(jù)進(jìn)一步分析用戶畫像特征(如圖1-8所示)。

        圖1-8 回收的調(diào)研問(wèn)卷(截圖自“問(wèn)卷星”)


        08
        小結(jié)
        本文主要介紹了用戶畫像的一些基礎(chǔ)知識(shí),包括畫像的簡(jiǎn)介、標(biāo)簽類型、整個(gè)畫像系統(tǒng)的數(shù)據(jù)架構(gòu),開(kāi)發(fā)畫像系統(tǒng)主要覆蓋的8個(gè)模塊,以及開(kāi)發(fā)過(guò)程中的各階段關(guān)鍵產(chǎn)出。初步介紹了畫像系統(tǒng)的輪廓概貌,幫助讀者對(duì)于如何設(shè)計(jì)畫像系統(tǒng)、開(kāi)發(fā)周期、畫像的應(yīng)用方式等有宏觀的初步的了解。

        瀏覽 26
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            美女被操国产 | 国内精品久久久久影院男同志 | www.黄色av | 91人人人人 | 国产成人毛片无码视频不卡 | 国产无码小视频 | 黄色片伦理片 | 成人免费A片免费免费 | 特级西西最大胆日本无码 | 美女和男人羞羞视频 |