指標和標簽的基礎理解
一、前言
有朋友問我,什么是指標,什么是標簽,最本質的區(qū)別在哪?如何識別?不問我,我覺得我比較清晰的,好像很明確,但是被人一問,我覺得我又不清晰了,所以重新學習了一遍,把學習過筆記分享給大家,希望對大家有幫忙和啟發(fā)。
?
二、指標理解
1.指標是說明總體綜合數量特征的概念,所有指標能用數值來表示,一個完整的統(tǒng)計指標,一定要講時間、地點、范圍(百度);
2.指標的評價較易量化,通常有一定的標準和尺度;
3.指標是生產性思維、拆解式思維,講究的是化整為零,將事物分解開來進行多角度的描述,得到很多的指標;
4.指標最擅長的應用是監(jiān)測、分析、評價和建模;
5.指標是業(yè)務管理導向的,需要提前規(guī)劃,應用場景很多,戰(zhàn)略目標、市場定位、業(yè)務監(jiān)測、業(yè)績考核、任務分解、數據分析、數據建模、BI應用等。
?
三、標簽理解
1.?標簽是對象的屬性,顆粒度到字段級“標簽”則是指從原始數據清洗加工而來,能夠為業(yè)務所用并產生價值的數據資源,一般都需要結構化到字段粒度,保障服務化使用。(標簽類目體系)
2. 標簽是合成性思維、聚合式思維,講究的是化零為整,將多個分散的指標按照一定的原理進行綜合加工,得出概括性的結果;
3. 標簽經常也被稱呼為屬性、特征、指標、參數等;
4. 指標是半成品,標簽是成品,標簽是指標進一步產品化的結果;
5. 標簽面向數據應用端,解答的是“數據怎么用”“數據的價值是什么”的問題;
6. 標簽是資源,是資產,可定價、可售賣、可交易的一種數據產品;
8. 標簽是應用導向的,跟隨業(yè)務需求的而變化,隨時增加;
9. 標簽最擅長的應用是標注、刻畫、分類和特征提取;
10. 標簽主要應用在客戶分群、畫像、觸客、獲客、黏客、續(xù)客、數據建模、數據可視化等;
11. 標簽的評價一般與使用者的感受、應用的結果有強關聯關系,不同的人、不同的應用場景,標簽能發(fā)揮的效果可能大相徑庭。
四、標簽分層
1. 理解根目錄、標簽類目、標簽、標簽值四者的區(qū)別和聯系,對標簽體系就比較清晰了。下面是保險資產層級思考,可以對應數據中臺架構設計思考。
?

2.?根目錄指向標簽所屬的對象:根目錄往往是一種較為模糊、寬泛、簡單的名詞或動名詞,例如用戶、購房者、酒店、瀏覽(記錄)、交易(記錄)、報修(記錄)。按照數據思維,世上的一切事物都可以歸為人、物、關系三類對象,因此一個用來指向某個對象的詞(名詞指向人、物,動名詞指向關系)都不應該是標簽,往往是標簽根目錄。在數據物理層面往往映射為某張大寬表中的主鍵,這張大寬表中的信息都是對該主鍵對象的詳細刻畫和數據記錄:大寬表的列即映射為標簽,大寬表的行記錄則對應于具體的對象在各標簽屬性上的具體屬性值記錄。
?
3.類目是對標簽的分類:客戶標簽可以分類為基本信息、地理位置、社交關系等,這些分類名也是類目名。類目往往由名詞構成。一個類目及其所歸類的標簽在數據物理層面可以和某張具體表對應,例如“客戶”對象的【基本信息】類目下,有“性別”“年齡”“籍貫”等多個標簽,一般對應于客戶數據庫中的一張客戶基本信息表,該表中會有“性別”“年齡”“籍貫”等多個字段。
?
4.?標簽是對象的屬性,顆粒度到字段級:“客戶姓名”“客戶電話”“客戶居住地址”等字段粒度的屬性就是“客戶”對象的標簽。標簽往往由前后兩個名詞構成,前一個名詞作為對象定語修飾后一個名詞。標簽一般對應于某數據庫中某張數據表中的某字段。
?
5.?標簽值是對象屬性的具體取值:例如【小明】【小紅】是“客戶姓名”標簽的標簽值,【男】【女】是“性別”標簽的標簽值。標簽值往往是形容詞、名詞或數字,一般對應于數據庫中某張數據表中的某字段取值。標簽值的取值類型可以是數值型、文本型、日期型、Key-value型,但主要為數值型。數值型中又分可枚舉的離散值和不可枚舉的連續(xù)值。
?
五、標簽的分類
標簽的分類是為應用服務的,大家可以按需添加。
1.?按照標簽的變化性分為靜態(tài)標簽和動態(tài)標簽;
2.?按照標簽的指代和評估指標的不同,可分為定性標簽和定量標簽;
3.?按照標簽資產分級分層的方式,可以分為一級標簽、二級標簽、三級標簽等,每一個層級的標簽相當于一個業(yè)務維度的切面,符合MECE原則。
5.?按照復雜程度分為:事實標簽、規(guī)則標簽和模型標簽。事實標簽通常是寫實的,與指標有較高的重合度,
6. 比如性別,年齡等;規(guī)則標簽一般是有一些簡單的規(guī)則來控制,符合某種規(guī)則時才生成相應的標簽;模型標簽一般需要通過某些機器學習算法來生成。
?
六、結論
標簽是對象的屬性,一般到字段粒度,面向數據應用端,是資源,是資產,可定價、可售賣、可交易的一種數據產品,包含屬性、特征、指標、參數等;
指標是可量化的,用數值表示的字段,面向業(yè)務管理,需要提前規(guī)劃,擅長的應用是監(jiān)測、分析、評價和建模。
點擊上方公眾號進入?數據治理體系?主頁
