獨家 | 可視化101:選取合適類型的可視化圖表(下)
作者:Mariya Mansurova
翻譯:陳之炎
校對:趙茹萱
本文約2500字,建議閱讀16分鐘
本文介紹了可視化案例。
在上文中,我們從框架開始,通過討論數據可視化,為實際用例選取最為合適的圖表。具體而言,我們分析了時間序列與名稱比較的可視化示例,在下文中,我們將繼續(xù)分析其他案例的可視化示例。?????
偏差
推薦圖表
當需要比較不同的度量時,使用可視化來傳達這一想法的最佳方法是采用柱狀圖和基線的組合。
在我先前的一篇關于酒店評論主題建模的研究文章中做了這樣的可視化,我比較了每個特定主題連鎖酒店客戶評論的份額和基線(全部評論的平均比率),并強調了與顏色明顯不同的部分。
此外,當有一個顯示偏離預測值的任務時,可以使用折線圖比較預測值和事實數據的偏差,我喜歡用虛線表示預測值,以強調它不像真實值那么可信。
作者生成可視化圖片 這種折線圖的情況比前文討論的要復雜一些,需要使用Plotly 圖形對象來定制圖形,而非使用Plotly Express。
排序
推薦圖表
毫無疑問,可以使用類似于名稱比較的條狀圖,唯一需要記住的細微差別是依據感興趣的指標對圖表上的數據段進行排序。例如,可以根據年度商品總價值來可視化排位前3的地區(qū)。
作者生成可視化圖片 部分到整體
推薦圖表
最直接的解決方案是使用條形圖來顯示不同類別的細分份額,為了使可視化更容易解釋,按降序排序數值。
作者生成可視化圖片
上述方法同時適用于多個數據段,有時,使用堆疊的條形圖比較結構會更容易,例如,可以按年齡查看不同地區(qū)的客戶份額。
作者生成可視化圖片 這種情況下通常會采用餅圖,但我不建議你這么做,從視覺感知研究中可知,比較角度或區(qū)域比僅僅比較長度更具挑戰(zhàn)性,所以,柱狀圖是最好的。
此外,可能還會有其他任務,需要觀察隨著時間的推移而出現的結構變化。理想的選擇是用一個面積圖,它將顯示通過斜率進行數據細分和趨勢劃分(這就是為什么它是比以月作為分類的條形圖更好的選擇)。
作者生成可視化圖片
可以使用Plotly中的px.area函數創(chuàng)建面積圖。
頻率分布
- 是正態(tài)分布的嗎?
- 是單一模態(tài)的嗎?
- 數據中有無異常值?
推薦圖表
頻率分布的首選是直方圖(垂直柱狀圖通常沒有類別之間的邊界),我通常更喜歡規(guī)一化的直方圖,因為它們比絕對值更容易解釋。 如果要查看多個指標的頻率分布,則可以同時繪制多個直方圖。在這種情況下,使用歸一化直方圖至關重要。否則,如果不同組別中對象的數量不同,則將無法進行分布對比。
例如,可以比較來自英國和瑞士客戶的年度GMV可視化分布情況。
作者生成可視化圖片 我使用了matplotlib實現這一可視化,因為喜歡 matplotlib的默認設計,我更偏愛 matplotlib 而非采用Plotly的直方圖。
如果想比較多個類別的分布,那么在同一圖上畫出多個直方圖將是富有挑戰(zhàn)性。所以,建議使用方框圖,它們顯示的信息較少(只有中位數、四分位數和異常值),雖然需要對觀眾做出解釋,然而,對于多類別分布來說,這可能是最好的選擇。 例如,來看看不同地區(qū)在現場所花費時間的分布。
作者生成可視化圖片
如果不記得如何閱讀方框圖,這里有一個方案,可以提供一些提示。
圖片來自維基百科(來源)|CCBY-SA2.5授權 來瀏覽一下用方框圖進行可視化的構建模塊:
- 可視化圖上的方框顯示了IQR(四分位數范圍)-25%和75%的百分位數,
- 方框中間的線指定了中位數(50%的百分位數),
- 須等于1.5 * IQR,或等于數據集中的最小/最大值,
- 如果你有任何一個比1.5*IQR(異常值)更極端的數字,將它們描述為圖上的點。
相關性
推薦圖表
散點圖是顯示這些值之間的相關性的最佳解決方案,可能還需要添加一條趨勢線來突出顯示度量標準之間的關系。
作者生成可視化圖片 如果數據點眾多,那么可能會面臨散點圖的問題:不可能看到有全部數據點的結構,因為它們相互重疊。在這種情況下,減少不透明度可能會有助于揭示數據之間的關系。
例如,對比下面兩個圖,第二種方法更好理解數據的分布。
作者生成可視化圖片 使用Plotly圖形對象來畫這個圖形,因為它是定制的,要創(chuàng)建這樣的圖,需要指定兩個軌跡——一個用于散點圖,另一個用于回歸線。
將回歸線作為第二個軌跡非常必要,不這樣做的話,它會被散點圖所覆蓋。 此外,還可以顯示兩個變量的頻率分布,這實現起來并不費力,可以使用 seaborn庫中的聯合繪圖來實現,代碼如下。
作者生成可視化圖片 至此,已經涵蓋了數據可視化的全部用例。
這是我需要知道的全部可視化類型嗎?
下面是一些示例:
- 針對客戶旅程地圖的Sankey圖或太陽爆發(fā)圖;
- 需要顯示地理數據時,請使用Choropleth數據;
- Word云提供一個高水平的文本視圖。
如果想看到多條線的趨勢時使用Sparklines。
為了獲得靈感,通常使用諸如Plotly 或seaborn等流行的可視化庫。
此外,還可以詢問ChatGPT關于數據顯示的可能選項,它會提供一個相當合理的指南。
由作者提供截圖 總結 在整篇文章中,我們討論了數據可視化的基礎知識:
- 為什么需要可視化數據?
- 在開始研究可視化工作之前,應該問自己什么問題?
- 基本的構建模塊是什么,哪些最讓觀眾容易感知?
- 數據可視化的常用用例是什么?可以使用哪些圖表類型來解決這些問題?
希望本文所提供的框架將助您不被各種選項所困擾,為觀眾創(chuàng)造出更好的可視化圖表。
感謝拔冗閱讀本文,如果您有任何后續(xù)的問題或評論,請在評論區(qū)留下它們。
原文標題:
Visualisation 101: Choosing the Best Visualisation Type 原文鏈接: https://towardsdatascience.com/visualisation-101-choosing-the-best-visualisation-type-3a10838b150d
譯者簡介
陳之炎, 北京交通大學通信與控制工程專業(yè)畢業(yè),獲得工學碩士學位,歷任長城計算機軟件與系統公司工程師,大唐微電子公司工程師,現任北京吾譯超群科技有限公司技術支持。目前從事智能化翻譯教學系統的運營和維護,在人工智能深度學習和自然語言處理(NLP)方面積累有一定的經驗。業(yè)余時間喜愛翻譯創(chuàng)作,翻譯作品主要有:IEC-ISO 7816、伊拉克石油工程項目、新財稅主義宣言等等,其中中譯英作品“新財稅主義宣言”在GLOBAL TIMES正式發(fā)表。能夠利用業(yè)余時間加入到THU 數據派平臺的翻譯志愿者小組,希望能和大家一起交流分享,共同進步
翻譯組招募信息
工作內容: 需要一顆細致的心,將選取好的外文文章翻譯成流暢的中文。如果你是數據科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。
你能得到: 定期的翻譯培訓提高志愿者的翻譯水平,提高對于數據科學前沿的認知,海外的朋友可以和國內技術應用發(fā)展保持聯系,THU數據派產學研的背景為志愿者帶來好的發(fā)展機遇。
其他福利: 來自于名企的數據科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的伙伴。
點擊文末“ 閱讀原文 ”加入數據派團隊~
轉載須知
如需轉載,請在開篇顯著位置注明作者和出處(轉自:數據派ID:DatapiTHU),并在文章結尾放置數據派醒目二維碼。有原創(chuàng)標識文章,請發(fā)送【文章名稱-待授權公眾號名稱及ID】至聯系郵箱,申請白名單授權并按要求編輯。
發(fā)布后請將鏈接反饋至聯系郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。
點擊 “閱讀原文” 擁抱組織
