1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        帶你用數(shù)據(jù)分析看透美國總統(tǒng)大選

        共 3933字,需瀏覽 8分鐘

         ·

        2020-11-20 21:47

        大數(shù)據(jù)文摘授權轉載自木木自由
        作者:Ruby


        數(shù)據(jù)分析到底是什么?該怎么做?數(shù)據(jù)思維又是什么?數(shù)據(jù)分析怎么應用到日常工作生活?


        為了更好的理解數(shù)據(jù)分析的這些問題,我們來結合美國大選這個具體例子,帶著大家做一場“探索性數(shù)據(jù)分析”。


        第一步:確定分析目的

        ?

        美國總統(tǒng)大選投票結果已公布,一陣熱鬧過后,是否好奇,想看清這場“鬧劇”是怎么回事?出于這個目的,我們收集數(shù)據(jù),來做一次“探索性數(shù)據(jù)分析”之旅。


        第二步:理解業(yè)務

        ?

        看著選票地圖,很多人想不通的是,為什么老百姓都參加了投票,但是官方顯示的票數(shù),每個州只有幾票?這些票到底怎么來的?

        ? ? ? ??? ? ?
        這就和美國的選舉規(guī)則有關,美國各州人民都參與了投票,但是總統(tǒng)并不是由他們直接選出來的,能投票選總統(tǒng)的是另外一波人“國會議員”:
        ? ? ? ??? ? ?
        既然是議員投票選總統(tǒng),選民還投票干嘛?

        這和另外一個規(guī)則有關,雖然議員的票數(shù)決定了誰做總統(tǒng),但是議員不能決定自己想投給誰,而是由選民決定的,也就是說,全體選民投票的結果決定議員的票給誰。比如:阿拉巴馬州有超過50%的選民投票給A,那么這個州所有議員的票都屬于A,這個規(guī)則叫“贏家通吃”。

        所以我們看到各州的投票結果顯示 XX : 0 贏的人得到所有選票,輸?shù)娜艘粡堃驳貌坏健?/span>


        總統(tǒng)選舉背景材料(近三屆的候選人和黨派)

        第三步:確定研究指標

        ?

        理解完業(yè)務,開始產(chǎn)生以下疑問:
        有哪些州??
        選舉的州作為指標:需要所有州的名字
        ?
        每個州可以投多少票??
        每個州的投票數(shù):需要所有州對應的投票票數(shù)
        ?
        這些票最后投給了誰??但是每一屆參與選舉的候選人都不一樣,這個“誰”,在不同的選舉年份中怎么做交叉對比?

        想到的字段:每次選舉的兩個人分別代表兩個黨派,為了做交叉對比,得票的主體用“黨派”

        第四步:找原始數(shù)據(jù)

        ?

        1、尋找美國州名的數(shù)據(jù)。

        在電腦上搜索到有州名的網(wǎng)頁,上面看到一張州名列表。我們用EXCEL根據(jù)以下步驟把這張表提取出來。
        ? ? ? ?
        ? ? ? ??? ? ?
        ? ? ? ?? ? ??
        ? ? ? ?? ? ? ?? ? ??? ? ? ?? ? ??? ? ? ?
        2、獲取近三年的選票數(shù)據(jù)。
        在網(wǎng)上找到2016年選票數(shù)據(jù),用EXCEL直接獲取下來。(步驟如上略)
        ? ? ? ??? ? ?
        但是找2012年選票數(shù)據(jù)的時候,只找到一個選票地圖
        ? ? ? ??? ? ?
        再去找2020年選票,找到最詳細的數(shù)據(jù),復制時發(fā)現(xiàn)是“圖片格式”!
        ? ? ???? ? ?
        那我們怎么獲得圖片里這些數(shù)據(jù),難道要抄下來?

        不!我們是“數(shù)據(jù)分析師”,我們要專業(yè),不能手抄,我們用Python!

        Python獲取圖片中信息:
        市面上有免費圖片文字識別的開源功能,我們只需要調(diào)用相應接口,此處選擇了百度的圖片文字識別。
        思路:用Python 調(diào)用現(xiàn)成的“圖片文字識別接口”,識別提取兩張圖片中的文字數(shù)字信息。
        ? ? ? ??? ? ?
        ? ? ? ??? ? ?
        ?
        ? ? ? ??? ? ?
        ? ? ? ??? ? ?
        ? ? ? ??? ? ?
        按照教程先安裝“百度接口包”
        打開python的shell?如下圖安裝“百度接口包”
        ? ? ? ??? ? ?
        ? ? ? ??? ? ?
        ?
        再按照教程“新建AipOcr”
        打開自己的Python編輯器(此處我用的是PyCharm),把教程上的代碼拷貝到PyCharm
        ? ? ? ???
        以上步驟是生成一個Client對象,這個對象能調(diào)用“百度接口”里面的各種功能接口。

        那么下一步告訴python,這個對象要去調(diào)用哪個接口。如下圖我們之前選擇了“通用文字識別(高精度版)”
        ? ? ??? ? ? ?? ? ? ?? ? ? ?
        在接口說明里,找到了這個接口的調(diào)用方法,按照教程,把需要的部分拷貝下來
        ? ? ? ??? ? ?
        獲取完官方標準的教程代碼,現(xiàn)在我們來完善他。去“控制臺”注冊登錄賬號和創(chuàng)建應用。
        ? ? ? ?? ? ? ?? ? ??
        ? ? ??
        ? ? ??? ? ? ?
        更新完ID再告訴python是哪張圖片
        ? ? ? ?? ? ? ?
        Python默認去識別同一個項目文件夾下的圖片,所以把之前網(wǎng)絡上找到圖片直接保存在python這個代碼的文件夾下
        ? ? ? ??? ? ?
        ?
        當然也可以再調(diào)用兩個包,做成“截圖,保存,識別文字,三個步驟一體的python小工具”,此處不做展開。

        最終修改完成的代碼如下:

        from aip import AipOcr ??# 要先完成 pip install baidu-aip
        ?
        #""" 你的 APPID AK SK """
        APP_ID = '你的APP_ID'
        API_KEY = '你的API_KEY'
        SECRET_KEY = '你的SECRET_KEY'
        ?
        client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
        ?
        while 1:
        ????#""" 讀取圖片 """
        ????def get_file_content(filePath):
        ????????with open(filePath, 'rb') as fp:
        ????????????return fp.read()
        ?
        ????image = get_file_content('2020vote.jpg')
        ?
        ????#""" 調(diào)用通用文字識別(高精度版) """
        ????client.basicAccurate(image);
        ????message = client.basicAccurate(image)
        ????message_result = message['words_result']
        ?
        ????for i in message_result:
        ????????print(i['words'])
        ? ? break
        ? ? ? ?
        ? ? ??

        第五步:數(shù)據(jù)清洗


        此處數(shù)據(jù)量不大,把獲取的數(shù)據(jù)放在excel里面清洗后,得到格式統(tǒng)一的表。
        ? ? ? ?? ? ?? ???

        第六步:數(shù)據(jù)分析


        有清洗干凈的完整數(shù)據(jù)之后,我們開始探索分析,這里用一種簡單又低成本的方式:Power BI

        ? ? ??? ? ?

        為了便于分析,再載入一張年份表和一張黨派表


        ??? ? ? ?
        ?
        全部載入后,在Power?BI里面做一個簡單建模
        ? ? ???? ?
        先做個選票地圖看看
        ? ? ? ??? ? ?
        看著做完的地圖,似乎發(fā)現(xiàn)了些什么!

        首先,氣泡大小代表州的票數(shù),雖然每年根據(jù)人口數(shù)量相應票數(shù)有變化,但是大體基本一致。
        其次,這三張圖,看著很相似,顏色的分布變化不大。也就是說,每年都有一些固定支持共和黨或者固定支持民主黨的州。
        最后,有少部分州,是每年支持的黨派都不一樣。
        ?
        這部分的結論是:雖然每次選總統(tǒng)是兩個人競選,但其實支持他們的人,很多是出于這些人所在的黨派。
        ?
        再去探索一下票數(shù)
        ? ? ? ??? ? ?
        可以看出每個不同的州,票數(shù)相差很遠,有約20%左右的州,占到總票數(shù)一半以上。也就是以下地區(qū)可投選票的數(shù)量較多
        ? ? ? ?


        這部分結論是:盡量去爭取上圖的州,獲勝機會大。
        ?

        第七步:得出結論

        ?

        最后總結數(shù)據(jù)分析結論如下:
        1、有部分州,每年都一定選擇共和黨或者一定選擇民主黨,剩下小部分州會在兩黨之間搖擺,也就是說,美國總統(tǒng)大選,候選人背后代表的黨派影響力,大于他們個人的影響力。
        2、從競選策略上來說,每年可以“不用太關心”一定會投票給自己黨派的州,應該把重點放在“搖擺州”上。而“搖擺州”應該先從上圖中占票數(shù)多的州開始爭取,然后再根據(jù)各州的票數(shù)占比,區(qū)分輕重緩急依次做競選攻略。


        總結

        ?

        做了一次完整數(shù)據(jù)分析,讓我們回顧整個步驟:
        第一步:確定分析目的
        第二步:理解業(yè)務
        第三步:確定研究指標
        第四步:尋找原始數(shù)據(jù)
        第五步:數(shù)據(jù)清洗
        第六步:數(shù)據(jù)分析
        第七步:總結結論

        以上就是一次標準又簡潔的數(shù)據(jù)分析全過程演示。然而,在實際的業(yè)務分析中,一般在第七步得到了結論后還會回到第一步分析的目的,去與業(yè)務或者運營人員溝通,反饋結論,比如是否有異常、異常原因、下一步動作等事宜,這也就使數(shù)據(jù)分析形成了“閉環(huán)”。然后相關業(yè)務人員再次提出疑問去確立新的分析目標,通過如此反復的迭代優(yōu)化及分析,可提高營銷活動有效性,提高投資回報率等等數(shù)據(jù)指標……“閉環(huán)”其實就是“揚長避短”,讓數(shù)據(jù)引導動作到更有價值的地方,實現(xiàn)資源配置最大化,也就是所謂的數(shù)據(jù)驅動業(yè)務。
        ?
        總而言之,數(shù)據(jù)分析的有趣之處就是,當你把自己想成福爾摩斯的話,那數(shù)據(jù)背后一定存在真相。也由此可見,數(shù)據(jù)分析的應用范圍很廣,在各行各業(yè)都可以滲透,為什么可以滲透?那是因為各行各業(yè)都離不開數(shù)字,只要有數(shù)字的地方,就有數(shù)據(jù)分析的用武之地;且數(shù)據(jù)分析的內(nèi)容也可以很深,從加減乘除算數(shù)運算,到建?;貧w機器學習,都已經(jīng)廣泛運用起來了;從上面的分析看,數(shù)據(jù)分析的工具那更是數(shù)不勝數(shù),爬蟲、清洗、可視化、數(shù)據(jù)庫等,只有你想不到的,沒有市場上滿足不了需求的。數(shù)據(jù)分析就像一雙翅膀能讓你飛得更遠,希望大家通過這個具體的例子,學會用數(shù)據(jù)分析賦能到你工作生活的方方面面。



        實習/全職編輯記者招聘ing

        加入我們,親身體驗一家專業(yè)科技媒體采寫的每個細節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長。坐標北京·清華東門,在大數(shù)據(jù)文摘主頁對話頁回復“招聘”了解詳情。簡歷請直接發(fā)送至[email protected]





        點「在看」的人都變好看了哦!
        瀏覽 126
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            精品成人在线视频 | 人兽一区二区 | 空姐操b| free日韩性公交车上xxhd | 国产午夜精品一区二区三 | 在线无码免费看 | 成人做爰高潮片免费看中国 | 超碰人人人人 | 色婷婷六月 | 亚洲图片视频在线 |