1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        漫談數(shù)據(jù)驅(qū)動(dòng)

        共 4824字,需瀏覽 10分鐘

         ·

        2021-03-11 16:43

        這個(gè)數(shù)據(jù)的時(shí)代:漫談數(shù)據(jù)驅(qū)動(dòng)

        “本文從非常宏觀的視角來(lái)闡述數(shù)據(jù)價(jià)值?!?/p>

        |0x00 數(shù)據(jù)驅(qū)動(dòng)的本質(zhì)

        什么是數(shù)據(jù)?在大多數(shù)人的看法中,只有“數(shù)字”才能稱之為“數(shù)據(jù)”,或者是必須由數(shù)字來(lái)組成的東西,其實(shí)不然。數(shù)據(jù)的概念要比數(shù)字大的多,例如在互聯(lián)網(wǎng)上,不論是我們看過(guò)的新聞(文本)、朋友圈的動(dòng)態(tài)(圖片)還是正在追的電視?。ㄒ曨l),這些都是數(shù)據(jù)。更加廣義一些,醫(yī)院中的診療檔案、建筑工人使用的圖紙,這些也都稱之為數(shù)據(jù)。

        講到數(shù)據(jù),又不能不提到“信息”。剛才提到的那些內(nèi)容,本質(zhì)上也是信息,所以“數(shù)據(jù)” = “信息”。但其實(shí)數(shù)據(jù)和信息還是存在一定不同的地方,數(shù)據(jù)記錄了事物的客觀屬性,需要經(jīng)過(guò)加工處理或者解讀之后,才能成為信息。因此可以這么講,在于雖然數(shù)據(jù)承載了信息,但并非所有的數(shù)據(jù)都承載了有意義的信息。

        很多時(shí)候,我們無(wú)法直接解讀數(shù)據(jù),因?yàn)樵嫉臄?shù)據(jù)是沒(méi)有意義的,但我們可以通過(guò)一些數(shù)學(xué)模型,將數(shù)據(jù)進(jìn)行量化,從而間接的獲得信息。在互聯(lián)網(wǎng)行業(yè)中,大多數(shù)的數(shù)據(jù)模型都離不開概率和統(tǒng)計(jì)學(xué)的知識(shí),因此不論是基礎(chǔ)面試、還是算法/分析崗位,對(duì)于數(shù)據(jù)能力的要求都非常高,本質(zhì)就是因?yàn)閿?shù)學(xué)才是數(shù)據(jù)從業(yè)者的根本競(jìng)爭(zhēng)力。

        那么為什么現(xiàn)在的行業(yè)發(fā)展,因?yàn)閿?shù)據(jù)而變得不同了呢?最大的原因,在于“大數(shù)據(jù)”的出現(xiàn),通過(guò)海量的、過(guò)去所無(wú)法想象的數(shù)據(jù)量,讓計(jì)算機(jī)具備了一些人類的能力,讓過(guò)去只能通過(guò)經(jīng)驗(yàn)主觀判斷的東西,變得客觀了起來(lái)。

        “讓計(jì)算機(jī)具備人類的能力”,具體而言,指的就是“數(shù)學(xué)模型”。

        過(guò)去的數(shù)學(xué)模型主要是指統(tǒng)計(jì)學(xué)的方法,典型的例子就是美國(guó)大選的民調(diào)問(wèn)題。但統(tǒng)計(jì)學(xué)的結(jié)論要準(zhǔn)確,離不開兩個(gè)核心的因素:一個(gè)是數(shù)據(jù)量要足夠的多,一個(gè)是樣本要足夠的有代表性。數(shù)據(jù)量足夠多好理解,而有代表性很多人就不是那么理解了,如果看看1936年蓋洛普預(yù)測(cè)羅斯福獲勝的例子,你就會(huì)明白“代表性”的重要了。

        今天我們都在講數(shù)據(jù)埋點(diǎn),你設(shè)計(jì)的方案,真的有代表性嗎?

        但僅僅依靠統(tǒng)計(jì)學(xué),只能解決簡(jiǎn)單的問(wèn)題,而無(wú)法解決一些相對(duì)復(fù)雜的問(wèn)題。引申一下,就是依靠統(tǒng)計(jì)學(xué)做的報(bào)表系統(tǒng),只能解決基礎(chǔ)的業(yè)務(wù)問(wèn)題,而無(wú)法解決諸如供需匹配的復(fù)雜問(wèn)題。

        這個(gè)時(shí)候,數(shù)據(jù)模型就登場(chǎng)了,大多數(shù)的復(fù)雜業(yè)務(wù)應(yīng)用,是通過(guò)數(shù)據(jù)來(lái)建立一個(gè)數(shù)學(xué)模型,來(lái)解決復(fù)雜問(wèn)題。但數(shù)據(jù)模型同樣存在兩個(gè)核心因素:采用什么樣的模型,以及模型的參數(shù)是多少?

        真實(shí)的情況中,模型的選擇是一件很困難的事情,因?yàn)楹?jiǎn)單的模型不一定會(huì)與現(xiàn)實(shí)情況匹配,而復(fù)雜的模型往往需要耗費(fèi)非常長(zhǎng)的時(shí)間來(lái)尋找。過(guò)去不論是在理論上還是工程上,大家都寄希望于找到一個(gè)比較完美的模型,然后通過(guò)調(diào)整參數(shù)來(lái)讓模型的結(jié)果與之前統(tǒng)計(jì)到的結(jié)果相匹配起來(lái),這其實(shí)就是“機(jī)器學(xué)習(xí)”要做的事情。

        但不是所有的業(yè)務(wù)都能找到完美的模型,所以有些人就考慮通過(guò)把一些簡(jiǎn)單的模型組合在一起,達(dá)到完美模型的同樣效果,而如果數(shù)據(jù)量足夠,這種方法是可行的,這就是“數(shù)據(jù)驅(qū)動(dòng)”。

        數(shù)據(jù)驅(qū)動(dòng)的前提就是存在大量的數(shù)據(jù),而不是有預(yù)設(shè)的模型,然后通過(guò)組合簡(jiǎn)單模型的方式來(lái)達(dá)到與真實(shí)模型同樣的效果。盡管這種方法在數(shù)據(jù)量不夠的時(shí)候,與真實(shí)模型會(huì)存在偏差,但如果這個(gè)偏差是在誤差允許的范圍內(nèi),那么結(jié)果上看就是與真實(shí)模型等效的。有興趣的可以學(xué)習(xí)一下切比雪夫定理,這么做是有一定數(shù)學(xué)根據(jù)的。

        當(dāng)然,數(shù)據(jù)驅(qū)動(dòng)想要成功,除了數(shù)據(jù)量之外,還需要數(shù)據(jù)具有足夠的代表性,在大數(shù)據(jù)技術(shù)出現(xiàn)之前,這是很難的,但隨著實(shí)時(shí)、反作弊等技術(shù)的不斷進(jìn)步,清洗出一批有代表性的數(shù)據(jù),還是可以做到的。

        所以,我們對(duì)大數(shù)據(jù)、或者說(shuō)數(shù)據(jù)驅(qū)動(dòng)的認(rèn)識(shí),不應(yīng)該只停留在統(tǒng)計(jì)報(bào)表上,或者停留在提供輔助決策上,而應(yīng)該看到它和摩爾定律、數(shù)學(xué)模型一起,催生了機(jī)器智能的發(fā)展,而機(jī)器一旦產(chǎn)生了和人類類似的智能,就將對(duì)人類社會(huì)產(chǎn)生重大的影響,這才應(yīng)該是我們的職業(yè)追求。

        接下來(lái),我們講一下,大數(shù)據(jù)與信息論的關(guān)系。

        |0x01 從信息論看大數(shù)據(jù)

        大數(shù)據(jù)是為了解決什么問(wèn)題?從根本上講,是為了解決世界的不確定性問(wèn)題。量子力學(xué)從物理上解釋了客觀世界的不確定性,為什么大數(shù)學(xué)站到了歷史的巔峰之上,就是因?yàn)榇髷?shù)據(jù)能夠解決這些不確定性問(wèn)題,從而實(shí)現(xiàn)我們心中所設(shè)想的“智能時(shí)代”。

        從這個(gè)角度上,我們就能夠理解大數(shù)據(jù)的4V特征:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價(jià)值),為什么這么重要了。

        首先談大數(shù)據(jù)的“量”。數(shù)據(jù)量大的重要性,體現(xiàn)在兩個(gè)方面,一個(gè)是前文提到的,用足夠的量來(lái)消除信息的不確定性;第二個(gè)是,即便數(shù)據(jù)是有代表性的,但因?yàn)閿?shù)據(jù)本身的隨機(jī)性,會(huì)導(dǎo)致噪聲情況的存在,只有足夠多的數(shù)據(jù)才能將結(jié)果的置信度提上去。因此當(dāng)某個(gè)領(lǐng)域的數(shù)據(jù)量迅速積攢起來(lái)之后,某個(gè)領(lǐng)域的研究進(jìn)展就可以很快的提升起來(lái),成果也就更容易看得到。像自然語(yǔ)言識(shí)別、人臉識(shí)別、基因檢測(cè)等領(lǐng)域,無(wú)不是數(shù)據(jù)量決定了研究的速度。

        其次談大數(shù)據(jù)的“多樣”。多樣的重要性也體現(xiàn)在兩個(gè)方面,一個(gè)是越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù),隨著技術(shù)的進(jìn)步,變得結(jié)構(gòu)化起來(lái)。早期的結(jié)構(gòu)化數(shù)據(jù)通常是指文本類數(shù)據(jù),如電子郵件、文檔等,隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,又?jǐn)U展到音頻、圖片、視頻等結(jié)構(gòu),通過(guò)更多樣化的方式來(lái)描述客觀的世界。另一個(gè)是大數(shù)據(jù)通常是多維度的,能夠?qū)τ?jì)算的結(jié)果進(jìn)行“交叉驗(yàn)證”,這可能是數(shù)據(jù)科學(xué)家在進(jìn)行統(tǒng)計(jì)分析時(shí)最重要的技術(shù)之一。可以說(shuō),大數(shù)據(jù)“多樣”的重要性,是有信息論做理論基礎(chǔ)的。

        再談大數(shù)據(jù)的“高速”。高速的意義,在于過(guò)去因?yàn)橛?jì)算量太大,導(dǎo)致的不能實(shí)現(xiàn)的、或者是只能依賴超算實(shí)現(xiàn)的東西,變得更加普及和常見了。比如通過(guò)無(wú)數(shù)數(shù)據(jù)喂出來(lái)的“谷歌大腦”,或者是PageRank算法算出來(lái)的更加準(zhǔn)確的搜索結(jié)果,使得計(jì)算瓶頸不再成為限制模型的主要因素。高速的另一個(gè)意義是數(shù)據(jù)的時(shí)效性越來(lái)越強(qiáng),各種實(shí)時(shí)技術(shù)的出現(xiàn)使得我們獲取信息、做出實(shí)時(shí)決斷的能力大大提升了。

        最后談一下大數(shù)據(jù)的“價(jià)值”。從信息論的角度來(lái)看,有一個(gè)很重要的概念,叫作:“交叉熵”,這個(gè)概念并非由香農(nóng)提出,而是由庫(kù)爾貝克等人提出。它可以反映兩個(gè)信息源之間的一致性,或者兩種概率模型之間的一致性。當(dāng)兩個(gè)數(shù)據(jù)源完全一致時(shí),它們的交叉熵等于零;當(dāng)它們相差很大時(shí),交叉熵也很大。所有采用數(shù)據(jù)驅(qū)動(dòng)的方法,建立模型所使用的數(shù)據(jù)和使用模型的數(shù)據(jù)之間需要有一致性,也就是蓋洛普所講的代表性,否則這種方法就會(huì)失效,而交叉熵就是對(duì)這種代表性或者一致性的一種精確的量化度量。在過(guò)去,使用任何基于概率統(tǒng)計(jì)的模型都會(huì)有很多小概率事件覆蓋不到,這在過(guò)去被認(rèn)為是數(shù)據(jù)驅(qū)動(dòng)方法的死穴。這些漏網(wǎng)的情況反映到交叉熵時(shí),它的值就會(huì)達(dá)到無(wú)窮大,也就是說(shuō)數(shù)據(jù)驅(qū)動(dòng)方法在這個(gè)時(shí)候就失效了。而在大數(shù)據(jù)時(shí)代,在某個(gè)領(lǐng)域里獲得數(shù)據(jù)的完備性還是可能的,就相當(dāng)于訓(xùn)練模型的數(shù)據(jù)集合和使用這個(gè)模型的測(cè)試集合,是同一個(gè)集合或者是高度重復(fù)的,這樣,它們的交叉熵近乎零。這種情況就不會(huì)出現(xiàn)覆蓋不了很多小概率事件的災(zāi)難,這樣的數(shù)據(jù)驅(qū)動(dòng)方法才具有普遍性,而不再是時(shí)靈時(shí)不靈的方法論。

        由此可見,大數(shù)據(jù)通過(guò)信息論作為基礎(chǔ)理論,利用信息消除不確定性,因此從更高的維度對(duì)一些傳統(tǒng)產(chǎn)業(yè)產(chǎn)生了降維打擊。雖然人類使用信息由來(lái)已久,但是到了大數(shù)據(jù)時(shí)代,量變帶來(lái)質(zhì)變,以至于人們忽然發(fā)現(xiàn),采用信息論的思維方式可以讓過(guò)去很多難題迎刃而解。

        接下來(lái)我們?cè)僦v一下互聯(lián)網(wǎng)公司的數(shù)據(jù)生意。

        |0x02 互聯(lián)網(wǎng)公司的數(shù)據(jù)生意

        我們經(jīng)常講,一個(gè)商業(yè)模型,成熟與否的標(biāo)志之一,就是賺不賺錢。就像人工智能長(zhǎng)期沒(méi)有商業(yè)應(yīng)用,因此一直是被批評(píng)的、不成熟的產(chǎn)業(yè)。

        如果我們看互聯(lián)網(wǎng)企業(yè)用數(shù)據(jù)賺錢的歷史,就是一個(gè)“由輕到重、由淺到深”的過(guò)程:過(guò)去是通過(guò)在線化來(lái)獲取流量,再用流量取得經(jīng)濟(jì)規(guī)模的紅利;現(xiàn)在是使用數(shù)據(jù)來(lái)深耕一些行業(yè),挖掘更深的價(jià)值點(diǎn)。

        網(wǎng)上比較公認(rèn)的意見,是可以將中國(guó)互聯(lián)網(wǎng)的發(fā)展分成四個(gè)階段:門戶網(wǎng)站時(shí)代、BAT時(shí)代、移動(dòng)互聯(lián)網(wǎng)時(shí)代和IOT時(shí)代。

        門戶網(wǎng)站時(shí)代的代表是新浪、搜狐、網(wǎng)易,有點(diǎn)“御三家”的感覺。這個(gè)時(shí)候使用數(shù)據(jù)的方式比較簡(jiǎn)單,就是把網(wǎng)站的流量賣給品牌廣告。

        BAT時(shí)代的代表是百度、阿里巴巴和騰訊,分別從人和信息、人和商品、人和人的角度,將人與數(shù)據(jù)連接了起來(lái)。這個(gè)階段使用數(shù)據(jù)的方式就高級(jí)了很多,通過(guò)檢索全網(wǎng)的內(nèi)容,利用數(shù)據(jù)挖掘人的行為意圖,再將合適的廣告推薦給合適的人。百度是競(jìng)價(jià)排名、阿里是電商廣告,二者的本質(zhì)是把流量賣給第三方。但騰訊更進(jìn)一步,做了中國(guó)科技互聯(lián)網(wǎng)領(lǐng)域里的第一次突破,也就是用自己的流量去分銷自己的虛擬產(chǎn)品,比如游戲。

        移動(dòng)互聯(lián)網(wǎng)時(shí)代的代表就是頭條系、快手這一類的公司了。隨著信息分發(fā)效率的提升,更多的人被低成本的鏈接到了互聯(lián)網(wǎng)的世界,大爺大媽第一次加入了其中,新的流量產(chǎn)生了,新的機(jī)會(huì)也就到來(lái)了。

        但這個(gè)時(shí)代還有一些其他的代表,幾家“重資產(chǎn)”的互聯(lián)網(wǎng)公司興起了。美團(tuán)擁有50多萬(wàn)騎手,小米更是自己開始造手機(jī),廣義上,蔚來(lái)和大疆這一類的公司,也可以囊括進(jìn)來(lái)。與過(guò)去輕資產(chǎn)的公司不同的是,這一類的公司獲取流量、使用數(shù)據(jù)的方式更重了,因?yàn)閿?shù)據(jù)直接與線下的物產(chǎn)生了關(guān)聯(lián)。同時(shí),這些公司依靠產(chǎn)品帶來(lái)的連接和流量,以及它對(duì)用戶數(shù)據(jù)的深層理解,有機(jī)會(huì)創(chuàng)造更大價(jià)值。

        IOT時(shí)代,目前更看好華為一些,鴻蒙大有可為。

        整個(gè)中國(guó)互聯(lián)網(wǎng)發(fā)展的主旋律,就是一個(gè)流量獲取由輕到重、價(jià)值變現(xiàn)由淺到深的過(guò)程。目的都是通過(guò)建立連接獲取流量,再去取得經(jīng)濟(jì)收益,這個(gè)就是中國(guó)流量型公司的方法論。

        對(duì)行業(yè)的投入越來(lái)越重,對(duì)數(shù)據(jù)的理解越來(lái)越深,數(shù)據(jù)改造商業(yè)的潛力,也就越來(lái)越大。

        |0xFF 數(shù)據(jù)信仰

        很多大佬開始強(qiáng)調(diào)“數(shù)據(jù)信仰”,不僅因?yàn)闅W洲的GDPR法規(guī)開啟了數(shù)據(jù)個(gè)人資產(chǎn)時(shí)代,也是因?yàn)榱髁吭絹?lái)越重、算法越來(lái)越專業(yè)、數(shù)據(jù)越來(lái)越實(shí)時(shí)的今天,單純的極致思維已經(jīng)不能滿足用戶了,而需要像互聯(lián)網(wǎng)剛誕生那樣,帶來(lái)體驗(yàn)的成倍增長(zhǎng),從整個(gè)流程上徹底滿足用戶,并突破臨界點(diǎn),才能實(shí)現(xiàn)突破??梢赃@么說(shuō),體系的變化,才是用戶下定決心的根本理由;對(duì)數(shù)據(jù)有信仰,才可能打開新的創(chuàng)新之路。

        反映到具體的公司業(yè)務(wù)上,就是現(xiàn)代市場(chǎng)越來(lái)越弱化職能,強(qiáng)調(diào)發(fā)現(xiàn)機(jī)會(huì)、解決問(wèn)題的能力。當(dāng)工具越來(lái)越完善的時(shí)候,要么向上走,打業(yè)務(wù);要么向下走,拼技術(shù);而過(guò)去吃到了技術(shù)紅利的技術(shù)中產(chǎn)階級(jí),則會(huì)逐步消失。

        我們現(xiàn)在越來(lái)越強(qiáng)調(diào)“企業(yè)數(shù)字化轉(zhuǎn)型”,為什么企業(yè)會(huì)存在數(shù)字化的問(wèn)題?用大佬的話講:能把企業(yè)的信息拉通起來(lái)看,其實(shí)就已經(jīng)很不容易了。因此企業(yè)數(shù)字化的本質(zhì),還是把企業(yè)自己的一些要素變成數(shù)據(jù),然后通過(guò)一些成熟的模型來(lái)解讀這些數(shù)據(jù),從而“部分”避免過(guò)去經(jīng)驗(yàn)主義帶來(lái)的弊病,讓企業(yè)的決策更加理性一些。

        之前有人提出過(guò)疑問(wèn),就是天天做開發(fā),哪有時(shí)間做創(chuàng)新,晉升為什么一定要看重創(chuàng)新。大佬的回復(fù)也很簡(jiǎn)練:你的努力反映在績(jī)效上,但晉升必須要有所創(chuàng)新?;氐綌?shù)據(jù)信仰上,這種創(chuàng)新就是找到使用數(shù)據(jù),解決問(wèn)題或帶動(dòng)增長(zhǎng)的方法,并且要有一定的壁壘,防止別人搶了,也需要有拉通的能力。所以,運(yùn)氣很重要,但碰到運(yùn)氣后實(shí)現(xiàn)的能力也很重要。這就像pubg這款游戲,槍法重要、運(yùn)營(yíng)重要,但圈運(yùn)、對(duì)手行動(dòng)的時(shí)機(jī),也很重要。

        后話:

        本文是讀書筆記整理而成的,從數(shù)據(jù)驅(qū)動(dòng)是什么,一直講到互聯(lián)網(wǎng)公司的生意經(jīng),再講到一些職場(chǎng)問(wèn)題。其實(shí)前后的邏輯性未必有多強(qiáng),但整理這些信息的過(guò)程,對(duì)自己的啟發(fā)還是挺大的,至少PPT的素材有了。很多時(shí)候,技術(shù)是我們數(shù)據(jù)人的硬技能,但平時(shí)多讀書,學(xué)一些天下大勢(shì)、哲學(xué)盡頭一類的軟技能,用來(lái)給自己的談吐言行做一些修飾,也是很重要的。畢竟工作十年、二十年之后,你過(guò)去熬了多少夜恐怕不會(huì)有人關(guān)心,但你能講出什么道理,卻是別人對(duì)你敬重有加的關(guān)鍵。

        瀏覽 36
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            成人AV三级 | 欧美经典三级 | 国产99熟妇视频网站 | 在线成人无码 | 一级黄色录像视频 | 午夜伦理一区 | 大香蕉一级网站 | 日本三级电影在线 | 大奄久久 | 91无码粉嫩小泬无套在线观看 |