沒有工程能力的數(shù)據(jù)分析師也是扯淡!
背景
你們好
很早之前提到一個(gè)觀點(diǎn):一個(gè)優(yōu)秀的數(shù)據(jù)人應(yīng)該是思維、業(yè)務(wù)、分析和工程能力的綜合體,談思維、業(yè)務(wù)等能力可能大家覺得飄在空中。
確實(shí),在我一開始入門數(shù)據(jù)行業(yè)的時(shí)候,我也有這樣的感覺,為什么那些大佬老是跟我吹產(chǎn)品Sense,業(yè)務(wù)感等等。
那好,今天我們拋開這些,就談工程能力,或者再細(xì)化一點(diǎn),就談數(shù)據(jù)人應(yīng)該了解和學(xué)習(xí)哪些技術(shù)棧。
到底要不要精通Python
首先說觀點(diǎn),我不清楚精通Python是什么樣的體驗(yàn),因?yàn)槲艺娴牟痪?。我只是熟悉Python語法,相關(guān)的函數(shù)、模塊和包以及一些面向?qū)ο蟮膶懛ǖ鹊取?/p>
對(duì)于數(shù)據(jù)人,我覺得更重要的是去思考哪些問題可以利用Python擴(kuò)展而來的一些程序庫(kù)處理,比如遇到大型矩陣的數(shù)值計(jì)算問題,你就應(yīng)該想到Numpy來解決。
類似的我會(huì)問,那Pandas呢?其實(shí)Pandas和SQL幾乎是一致的數(shù)據(jù)處理方式,都只是提供了快速便捷地處理數(shù)據(jù)的函數(shù)和方法,這也是Python為什么會(huì)經(jīng)常會(huì)被認(rèn)為可以高效應(yīng)用于數(shù)據(jù)分析原因之一了。
對(duì)于Python相關(guān)要掌握的程度,我整理了一些學(xué)習(xí)視頻和課件(文末自由獲取)。


談下數(shù)據(jù)架構(gòu)
大部分小伙伴應(yīng)該是了解HiveSQL的,但如果仔細(xì)問他什么是Hive這類的問題其實(shí)不能理解的很好,這樣學(xué)往往不能很扎實(shí)。
通俗的理解Hive是一個(gè)基于Hadoop的開源數(shù)據(jù)倉(cāng)庫(kù)工具,用于存(HDFS)和處理(MapReduce)海量結(jié)構(gòu)化數(shù)據(jù)。使用MapReduce計(jì)算,HDFS儲(chǔ)存。
之前我說數(shù)據(jù)分析師不精通Hadoop、MapReduce、HDFS這些是啥,但不代表你不需要了解和學(xué)習(xí)基本的內(nèi)容。其實(shí)不只是需要了解這些,還有Storm、Hbase、Flume、Spark、SparkSQL等等都是需要數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)算法等崗位去學(xué)習(xí)和了解的。
對(duì)于想從事數(shù)據(jù)開發(fā)的朋友來說,上面的那些技術(shù)棧更是應(yīng)該非常熟練的掌握(我個(gè)人建議沒有項(xiàng)目經(jīng)歷和工作經(jīng)驗(yàn)的朋友不要轉(zhuǎn)數(shù)據(jù)分析,因?yàn)檎娴腍C太少,可以考慮數(shù)據(jù)開發(fā),很吃香,工資也很高,競(jìng)爭(zhēng)系數(shù)相對(duì)算法和分析來說要小一些)。
不用慌,我也給大家準(zhǔn)備了一套學(xué)習(xí)資料(文末自由獲取),非常詳細(xì)的講解了這些內(nèi)容:

學(xué)些數(shù)據(jù)挖掘模型有好處
有些業(yè)務(wù)場(chǎng)景的任務(wù)不是簡(jiǎn)單的對(duì)比、交叉之類的分析可以解決(一般是提供一些探索性過程結(jié)果)。比如分類、預(yù)測(cè)、人群聚類、文本挖掘等等。
我之前提到說數(shù)據(jù)分析一般可以分成定量和定性的分析,定量的大家都比較清楚,也比較常見,但是定性的會(huì)去研究用戶的主動(dòng)反饋意見,而這些一般都是文本,當(dāng)數(shù)據(jù)量較大的時(shí)候,肯定不是一條條自己去分析用戶的情感、觀點(diǎn)等維度,這時(shí)候完全可以利用文本挖掘的方法快速準(zhǔn)確的抽取出用戶觀點(diǎn)、主題和情感分析等等。
同樣,這部分我也給大家整理了一套學(xué)習(xí)資料(文末自由獲取)

以上整理內(nèi)容【獲取方式】
掃描以下二維碼添加好友 備注:螞蟻
備注:螞蟻
