面經 | 阿里淘系數(shù)據(jù)分析1+5面 offer報批中
超重要的簡歷面
面經
面試 over

簡歷面 2020.02.24? ? 30min
row_number()實際用法介紹
如何優(yōu)化連接
貝葉斯公式一般解決什么問題
現(xiàn)在新型冠狀病毒,有一個病人發(fā)燒咳嗽,讓你用試劑盒檢測,拿到陽性或陰性的結果,怎么判斷他到底有沒有患病?
假設檢驗和置信區(qū)間的區(qū)別
中心極限定理
比較熟悉的機器學習算法有哪些?
支持向量機的原理是什么?和感知機的區(qū)別?那線性可分和不可分有什么區(qū)別呢?
系統(tǒng)地梳理一遍業(yè)務知識:
AARRR
廣告的投放、變現(xiàn)過程...
熟悉兩三個算法,可以從這幾個角度:

算法:小哥說,一般面試也沒兩個人能把svm的來龍去脈講清楚,所以重點弄明白兩三個經典算法就好了(可能需要svm的smo這種深度吧
業(yè)務:系統(tǒng)學習和整理相關知識,思路才會更有框架性
自己簡歷的case得從多方面深挖

4. 你在yy具體什么部門負責什么業(yè)務?組織架構是怎樣的?
5. 統(tǒng)計:
用小白鼠做實驗,如何驗證新藥劑是否有作用?
如果p值比a大,就斷定新藥劑有作用嗎?
統(tǒng)計顯著性和檢驗顯著性
6. 業(yè)務題:
淘寶活動,怎么設計優(yōu)惠券的滿、減金額,使gmv最大?怎么設計?怎么對比?最后看什么數(shù)據(jù)?
對比:不能只考慮gmv值的絕對差異,還要考慮退貨訂單率
對于設計出來的兩三種優(yōu)惠券,基于過去的數(shù)據(jù),怎么給商家配比?通過什么維度?如何衡量好壞?
具體部門:淘系技術部 - 商業(yè)機器智能部門
不足:互聯(lián)網相關實踐較少,多看一些行業(yè)報告是如何分析問題的
二面 2020.04.01 35min+11min(面試官介紹工作內容)
你覺得最難的點?
分業(yè)務和技術展開講
技術層面遇到的問題 & 怎么解決的?技術層面的提升有哪些?
sql的優(yōu)化有哪些
小表在前,大表在后的優(yōu)化原理
tb有一列數(shù),保證不重復,打印出相加等于100的數(shù),2&98 與98&2只打印出一行即可
4. 業(yè)務題:
道路交通事故,男司機出現(xiàn)事故占90%,女司機出現(xiàn)事故占10%,是否說明男司機比女司機更容易出現(xiàn)交通事故?
不對,基數(shù)不一樣
除了人數(shù),還需要考慮什么因素?(這才意識到是想考我控制變量法)
除了性別,其他因素都一樣:統(tǒng)計的時間區(qū)間、駕駛車的類型(幾座、牌子)、車齡、司機駕齡...
6. 代碼能力,python什么程度?具體使用情況?spark的使用?數(shù)據(jù)清洗的時間格式轉換?
7. 提問:
數(shù)據(jù)分析具體工作做什么?
????????數(shù)據(jù)賦能,大團隊包括算法、數(shù)據(jù)
????????對外發(fā)揮價值的方式:以分析為主導,為運營、產品迭代提供幫助;算法賦能,抽象建模
如何提升?
三面 2020.04.03 15+3min
2. spark sql和普通sql有什么區(qū)別?運行的時候遇到過哪些錯誤?具體報錯的信息是什么?
????再次... ?這兩個spark相關的問題答得是相當辣雞,這一刻感覺自己呼吸都是尷尬的
3. 靈魂拷問系列:
??? Q:對一列數(shù)據(jù)進行二值化,使得二值化后的數(shù)據(jù)均方誤差最小
??? A:聚類算法的思想:k-means
??? Q:你確定你的答案嗎?還有什么快速方法?
??? A:確定。從小到大排列,取1/4和3/4分位數(shù)
??? Q:如果不排序,還有什么方法?
??? A:是否需要精確找到這兩個數(shù)?數(shù)據(jù)量很大嗎?可以當成正態(tài)分布來做嗎
??? Q:精確找到,沒有分布信息
????...
??? A:是要精確找到這個數(shù)嗎?
??? Q:是,你剛才已經問過了
????...
??? A:用二分法,對于排在中間位置的數(shù),比它小就往前排,比它大就往后排...
4. 30個人去旅游,有A、B、C、D、E 5個地方供選擇,每人投一票,兩種投票方式:
一:選出票數(shù)最多的地點(如果票數(shù)相同,對于相同地點繼續(xù)投票)
二:每一輪淘汰一個票數(shù)最少的地點,直到只剩一個地點
這兩種投票方式有區(qū)別嗎?為什么?講出這兩種投票方式的優(yōu)缺點2-3個
一:盡可能滿足更多人的第一志愿,二:盡可能提升所有人的平均滿意度
5. 提問:
和前面的面試官是一個部門嗎?
????????面試官:你還沒有到交叉面試環(huán)節(jié)
spark sql那一塊是不是答得很不好?
????????面試官:你覺得這是什么原因?
靈魂拷問系列中的兩個...,是我面試中度過最漫長的兩分鐘。最后這兩個死亡提問,現(xiàn)在回憶起來仍令我倒吸一口涼氣,maybe真是壓力面?!但我還是硬著頭皮認真解釋了剛開始為什么答得不好以及之后的改進方向,可能有扳回0.1成?


四面 2020.04.14 30min (螞蟻金服交叉面)
1. ccf項目 ? 13min
方案賽和算法賽的區(qū)別、復賽思路展開
你們都不是網絡安全相關專業(yè)的,怎么想到這么去做的呢?
如果不知道業(yè)務知識,怎么去分析?
數(shù)據(jù)如果脫離業(yè)務背景,分析就沒有意義
企業(yè)里復用,對于噪聲影響怎么優(yōu)化分析思路?
具體分工 & 最終得到的結果
2. 簡歷里提到的用戶行為分析 ? ?7min
具體:
從用戶打開app開始,分析付費用戶的前續(xù)行為
報表的作用:
為選取搭建基礎數(shù)據(jù)報表體系的指標提供支持,為產品迭代提供方向
除了數(shù)據(jù)結果,還可以從哪些方向優(yōu)化app?
3. 遷移到螞蟻金服的業(yè)務(數(shù)字金融線),怎么界定行為的轉化,比如用戶從最初使用余額寶??穩(wěn)健型理財產品??風險型基金這樣一個進階過程
定義優(yōu)質客戶:在螞蟻上花費較多的用戶,時間序列觀察行為轉變過程
定義轉化的關鍵步驟:從數(shù)據(jù)上發(fā)現(xiàn)哪兩步之間存在比較大的gap,結合業(yè)務定位問題
4. 提問:
面試流程:面試官表示是他老板讓他面的,他不清楚我前面的流程,以為是一面
具體工作:用數(shù)據(jù)指導業(yè)務同學推薦適合的理財產品;描繪用戶的進階路線(用戶行為模式的探索)


hr面 2020.04.16 30min 視頻面

之前沒有疫情影響,阿里是要求5月-10月底,具體看同學的時間
10月底會有轉正面試,11/12月三方簽署


推薦閱讀
歡迎長按掃碼關注「數(shù)據(jù)管道」
