運(yùn)營實(shí)戰(zhàn),我做AB Test遇到的坑

專業(yè)成就職業(yè)
大家好,我是策略產(chǎn)品經(jīng)理夏唬人。
AB測試,是產(chǎn)品經(jīng)理經(jīng)常用于對新老方案上線后的效果進(jìn)行對比的方法,核心目的在于通過AB測試能夠增加需求上線后能夠給平臺帶來正向收益的確定性,
頁面功能的改動(dòng),需要進(jìn)行AB測試,來觀測用戶對新老功能的使用情況;
策略邏輯的改動(dòng),需要進(jìn)行AB測試,來觀測流量在不同邏輯下的轉(zhuǎn)化和收益。
總之,AB測試目前已經(jīng)成為了一種大家公認(rèn)的通過數(shù)據(jù)對比,來決策新方案是否上線的一個(gè)標(biāo)準(zhǔn)。
但是,我看到一種現(xiàn)象就是,大多數(shù)產(chǎn)品經(jīng)理都是為了做AB ,而做AB。其中涉及到幾個(gè)非常重要的環(huán)節(jié),稍有不慎就會(huì)入坑。
01 隨意進(jìn)行流量設(shè)置
AB實(shí)驗(yàn)流量的控制是很多產(chǎn)品經(jīng)理會(huì)忽視的一個(gè)環(huán)節(jié)。先看一個(gè)我經(jīng)歷過的案例。
我記得剛?cè)ニ阉鲌F(tuán)隊(duì)的時(shí)候,有個(gè)產(chǎn)品經(jīng)理在線上跑了一個(gè)搜索策略優(yōu)化的AB實(shí)驗(yàn),按照預(yù)期,新策略肯定要比老策略好。
但是她面臨的問題是,一個(gè)AB實(shí)驗(yàn)做了半年了,因?yàn)锳B結(jié)果數(shù)據(jù)經(jīng)常波動(dòng),導(dǎo)致實(shí)驗(yàn)結(jié)果很難敲定下來。
也就是有的時(shí)候是實(shí)驗(yàn)組比對照組好,有的時(shí)候是實(shí)驗(yàn)組比對照組差,很難體現(xiàn)出趨勢性。
后來,我看了看他們做的AB方案,發(fā)現(xiàn)了問題所在。
他們給這個(gè)AB Test分了兩個(gè)組,實(shí)驗(yàn)組和對照組。因?yàn)閾?dān)心新策略的影響面太大,因此給新策略,也就是實(shí)驗(yàn)組分了10%的流量,然后直接用這10%的流量,與剩下90%的流量來進(jìn)行AB實(shí)驗(yàn)。
此時(shí),問題在哪,我估計(jì)大家也看出來了。
AB Test,為了盡量保證結(jié)果的可信,最基本的給到每個(gè)BUCKET(桶,組的概念)的流量是一樣大小的。
就拿這個(gè)實(shí)驗(yàn)來說,考慮降低新策略的影響范圍沒錯(cuò),但是拿一個(gè)10%流量的實(shí)驗(yàn)數(shù)據(jù)和一個(gè)90%流量的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對比,很明顯難以得出可信的結(jié)論。
所以我后來把AB Test的方案進(jìn)行了調(diào)整,整個(gè)AB Test分了三個(gè)組:實(shí)驗(yàn)、對照和空白。其中實(shí)驗(yàn)和對照分別設(shè)置了20%的流量,用于進(jìn)行實(shí)驗(yàn)數(shù)據(jù)對比,空白組60%的流量。
最終收集了4周的數(shù)據(jù)之后,成功把新策略全量上線。
這就是AB Test中大家首先要避免的一個(gè)坑,就是要保證外界變量的一致性,最基礎(chǔ)的就是實(shí)驗(yàn)組和對照組流量是對等的,然后才有可能得到可信的結(jié)論。
02 持續(xù)時(shí)間越長越好
AB測試的時(shí)間越長越好么?
理論上來說確實(shí)是這樣。
但是大家需要考慮一個(gè)情況是,對于AB實(shí)驗(yàn)來說,每增加一個(gè)實(shí)驗(yàn)組實(shí)際相當(dāng)于線上新開發(fā)一套方案,所以持續(xù)時(shí)間比較長的AB實(shí)驗(yàn)會(huì)給開發(fā),測試,運(yùn)維等相關(guān)方帶來不少的資源消耗。
所以AB實(shí)驗(yàn)并不是持續(xù)時(shí)間越長越好,實(shí)際操作過程中還是要結(jié)合我們的需求類型和影響范圍來決定。
按照目前我們實(shí)施的方式:
對于策略邏輯類的改動(dòng),通常AB Test的持續(xù)時(shí)間在2周左右,即可進(jìn)行決策;
但是,對于涉及到用戶交互習(xí)慣改動(dòng)的需求,AB Test的時(shí)間會(huì)拉長,比如持續(xù)1~2個(gè)月。
以上大家可以參考。
03 所有需求都做AB測試
常說,酒雖好,可不要貪杯。
AB Test一個(gè)道理。
雖說AB Test是一種科學(xué)的檢驗(yàn)不同方案效果的手段,但是,大家不要忘了大前提,也就是當(dāng)你對當(dāng)前需求收益不確定,所以才需要做AB Test。
如果一個(gè)需求從收益的角度來說是十分確定的,那么很明顯此時(shí)是無需進(jìn)行AB Test的。我們上面已經(jīng)聊過了AB Test的成本投入還是很大的。
通常對于如下幾類需求是不需要進(jìn)行AB Test的。比如:
1. 業(yè)務(wù)基礎(chǔ)能力搭建需求。也就是你當(dāng)前做的事情是業(yè)務(wù)基礎(chǔ)能力范疇,用戶沒有這個(gè)能力就無法完成一個(gè)完整的業(yè)務(wù)流程。
比如在電商中的黃金流程:首頁-列表-商品詳情頁-購物車-提交訂單-支付完成,在你剛開始搭這些流程功能的時(shí)候,是完全無需進(jìn)行ABTest的。
2. 業(yè)務(wù)戰(zhàn)略類需求。這類需求通常都是公司從長期戰(zhàn)略方向需要支持的產(chǎn)品迭代,因此無論它是否能夠給當(dāng)前業(yè)務(wù)帶來收益,都需要進(jìn)行支持和上線。
所以,并不是所有需求都需要進(jìn)行AB Test,更不要以為只有做AB Test的需求才是科學(xué)的。
總之一句話,不要為了做AB,而做AB。
04 有數(shù)據(jù)即做決策
當(dāng)你拿到AB數(shù)據(jù)的時(shí)候,是不是就覺得萬事大吉了呢?
很多產(chǎn)品經(jīng)理在拿到AB Test數(shù)據(jù)之后,接下來就是對比實(shí)驗(yàn)組和對照組的相關(guān)指標(biāo)數(shù)據(jù)。如果實(shí)驗(yàn)組在核心指標(biāo)上優(yōu)于對照組,那么就認(rèn)為可以全量實(shí)驗(yàn)組,否則,就不可全量。
但是這種做法實(shí)際上是忽視了AB Test背后的實(shí)際含義。
AB Test的本質(zhì)上是一個(gè)標(biāo)準(zhǔn)的獨(dú)立雙樣本檢驗(yàn)(具體概念百度一下),最終基于大量用戶的行為數(shù)據(jù)上的統(tǒng)計(jì)指標(biāo),得出對原假設(shè)的判斷。
因此,A/B測試實(shí)際上對一個(gè)假設(shè)進(jìn)行檢驗(yàn)的過程。具體大家可以網(wǎng)上搜尋一下AB測試與數(shù)理統(tǒng)計(jì)的一些介紹文章。
所以,當(dāng)我們拿到AB Test的數(shù)據(jù)時(shí),首先應(yīng)該做的事情就是看一下這些數(shù)據(jù)是否能夠支持我們得出可信的結(jié)論。
這里給大家一個(gè)常用的方法:P值。
具體概念我也不解釋了,總之P值是檢驗(yàn)不同結(jié)果之間是否具有顯著性差異的一個(gè)統(tǒng)計(jì)學(xué)指標(biāo)。因此我們可以用它來檢測實(shí)驗(yàn)組和對照組之間的指標(biāo)差異是否具有顯著性。
常用的判斷標(biāo)準(zhǔn):
1. P<0.01 極具顯著性差異
2. 0.01<P<0.05 有顯著性差異
3. P>0.05 無顯著性差異
前兩種表明當(dāng)前ABTest實(shí)驗(yàn)組和對照組的之間的差異是顯著的,也就是我們可以用當(dāng)前實(shí)驗(yàn)結(jié)果來進(jìn)行決策;否則就需要重新進(jìn)行AB Test。
關(guān)于P值這個(gè)指標(biāo)如何計(jì)算,這里就不講了,我給大家做了一個(gè)AB Test的數(shù)據(jù)分析模板,公眾號回復(fù)【AB模板】就能拿到。
那么大家知道,如果一次AB Test中,所有指標(biāo)的P值均大于0.05,那么如何解決這個(gè)問題,我下篇文章公布。
以上幾個(gè)就是我做AB測試遇到的坑,希望能幫到你。
往期推薦
張沐的新書《運(yùn)營思維:全方位構(gòu)建運(yùn)營人員能力體系》已經(jīng)在京東、當(dāng)當(dāng)平臺可以購買,可以私聊我獲取簽名版。
積累了7年的產(chǎn)品運(yùn)營實(shí)操經(jīng)驗(yàn),期間經(jīng)歷過從小公司到中型公司、從To C到To B的產(chǎn)品運(yùn)營工作,主導(dǎo)過從0到1的產(chǎn)品,深知不同類型產(chǎn)品在不同階段的運(yùn)營要點(diǎn)。
