我做AB Test遇到的坑

專業(yè)成就職業(yè)
大家好,我是策略產(chǎn)品經(jīng)理夏唬人。
AB測試,是產(chǎn)品經(jīng)理經(jīng)常用于對新老方案上線后的效果進行對比的方法,核心目的在于通過AB測試能夠增加需求上線后能夠給平臺帶來正向收益的確定性,
?
頁面功能的改動,需要進行AB測試,來觀測用戶對新老功能的使用情況;
策略邏輯的改動,需要進行AB測試,來觀測流量在不同邏輯下的轉(zhuǎn)化和收益。
總之,AB測試目前已經(jīng)成為了一種大家公認的通過數(shù)據(jù)對比,來決策新方案是否上線的一個標準。
但是,我看到一種現(xiàn)象就是,大多數(shù)產(chǎn)品經(jīng)理都是為了做AB ,而做AB。其中涉及到幾個非常重要的環(huán)節(jié),稍有不慎就會入坑。
?
01 隨意進行流量設置
?
AB實驗流量的控制是很多產(chǎn)品經(jīng)理會忽視的一個環(huán)節(jié)。先看一個我經(jīng)歷過的案例。
?
我記得剛?cè)ニ阉鲌F隊的時候,有個產(chǎn)品經(jīng)理在線上跑了一個搜索策略優(yōu)化的AB實驗,按照預期,新策略肯定要比老策略好。
但是她面臨的問題是,一個AB實驗做了半年了,因為AB結(jié)果數(shù)據(jù)經(jīng)常波動,導致實驗結(jié)果很難敲定下來。
?
也就是有的時候是實驗組比對照組好,有的時候是實驗組比對照組差,很難體現(xiàn)出趨勢性。
?
后來,我看了看他們做的AB方案,發(fā)現(xiàn)了問題所在。
?
他們給這個AB Test分了兩個組,實驗組和對照組。因為擔心新策略的影響面太大,因此給新策略,也就是實驗組分了10%的流量,然后直接用這10%的流量,與剩下90%的流量來進行AB實驗。
?
此時,問題在哪,我估計大家也看出來了。
?
AB Test,為了盡量保證結(jié)果的可信,最基本的給到每個BUCKET(桶,組的概念)的流量是一樣大小的。
就拿這個實驗來說,考慮降低新策略的影響范圍沒錯,但是拿一個10%流量的實驗數(shù)據(jù)和一個90%流量的實驗數(shù)據(jù)進行對比,很明顯難以得出可信的結(jié)論。
?
所以我后來把AB Test的方案進行了調(diào)整,整個AB Test分了三個組:實驗、對照和空白。其中實驗和對照分別設置了20%的流量,用于進行實驗數(shù)據(jù)對比,空白組60%的流量。
最終收集了4周的數(shù)據(jù)之后,成功把新策略全量上線。
?
這就是AB Test中大家首先要避免的一個坑,就是要保證外界變量的一致性,最基礎的就是實驗組和對照組流量是對等的,然后才有可能得到可信的結(jié)論。
?
02 持續(xù)時間越長越好
?
AB測試的時間越長越好么?
?理論上來說確實是這樣。
?
但是大家需要考慮一個情況是,對于AB實驗來說,每增加一個實驗組實際相當于線上新開發(fā)一套方案,所以持續(xù)時間比較長的AB實驗會給開發(fā),測試,運維等相關方帶來不少的資源消耗。
?
所以AB實驗并不是持續(xù)時間越長越好,實際操作過程中還是要結(jié)合我們的需求類型和影響范圍來決定。
?
按照目前我們實施的方式:
對于策略邏輯類的改動,通常AB Test的持續(xù)時間在2周左右,即可進行決策;
但是,對于涉及到用戶交互習慣改動的需求,AB Test的時間會拉長,比如持續(xù)1~2個月。
?
以上大家可以參考。
03?所有需求都做AB測試
常說,酒雖好,可不要貪杯。
AB Test一個道理。
雖說AB Test是一種科學的檢驗不同方案效果的手段,但是,大家不要忘了大前提,也就是當你對當前需求收益不確定,所以才需要做AB Test。
如果一個需求從收益的角度來說是十分確定的,那么很明顯此時是無需進行AB Test的。我們上面已經(jīng)聊過了AB Test的成本投入還是很大的。
通常對于如下幾類需求是不需要進行AB Test的。比如:
1. 業(yè)務基礎能力搭建需求。也就是你當前做的事情是業(yè)務基礎能力范疇,用戶沒有這個能力就無法完成一個完整的業(yè)務流程。
比如在電商中的黃金流程:首頁-列表-商品詳情頁-購物車-提交訂單-支付完成,在你剛開始搭這些流程功能的時候,是完全無需進行ABTest的。
2. 業(yè)務戰(zhàn)略類需求。這類需求通常都是公司從長期戰(zhàn)略方向需要支持的產(chǎn)品迭代,因此無論它是否能夠給當前業(yè)務帶來收益,都需要進行支持和上線。
所以,并不是所有需求都需要進行AB Test,更不要以為只有做AB Test的需求才是科學的。
總之一句話,不要為了做AB,而做AB。
?
04?有數(shù)據(jù)即做決策
?
當你拿到AB數(shù)據(jù)的時候,是不是就覺得萬事大吉了呢?
?
很多產(chǎn)品經(jīng)理在拿到AB Test數(shù)據(jù)之后,接下來就是對比實驗組和對照組的相關指標數(shù)據(jù)。如果實驗組在核心指標上優(yōu)于對照組,那么就認為可以全量實驗組,否則,就不可全量。
?
但是這種做法實際上是忽視了AB Test背后的實際含義。
?
AB Test的本質(zhì)上是一個標準的獨立雙樣本檢驗(具體概念百度一下),最終基于大量用戶的行為數(shù)據(jù)上的統(tǒng)計指標,得出對原假設的判斷。
?
因此,A/B測試實際上對一個假設進行檢驗的過程。具體大家可以網(wǎng)上搜尋一下AB測試與數(shù)理統(tǒng)計的一些介紹文章。
?
所以,當我們拿到AB Test的數(shù)據(jù)時,首先應該做的事情就是看一下這些數(shù)據(jù)是否能夠支持我們得出可信的結(jié)論。
?
這里給大家一個常用的方法:P值。
?
具體概念我也不解釋了,總之P值是檢驗不同結(jié)果之間是否具有顯著性差異的一個統(tǒng)計學指標。因此我們可以用它來檢測實驗組和對照組之間的指標差異是否具有顯著性。
?
常用的判斷標準:
1. P<0.01 極具顯著性差異
2. 0.01 3. P>0.05 ? 無顯著性差異 ? 前兩種表明當前ABTest實驗組和對照組的之間的差異是顯著的,也就是我們可以用當前實驗結(jié)果來進行決策;否則就需要重新進行AB Test。 ? 關于P值這個指標如何計算,這里就不講了,我給大家做了一個AB Test的數(shù)據(jù)分析模板,公眾號回復【AB模板】就能拿到。 ? 那么大家知道,如果一次AB Test中,所有指標的P值均大于0.05,那么如何解決這個問題,我下篇文章公布。 ? 以上幾個就是我做AB測試遇到的坑,希望能幫到你。
