A/B測(cè)試的三要素

A/B測(cè)試是產(chǎn)品運(yùn)營(yíng)中常會(huì)用到的一種方法,通常是基于“如果改變某變量,那么目標(biāo)指標(biāo)會(huì)有改善”這樣的假設(shè)。
A/B測(cè)試主要考慮三要素:
變量 樣本 時(shí)間
變量
變量來(lái)自于假設(shè),以及衡量試驗(yàn)效果的指標(biāo)。
如果改動(dòng)變量X,那么指標(biāo)Y會(huì)發(fā)生變化,這背后的含義包括:
把Y視為因變量,X是自變量,那么意味著X和Y是高度關(guān)聯(lián)的(不一定是因果關(guān)系); 變量X是可以操作的,即可以通過(guò)產(chǎn)品策略或者運(yùn)營(yíng)活動(dòng)等使其發(fā)生改變;
在“變量”這個(gè)維度下,主要關(guān)注:
效果評(píng)價(jià)指標(biāo) 試驗(yàn)操作變量 控制(匹配)變量 場(chǎng)景篩選變量 分組隨機(jī)變量
效果評(píng)價(jià)指標(biāo)
用來(lái)衡量在產(chǎn)品或者運(yùn)營(yíng)上做出改動(dòng)后的效果的變量(上面提到的因變量Y),可以是單個(gè)變量,也可以多個(gè),e.g.轉(zhuǎn)化率、點(diǎn)擊率、交易額等。
需要注意的是,這個(gè)評(píng)價(jià)指標(biāo)是要在AB測(cè)試開(kāi)展前就需要想好的。
試驗(yàn)操作變量
即組間差異的變量,e.g. A組用戶(hù)不發(fā)紅包,B組發(fā)放5元紅包,C組發(fā)放10元紅包,那么試驗(yàn)變量就是紅包金額;
一般情況下,試驗(yàn)中的ABC組中有一組是作為參考基線(xiàn)(baseline),通常“基線(xiàn)組”是“不做操作”的,因?yàn)橐獏^(qū)分“自然變化量”和“人為改變量”,基線(xiàn)組試驗(yàn)前后發(fā)生的變化可以理解為“自然變化量”,而真正進(jìn)行了干預(yù)的其他組別發(fā)生的變化量,要減去這個(gè)“自然變化量”后才能得到“人為改變量”。
控制(匹配)變量
會(huì)影響效果評(píng)價(jià)指標(biāo)的其他變量,這類(lèi)變量需要在基線(xiàn)組和操作組中進(jìn)行匹配,否則試驗(yàn)出的差異可能是由這些變量引起,e.g.是否新老客、會(huì)員等級(jí)、優(yōu)惠偏好等;
場(chǎng)景篩選變量
做A/B測(cè)試一般不是面向所有用戶(hù),而是針對(duì)于特定的業(yè)務(wù)場(chǎng)景,e.g. 優(yōu)化新客在android系統(tǒng)上的某注冊(cè)環(huán)節(jié)以提升注冊(cè)成功率,那么這個(gè)假設(shè)對(duì)應(yīng)的業(yè)務(wù)場(chǎng)景就有兩個(gè)篩選條件:用戶(hù)狀態(tài) == '新客' & app操作系統(tǒng) == 'android',這些用來(lái)圈定業(yè)務(wù)場(chǎng)景的變量也可以稱(chēng)為“場(chǎng)景定位變量”。
分組隨機(jī)變量
也就是決定用戶(hù)隨機(jī)分組的那個(gè)變量,這類(lèi)變量通常是具有隨機(jī)性的獨(dú)立變量(和上面的那些變量沒(méi)啥關(guān)系),比如cookie_id、設(shè)備ID,或者其他具備隨機(jī)性和獨(dú)立性的數(shù)字串(e.g. 試驗(yàn)期間首次訪問(wèn)應(yīng)用的時(shí)間轉(zhuǎn)碼),通過(guò)判斷奇偶數(shù)來(lái)劃分試驗(yàn)組。分組也可能是3組以上的,比如可以計(jì)算數(shù)字ID求3的余數(shù)。
實(shí)際操作中,上面提到的控制(匹配)變量和分組隨機(jī)變量會(huì)一同參與到“隨機(jī)分組”的過(guò)程。
假設(shè)現(xiàn)在需要控制(匹配)的變量只有性別且所有用戶(hù)的性別都是已知的。設(shè)男女比例是7:3,每組用戶(hù)量是1000人(達(dá)到統(tǒng)計(jì)顯著所需樣本量),一共兩組,那么可以類(lèi)似分層抽樣先選定了符合業(yè)務(wù)場(chǎng)景的男性用戶(hù)1400名及和女性用戶(hù)600名,然后通過(guò)設(shè)備ID對(duì)兩組用戶(hù)進(jìn)行隨機(jī)分組,然后得到的4個(gè)小組歸并為兩組(700名男性用戶(hù)+300名女性用戶(hù)),這樣在性別上就匹配好了。
當(dāng)控制(匹配)變量不止一個(gè)的時(shí)候,就需要分多個(gè)層來(lái)抽樣了,道理基本相通。變量的取值有離散值或者連續(xù)值兩種,遇到連續(xù)值的控制變量,也可以分箱轉(zhuǎn)化為離散值然后做分層。

樣本
在“樣本維度”上通常關(guān)注業(yè)務(wù)篩選條件以及樣本量。
業(yè)務(wù)篩選條件
上面已經(jīng)提到了A/B測(cè)試是面向具體的業(yè)務(wù)場(chǎng)景的,所以在業(yè)務(wù)上會(huì)做限定,上面提到的“場(chǎng)景篩選變量”本質(zhì)就是篩選業(yè)務(wù)場(chǎng)景。
通常業(yè)務(wù)場(chǎng)景可以從“人貨場(chǎng)”3個(gè)維度去限定:
人(用戶(hù)) :具有什么屬性的用戶(hù)才是本次試驗(yàn)關(guān)注的目標(biāo)? e.g.屬性特征、行為特征、交易特征等; 貨(商品) :這里是指廣義上的商品,可以是實(shí)物,也可以是服務(wù)或者內(nèi)容(e.g.視頻、文章之類(lèi)),對(duì)“貨”的圈定,可以是通過(guò)用戶(hù)行為來(lái)篩選,e.g.用戶(hù)在商詳頁(yè)停留了10秒以上但未購(gòu)買(mǎi)的SKU,也可以是商品自身的屬性,e.g. 所屬品類(lèi)(欄目)、品牌等級(jí)、價(jià)格、差評(píng)率、優(yōu)惠度等; 場(chǎng)(渠道) :可以是業(yè)務(wù)的入口終端,e.g.PC\app\小程序、android\ios等,也可以是業(yè)務(wù)環(huán)節(jié)等,e.g.注冊(cè)環(huán)節(jié)、支付頁(yè)面等;
樣本數(shù)量大小
樣本量上首先是要保證能達(dá)到統(tǒng)計(jì)效力,以確保組間差異在統(tǒng)計(jì)意義上是顯著的(而不是隨機(jī)誤差造成)。
要計(jì)算樣本量大小,可以借助樣本量計(jì)算在線(xiàn)工具[1],根據(jù)統(tǒng)計(jì)公式來(lái)反推也可以。
此外,還要注意轉(zhuǎn)化率,用戶(hù)從進(jìn)入產(chǎn)品一路到達(dá)試驗(yàn)關(guān)注的環(huán)節(jié)可能要經(jīng)過(guò)層層“轉(zhuǎn)化”,如果試驗(yàn)配置的時(shí)候入口的用戶(hù)量和試驗(yàn)所需的樣本量是不一樣的,e.g. 試驗(yàn)所需的樣本量為2000,但是從訪問(wèn)到達(dá)試驗(yàn)環(huán)節(jié)的轉(zhuǎn)化率為10%的話(huà),那么從訪問(wèn)層圈定的用戶(hù)實(shí)際上是2W人,如果A/B測(cè)試平臺(tái)能直接配置到對(duì)應(yīng)的業(yè)務(wù)環(huán)節(jié)就不用擔(dān)心這個(gè)問(wèn)題。
時(shí)間
第三個(gè)要素是時(shí)間,主要關(guān)注“開(kāi)始時(shí)間”和“結(jié)束時(shí)間”。時(shí)間的顆粒度,方案賽馬。
開(kāi)始時(shí)間
什么時(shí)候開(kāi)始?一般情況下,要避免重大產(chǎn)品運(yùn)營(yíng)事件,e.g.節(jié)假日、大促活動(dòng)、產(chǎn)品發(fā)版日等。
當(dāng)然,作為用戶(hù),可能不太能接受——正用著app,頁(yè)面刷著刷著突然就大變樣了——所以,從更細(xì)的時(shí)間顆粒度上來(lái)看,一般是用戶(hù)夜間訪問(wèn)量最低谷的搞這種操作。
持續(xù)時(shí)間
持續(xù)時(shí)間主要考慮:
在一定時(shí)間內(nèi)收集足夠的樣本,因?yàn)槊刻斓皆L的符合試驗(yàn)條件的用戶(hù)量可能會(huì)很少,比如新客、復(fù)購(gòu)的老客等,e.g.總樣本量需要1W,每天符合條件的用戶(hù)有1K,理論上試驗(yàn)要持續(xù)至少10天; 用戶(hù)行為的穩(wěn)定性,比如“新奇效應(yīng)”——產(chǎn)品改版后首次使用行為和后續(xù)的行為可能存在差異——相對(duì)于原版是有提升還是沒(méi)啥差別?還有就是“學(xué)習(xí)效應(yīng)”,比如剛開(kāi)始用華為手機(jī)的時(shí)候和舊手機(jī)的操作方式差異很大,但是用慣了之后,玩得比以前還溜,但是不能以用戶(hù)“正在學(xué)習(xí)”時(shí)的狀態(tài)和“已經(jīng)畢業(yè)”的狀態(tài)來(lái)對(duì)比(舊的熟悉的版本就好比“畢業(yè)”狀態(tài)),一般以用戶(hù)掌握并適應(yīng)某種行為的狀態(tài)定義為“成熟”的行為。 不同用戶(hù)回流周期不一樣 ,這個(gè)實(shí)際上是用戶(hù)群結(jié)構(gòu)的問(wèn)題,假設(shè)現(xiàn)在的產(chǎn)品功能改動(dòng)是面向所有老客,因?yàn)楫a(chǎn)品的屬性,老客的回流周期差異可能會(huì)很大,e.g.積極的用戶(hù)可能訪問(wèn)間隔是一周,還有一部分用戶(hù)是半個(gè)月的訪問(wèn)周期,如果不同訪問(wèn)周期的用戶(hù)在目標(biāo)行為上存在較大差異,那就要“等遲到的人一起集合”,盡量保證大多數(shù)的代表用戶(hù)群能進(jìn)入試驗(yàn),這個(gè)時(shí)候決定試驗(yàn)時(shí)間的就是用戶(hù)的回流周期了。 
以上,暫時(shí)就分析這些。
A/B測(cè)試的內(nèi)容當(dāng)然不僅僅包含文中所提到的內(nèi)容,歡迎留言交流。
參考資料
樣本量計(jì)算在線(xiàn)工具: http://www.evanmiller.org/ab-testing/sample-size.html
