近日,第四屆“數(shù)據(jù)智能創(chuàng)新與實踐人工智能大會”在北京舉辦。火山引擎DataTester數(shù)據(jù)科學(xué)家就“傳統(tǒng)視角下的AB實驗與互聯(lián)網(wǎng)實驗平臺演進(jìn)”這一話題作了分享,從宏觀層面介紹了AB實驗平臺的發(fā)展?fàn)顟B(tài),及未來演進(jìn)趨勢。
互聯(lián)網(wǎng)AB實驗平臺期望解決的問題是:通過結(jié)果數(shù)據(jù)度量業(yè)務(wù)方案收益,并做出最優(yōu)決策。但由于AB實驗結(jié)果的合理性保障,是在假設(shè)隨機(jī)及滿足SUTVA假設(shè)兩個點的基礎(chǔ)上存在的,因此當(dāng)前的AB試驗實驗平臺亟待解決的問題,絕大部分都與二者有關(guān)。
目前互聯(lián)網(wǎng)AB實驗平臺的建設(shè),圍繞分流能力、數(shù)據(jù)追蹤與計算能力、統(tǒng)計分析與結(jié)果可視化能力以及標(biāo)準(zhǔn)實驗流程4塊核心能力展開。大多數(shù)互聯(lián)網(wǎng)公司都有自建的實驗平臺,但成熟度參差不齊。其中,火山引擎DataTester完善度相對較高。在C端場景下,火山引擎DataTester SUTVA假設(shè)滿足較好,實驗?zāi)芰Πl(fā)展相對成熟,可滿足80%以上C端實驗需求,且額外投入的人力相對較少。
但在社交、直播等違背SUTVA假設(shè)的場景下,互聯(lián)網(wǎng)公司雖有嘗試,但都未建成標(biāo)準(zhǔn)化能力。現(xiàn)階段上述場景進(jìn)行AB實驗仍需要投入大量人力,“如何實現(xiàn)隨機(jī)化”和“配套通用統(tǒng)計分析方法”成為實驗平臺發(fā)展的痛點。與此同時,現(xiàn)階段的實驗平臺在易用性方面,如何降低使用成本和提升效率仍需提升。
DoE是Design of Experiment 的縮寫,旨在描述在假設(shè)反應(yīng)變化的條件下,信息變化的任何任務(wù)的設(shè)計。DoE可以分為單因素實驗和多因素實驗,有4大基本原則:對照原則、隨機(jī)化原則、重復(fù)性原則以及均衡性原則。而DoE的4大基本原則可以分別對應(yīng)到互聯(lián)網(wǎng)實驗的“對照組”“流量分層 hash”“多天觀測、擴(kuò)流”以及“SRM問題”。
在DoE的啟示下,可以分析出AB實驗平臺可能的六個演進(jìn)方向:
1. C端場景實驗深度發(fā)展:從分流服務(wù)、實驗結(jié)果精度以及實驗分析縱橫發(fā)展三個方面分別演進(jìn)。
2. 增加正交分層:完善實驗平臺正交性,實驗正交的作用是兩個實驗沒有相互影響時,可以在各個兩個實驗層獨立進(jìn)行,獨立評估效果。
3. 健全實驗分析能力:完善平臺數(shù)據(jù)歸因解讀能力,同時發(fā)展平臺正態(tài)分布外分析能力。
4. 實驗工程成本優(yōu)化:采用正交設(shè)計框架,并且建設(shè)標(biāo)準(zhǔn)數(shù)據(jù)源。
5. 拓展實驗?zāi)芰吔纾?/strong>減少流量場及業(yè)務(wù)之間的相互影響。
6. 完善非標(biāo)場景推進(jìn)準(zhǔn)因果實驗方法:平臺非 C 端實驗類型都不同程度具備業(yè)務(wù)系統(tǒng)的侵入性,平臺建設(shè)難度陡增。目前此方面優(yōu)化在抖音 & 火山引擎,已有一定的嘗試和基礎(chǔ)建設(shè)。
會上,火山引擎的數(shù)據(jù)科學(xué)家也介紹了DataTester。據(jù)了解,火山引擎DataTester源自字節(jié)跳動長期沉淀,截至2023年6月,字節(jié)跳動已通過DataTester累計做過240萬余次AB實驗,日新增實驗 4000余個,同時運行實驗5萬余個。
目前,DataTester服務(wù)了包括美的、得到、凱叔講故事等在內(nèi)的上百家企業(yè),為業(yè)務(wù)的用戶增長、轉(zhuǎn)化、產(chǎn)品迭代、運營活動等各個環(huán)節(jié)提供科學(xué)的決策依據(jù),將成熟的“數(shù)據(jù)驅(qū)動增長”經(jīng)驗賦能給各行業(yè)。(作者:熊問蘭)