導(dǎo)讀:數(shù)據(jù)挖掘是一種發(fā)現(xiàn)知識(shí)的手段。數(shù)據(jù)挖掘要求數(shù)據(jù)分析師通過(guò)合理的方法,從數(shù)據(jù)中獲取與挖掘項(xiàng)目相關(guān)的知識(shí)。
作者:趙仁乾 田建中 葉本華 常國(guó)珍
來(lái)源:華章科技
數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉的產(chǎn)物,涉及統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、人工智能及模式識(shí)別等多種學(xué)科,如圖1-4所示。
▲圖1-4 數(shù)據(jù)挖掘
01 數(shù)據(jù)挖掘方法分類(lèi)介紹
數(shù)據(jù)挖掘方法按照來(lái)源進(jìn)行分類(lèi)顯得過(guò)于龐雜,而且不便于理解和記憶。按照其目的,將數(shù)據(jù)挖掘方法分為預(yù)測(cè)性和描述性?xún)纱箢?lèi),如下所示。
- 目的:預(yù)測(cè)性
- 定義:有監(jiān)督學(xué)習(xí),分類(lèi)模型,用一個(gè)或多個(gè)自變量預(yù)測(cè)因變量的值 舉例:客戶(hù)是否會(huì)違約是一個(gè)因變量,可以根據(jù)客戶(hù)的性別、年齡、收入、職位、經(jīng)濟(jì)狀況、歷史信用狀況等因素進(jìn)行預(yù)測(cè)
- 主要算法:決策樹(shù)、線性回歸、邏輯回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、判別分析等
- 目的:描述性
- 定義:無(wú)監(jiān)督學(xué)習(xí),分析具有多個(gè)屬性的數(shù)據(jù)集,找出潛在的模式,沒(méi)有因變量
- 舉例:觀察個(gè)體之間的相似程度,如根據(jù)年齡、性別、收入等因素進(jìn)行客戶(hù)細(xì)分。根據(jù)客戶(hù)對(duì)多個(gè)產(chǎn)品的購(gòu)買(mǎi)情況發(fā)現(xiàn)產(chǎn)品之間的相關(guān)性
- 主要算法:聚類(lèi)、關(guān)聯(lián)分析、因子分析、主成分分析、社交網(wǎng)絡(luò)分析等
1. 預(yù)測(cè)性——有監(jiān)督學(xué)習(xí)
預(yù)測(cè)性分析指的是用一個(gè)或多個(gè)自變量預(yù)測(cè)因變量的值,以歷史數(shù)據(jù)為訓(xùn)練集,從中學(xué)習(xí)并建立模型,然后將此模型運(yùn)用到當(dāng)前數(shù)據(jù)上,推測(cè)結(jié)果。以客戶(hù)違約作為預(yù)測(cè)性分析的研究場(chǎng)景,客戶(hù)是否會(huì)違約是一個(gè)因變量,我們可以根據(jù)客戶(hù)的性別、年齡、收入、職位、經(jīng)濟(jì)狀況、歷史信用狀況等進(jìn)行預(yù)測(cè)。
根據(jù)SAS工程師總結(jié)的商業(yè)案例,分類(lèi)模型可分為三大類(lèi)。
- 決策類(lèi),如銀行卡欺詐檢測(cè)、人體生物特征識(shí)別。
- 等級(jí)評(píng)定類(lèi),如客戶(hù)信用評(píng)分。
- 估計(jì)類(lèi),如違約損失準(zhǔn)備金估計(jì)、收入預(yù)測(cè)等。
有些數(shù)據(jù)挖掘算法在某類(lèi)應(yīng)用上表現(xiàn)得更好,如最近鄰域法、支持向量機(jī)在決策類(lèi)應(yīng)用上表現(xiàn)良好,但是在解決排序類(lèi)和估計(jì)類(lèi)問(wèn)題時(shí)表現(xiàn)一般。而有些數(shù)據(jù)挖掘算法的表現(xiàn)比較穩(wěn)定,如決策樹(shù)和邏輯回歸對(duì)三類(lèi)問(wèn)題都適用,但是在決策類(lèi)問(wèn)題上沒(méi)有在后兩類(lèi)問(wèn)題上表現(xiàn)好。
2. 描述性——無(wú)監(jiān)督學(xué)習(xí)
描述性分析指的是分析具有多個(gè)屬性的數(shù)據(jù)集,找出潛在的模式并進(jìn)行分類(lèi)。描述性分析是一種無(wú)監(jiān)督的學(xué)習(xí)過(guò)程。區(qū)別于有監(jiān)督的學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)算法沒(méi)有參照指標(biāo),需要結(jié)合業(yè)務(wù)經(jīng)驗(yàn)來(lái)判斷數(shù)據(jù)分類(lèi)是否正確。無(wú)監(jiān)督學(xué)習(xí)比較耗時(shí),而且對(duì)建模人員的業(yè)務(wù)素質(zhì)要求較高。
描述性分析主要應(yīng)用于以下兩種場(chǎng)景:第一種是觀察個(gè)體之間的相似程度,如根據(jù)年齡、性別、收入等進(jìn)行客戶(hù)細(xì)分;第二種是根據(jù)客戶(hù)購(gòu)買(mǎi)的多個(gè)產(chǎn)品發(fā)現(xiàn)產(chǎn)品之間的相關(guān)性,主要算法包括樣本聚類(lèi)、關(guān)聯(lián)規(guī)則等。
02 數(shù)據(jù)挖掘方法論
下面講解最為常用的CRISP-DM方法論和SEMMA方法論。
1. CRISP-DM方法論
CRISP-DM方法論由NCR、Clementine、OHRA和Daimler-Benz的數(shù)據(jù)挖掘項(xiàng)目總結(jié)而來(lái),并被SPSS公司大力推廣。CRISP-DM方法論將數(shù)據(jù)挖掘項(xiàng)目的生命周期分為6個(gè)階段,分別是商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)估和準(zhǔn)備工作,如圖1-16所示。
▲圖1-16 CRISP-DM方法論
在實(shí)際項(xiàng)目進(jìn)行過(guò)程中,由于使用者的目標(biāo)背景和興趣不同,有可能打亂各階段順承的關(guān)系。
圖1-16呈現(xiàn)了CRISP-DM方法執(zhí)行流程的6個(gè)階段。各個(gè)階段的順序不是保持不變的,有時(shí)需要在某個(gè)階段向前或向后移動(dòng),這取決于每個(gè)階段的結(jié)果和下一個(gè)階段的具體任務(wù)。箭頭指出了各個(gè)階段之間的關(guān)聯(lián)。
在圖1-16中,最外圈的循環(huán)表示數(shù)據(jù)挖掘本身的循環(huán)特征。數(shù)據(jù)挖掘是一項(xiàng)持續(xù)的工作。在上一個(gè)流程和解決方案中獲得的經(jīng)驗(yàn)與教訓(xùn),可以給下一個(gè)項(xiàng)目提供指導(dǎo)。下面簡(jiǎn)要介紹每個(gè)階段的特點(diǎn)。
1)商業(yè)理解
該階段的特點(diǎn)是從商業(yè)角度理解項(xiàng)目的目標(biāo)和要求,通過(guò)理論分析找出數(shù)據(jù)挖掘可操作問(wèn)題,制訂實(shí)現(xiàn)目標(biāo)的初步計(jì)劃。
2)數(shù)據(jù)理解
該階段開(kāi)始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù)、標(biāo)明數(shù)據(jù)質(zhì)量問(wèn)題、探索對(duì)數(shù)據(jù)的初步理解、發(fā)掘有趣的子集,以形成對(duì)探索關(guān)系的假設(shè)。
3)數(shù)據(jù)準(zhǔn)備
該階段包括所有從原始的、未加工的數(shù)據(jù)構(gòu)造數(shù)據(jù)挖掘所需信息的活動(dòng)。數(shù)據(jù)準(zhǔn)備任務(wù)可能被實(shí)施多次,而且沒(méi)有任何規(guī)定的順序。這些任務(wù)的主要目的是從源系統(tǒng)根據(jù)維度分析的要求,獲取所需要的信息,同時(shí)對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換和清洗。
4)建模
該階段主要是選擇和應(yīng)用各種建模技術(shù),同時(shí)對(duì)參數(shù)進(jìn)行校準(zhǔn),以達(dá)到最優(yōu)值。通常,同一類(lèi)數(shù)據(jù)挖掘問(wèn)題會(huì)有多種建模技術(shù)。一些技術(shù)對(duì)數(shù)據(jù)格式有特殊的要求,因此常常需要返回到數(shù)據(jù)準(zhǔn)備階段。
5)評(píng)估
在模型最后發(fā)布前,根據(jù)商業(yè)目標(biāo)評(píng)估模型和檢查模型建立的各個(gè)步驟。此階段的關(guān)鍵目的是,確認(rèn)重要的商業(yè)問(wèn)題都得到充分考慮。
6)準(zhǔn)備工作
模型完成后,由模型使用者(客戶(hù))根據(jù)當(dāng)時(shí)的背景和目標(biāo)完成情況,決定如何在現(xiàn)場(chǎng)使用模型。
2. SEMMA方法論
除了CRISP-DM方法論,SAS公司還提出了SEMMA方法論。其與CRISP-DM方法論內(nèi)容十分相似,流程為定義業(yè)務(wù)問(wèn)題、環(huán)境評(píng)估、數(shù)據(jù)準(zhǔn)備、循環(huán)往復(fù)的挖掘過(guò)程、上線發(fā)布、檢視。其中循環(huán)往復(fù)的挖掘過(guò)程包含探索、修改、建模、評(píng)估和抽樣5個(gè)步驟,如圖1-17所示。
▲圖1-17 SEMMA方法論
1)抽樣
該步驟涉及數(shù)據(jù)采集、數(shù)據(jù)合并與抽樣操作,目的是構(gòu)造分析時(shí)用到的數(shù)據(jù)。分析人員將根據(jù)維度分析獲得的結(jié)果作為分析的依據(jù),將散落在公司內(nèi)部與外部的數(shù)據(jù)進(jìn)行整合。
2)探索
這個(gè)步驟有兩個(gè)任務(wù),第一個(gè)是對(duì)數(shù)據(jù)質(zhì)量的探索。
變量質(zhì)量方面涉及錯(cuò)誤值(年齡=-30)、不恰當(dāng)(客戶(hù)的某些業(yè)務(wù)指標(biāo)為缺失值,實(shí)際上是沒(méi)有這個(gè)業(yè)務(wù),值應(yīng)該為“0”)、缺失值(沒(méi)有客戶(hù)的收入信息)、不一致(收入單位為人民幣,而支出單位為美元)、不平穩(wěn)(某些數(shù)據(jù)的均值變化過(guò)于劇烈)、重復(fù)(相同的交易被記錄兩次)和不及時(shí)(銀行客戶(hù)的財(cái)務(wù)數(shù)據(jù)更新滯后)等。
探索步驟主要解決錯(cuò)誤的變量是否可以修改、是否可以使用的問(wèn)題。比如,缺失值很多,平穩(wěn)性、及時(shí)性很差的變量不能用于后續(xù)的數(shù)據(jù)分析,而缺失值較少的變量需要進(jìn)行缺失值填補(bǔ)。
第二個(gè)是對(duì)變量分布形態(tài)的探索。
對(duì)變量分布形態(tài)的探索主要是對(duì)變量偏態(tài)和極端值進(jìn)行探索。由于后續(xù)的統(tǒng)計(jì)分析大多是使用參數(shù)統(tǒng)計(jì)方法,這要求連續(xù)變量最好是對(duì)稱(chēng)分布的,這就需要我們了解每個(gè)連續(xù)變量的分布情況,并制定好變量修改的方案。
3)修改
根據(jù)變量探索的結(jié)論,對(duì)數(shù)據(jù)質(zhì)量問(wèn)題和分布問(wèn)題涉及的變量分別做修改。數(shù)據(jù)質(zhì)量問(wèn)題涉及的修改包括錯(cuò)誤編碼改正、缺失值填補(bǔ)、單位統(tǒng)一等操作。變量分布問(wèn)題涉及的修改包括函數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化,具體的修改方法需要與后續(xù)的統(tǒng)計(jì)建模方法相結(jié)合。
4)建模
根據(jù)分析的目的選取合適的模型,這部分內(nèi)容在1.3節(jié)已經(jīng)做了詳細(xì)的闡述,這里不再贅述。
5)評(píng)估
這里指模型的樣本內(nèi)驗(yàn)證,即使用歷史數(shù)據(jù)對(duì)模型表現(xiàn)的優(yōu)劣進(jìn)行評(píng)估。比如,對(duì)有監(jiān)督學(xué)習(xí)使用ROC曲線和提升度等技術(shù)指標(biāo)評(píng)估模型的預(yù)測(cè)能力。
03 數(shù)據(jù)挖掘建模框架的3個(gè)原則
筆者提出了數(shù)據(jù)挖掘建模框架的3個(gè)原則,即以成本-收益分析為單一分析框架、以分析主體和客體為視角構(gòu)建全模型生命周期工作模板,將紛繁多樣的數(shù)據(jù)挖掘應(yīng)用主題歸納為3大分析范式和9大工作模板,如圖1-18所示。
▲圖1-18 3大分析范式和9大工作模板
1. 以成本-收益分析為單一分析框架
世上萬(wàn)事萬(wàn)物都具有矛盾的兩面性,金融數(shù)據(jù)挖掘建模力圖通過(guò)數(shù)據(jù)反映行為背后的規(guī)律,緊抓主要矛盾就是找尋規(guī)律的捷徑。大家都知道,挖掘有效的入模特征是數(shù)據(jù)建模的難點(diǎn)。一旦我們了解了分析課題的主要矛盾,這個(gè)難點(diǎn)就迎刃而解了。下面講解如何使用這個(gè)框架進(jìn)行分析。
首先舉3個(gè)例子。
- 信用評(píng)分模型中,是否逾期是被預(yù)測(cè)變量,而解釋變量中經(jīng)常出現(xiàn)的收入穩(wěn)定性、職業(yè)穩(wěn)定性、家庭穩(wěn)定性、個(gè)人社會(huì)資本都是在度量客戶(hù)違約成本。信用歷史既是被解釋變量的滯后項(xiàng),也能反映違約成本。收益會(huì)用貸存比、貸收比、首付占比等指標(biāo)來(lái)衡量。
- 申請(qǐng)欺詐模型的標(biāo)簽往往是客觀存在的。入模特征以反映異常為主,比如異常高的收入、異常高的學(xué)歷、異常密集的關(guān)系網(wǎng)絡(luò)等。這背后隱藏著統(tǒng)一的成本-收益分析框架。之所以會(huì)顯示異常,是因?yàn)樵旒偈怯谐杀镜模庞每ㄉ暾?qǐng)欺詐者知道收入證明造假可以獲得更高的信用額度,但是由于其居住地、職業(yè)和學(xué)歷沒(méi)有造假,因此按照這三個(gè)維度對(duì)其收入進(jìn)行標(biāo)準(zhǔn)化之后很容易發(fā)現(xiàn)其收入異常。這可以說(shuō)是公開(kāi)的秘密,因?yàn)樾庞每òl(fā)放公司會(huì)根據(jù)造假成本對(duì)非可靠申請(qǐng)者進(jìn)行授信,使得欺詐者無(wú)利可圖。
- 運(yùn)營(yíng)優(yōu)化模型比如資產(chǎn)組合的持倉(cāng)問(wèn)題,其收益是資產(chǎn)的收益率,而成本是該資產(chǎn)市場(chǎng)價(jià)格的波動(dòng)率。建模人員需要選擇收益-成本最優(yōu)的組合。
2. 以分析主體和客體為視角
在數(shù)據(jù)挖掘建模中,定義標(biāo)簽是主體視角。比如營(yíng)銷(xiāo)預(yù)測(cè)模型中客戶(hù)是否響應(yīng),是建模人員自己定的規(guī)則,這個(gè)規(guī)則有可能是收到營(yíng)銷(xiāo)短信后三天內(nèi)注冊(cè)賬號(hào)并產(chǎn)生訂單。
在構(gòu)建入模的特征集時(shí)需要采用客體視角,比如手機(jī)銀行的營(yíng)銷(xiāo)響應(yīng)模型中,入模的特征應(yīng)該反映客體的成本-收益的變量,比如年齡反映的是使用手機(jī)銀行和去實(shí)體渠道的成本。
當(dāng)建模人員意識(shí)到標(biāo)簽是自己主觀臆斷的時(shí)候,便會(huì)對(duì)該標(biāo)簽的選擇更用心;當(dāng)意識(shí)到入模的特征來(lái)自客體時(shí),才會(huì)從客體的視角出發(fā)更高效地構(gòu)建特征集。
3. 構(gòu)建全模型生命周期工作模板
我們?cè)贑RIP-DM和SEMMA的基礎(chǔ)上提出“高質(zhì)量數(shù)據(jù)挖掘模型開(kāi)發(fā)七步法”,如圖1-19所示。
前三步是蓄勢(shì)階段,更多的是從業(yè)務(wù)人員、數(shù)據(jù)中吸收經(jīng)驗(yàn)并形成感知。制作特征、變量處理和建立模型階段是豐富特征、尋找有效模型的階段,需要通過(guò)各種手段探查到最有效的特征和精度最高的模型。最后是模型輸出階段,選出的模型不但精度高,還要穩(wěn)定性強(qiáng)。
▲圖1-19 業(yè)務(wù)人員的業(yè)務(wù)表述
關(guān)于作者:趙仁乾,現(xiàn)就職于某知名500強(qiáng)外資企業(yè)的創(chuàng)新實(shí)驗(yàn)室,從事數(shù)據(jù)治理、數(shù)據(jù)平臺(tái)開(kāi)發(fā)、AI應(yīng)用等工作,研究方向包括數(shù)字化運(yùn)營(yíng)、知識(shí)圖譜等。
田建中,現(xiàn)就職于某大型商業(yè)銀行大數(shù)據(jù)管理部,對(duì)數(shù)據(jù)挖掘在營(yíng)銷(xiāo)中的應(yīng)用有深入研究。
葉本華,現(xiàn)某咨詢(xún)公司大數(shù)據(jù)總監(jiān),主要從事企業(yè)級(jí)數(shù)據(jù)治理、數(shù)據(jù)倉(cāng)庫(kù)(大數(shù)據(jù)平臺(tái))建設(shè)、數(shù)據(jù)中臺(tái)以及數(shù)據(jù)智能應(yīng)用場(chǎng)景和模型設(shè)計(jì)相關(guān)工作。
常國(guó)珍,曾任畢馬威咨詢(xún)大數(shù)據(jù)總監(jiān),擁有近20年數(shù)據(jù)挖掘、精益數(shù)據(jù)治理、數(shù)字化運(yùn)營(yíng)咨詢(xún)經(jīng)驗(yàn),是金融信用風(fēng)險(xiǎn)、反欺詐和反洗錢(qián)算法領(lǐng)域的專(zhuān)家。
本文摘編自《金融商業(yè)算法建模:基于Python和SAS》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111692775)