導讀:數據挖掘是一種發現知識的手段。數據挖掘要求數據分析師通過合理的方法,從數據中獲取與挖掘項目相關的知識。
作者:趙仁乾 田建中 葉本華 常國珍
來源:華章科技
數據挖掘是一個多學科交叉的產物,涉及統計學、數據庫、機器學習、人工智能及模式識別等多種學科,如圖1-4所示。
▲圖1-4 數據挖掘
01 數據挖掘方法分類介紹
數據挖掘方法按照來源進行分類顯得過于龐雜,而且不便于理解和記憶。按照其目的,將數據挖掘方法分為預測性和描述性兩大類,如下所示。
- 目的:預測性
- 定義:有監督學習,分類模型,用一個或多個自變量預測因變量的值 舉例:客戶是否會違約是一個因變量,可以根據客戶的性別、年齡、收入、職位、經濟狀況、歷史信用狀況等因素進行預測
- 主要算法:決策樹、線性回歸、邏輯回歸、支持向量機、神經網絡、判別分析等
- 目的:描述性
- 定義:無監督學習,分析具有多個屬性的數據集,找出潛在的模式,沒有因變量
- 舉例:觀察個體之間的相似程度,如根據年齡、性別、收入等因素進行客戶細分。根據客戶對多個產品的購買情況發現產品之間的相關性
- 主要算法:聚類、關聯分析、因子分析、主成分分析、社交網絡分析等
1. 預測性——有監督學習
預測性分析指的是用一個或多個自變量預測因變量的值,以歷史數據為訓練集,從中學習并建立模型,然后將此模型運用到當前數據上,推測結果。以客戶違約作為預測性分析的研究場景,客戶是否會違約是一個因變量,我們可以根據客戶的性別、年齡、收入、職位、經濟狀況、歷史信用狀況等進行預測。
根據SAS工程師總結的商業案例,分類模型可分為三大類。
- 決策類,如銀行卡欺詐檢測、人體生物特征識別。
- 等級評定類,如客戶信用評分。
- 估計類,如違約損失準備金估計、收入預測等。
有些數據挖掘算法在某類應用上表現得更好,如最近鄰域法、支持向量機在決策類應用上表現良好,但是在解決排序類和估計類問題時表現一般。而有些數據挖掘算法的表現比較穩定,如決策樹和邏輯回歸對三類問題都適用,但是在決策類問題上沒有在后兩類問題上表現好。
2. 描述性——無監督學習
描述性分析指的是分析具有多個屬性的數據集,找出潛在的模式并進行分類。描述性分析是一種無監督的學習過程。區別于有監督的學習,無監督學習算法沒有參照指標,需要結合業務經驗來判斷數據分類是否正確。無監督學習比較耗時,而且對建模人員的業務素質要求較高。
描述性分析主要應用于以下兩種場景:第一種是觀察個體之間的相似程度,如根據年齡、性別、收入等進行客戶細分;第二種是根據客戶購買的多個產品發現產品之間的相關性,主要算法包括樣本聚類、關聯規則等。
02 數據挖掘方法論
下面講解最為常用的CRISP-DM方法論和SEMMA方法論。
1. CRISP-DM方法論
CRISP-DM方法論由NCR、Clementine、OHRA和Daimler-Benz的數據挖掘項目總結而來,并被SPSS公司大力推廣。CRISP-DM方法論將數據挖掘項目的生命周期分為6個階段,分別是商業理解、數據理解、數據準備、建模、評估和準備工作,如圖1-16所示。
▲圖1-16 CRISP-DM方法論
在實際項目進行過程中,由于使用者的目標背景和興趣不同,有可能打亂各階段順承的關系。
圖1-16呈現了CRISP-DM方法執行流程的6個階段。各個階段的順序不是保持不變的,有時需要在某個階段向前或向后移動,這取決于每個階段的結果和下一個階段的具體任務。箭頭指出了各個階段之間的關聯。
在圖1-16中,最外圈的循環表示數據挖掘本身的循環特征。數據挖掘是一項持續的工作。在上一個流程和解決方案中獲得的經驗與教訓,可以給下一個項目提供指導。下面簡要介紹每個階段的特點。
1)商業理解
該階段的特點是從商業角度理解項目的目標和要求,通過理論分析找出數據挖掘可操作問題,制訂實現目標的初步計劃。
2)數據理解
該階段開始于原始數據的收集,然后是熟悉數據、標明數據質量問題、探索對數據的初步理解、發掘有趣的子集,以形成對探索關系的假設。
3)數據準備
該階段包括所有從原始的、未加工的數據構造數據挖掘所需信息的活動。數據準備任務可能被實施多次,而且沒有任何規定的順序。這些任務的主要目的是從源系統根據維度分析的要求,獲取所需要的信息,同時對數據進行轉換和清洗。
4)建模
該階段主要是選擇和應用各種建模技術,同時對參數進行校準,以達到最優值。通常,同一類數據挖掘問題會有多種建模技術。一些技術對數據格式有特殊的要求,因此常常需要返回到數據準備階段。
5)評估
在模型最后發布前,根據商業目標評估模型和檢查模型建立的各個步驟。此階段的關鍵目的是,確認重要的商業問題都得到充分考慮。
6)準備工作
模型完成后,由模型使用者(客戶)根據當時的背景和目標完成情況,決定如何在現場使用模型。
2. SEMMA方法論
除了CRISP-DM方法論,SAS公司還提出了SEMMA方法論。其與CRISP-DM方法論內容十分相似,流程為定義業務問題、環境評估、數據準備、循環往復的挖掘過程、上線發布、檢視。其中循環往復的挖掘過程包含探索、修改、建模、評估和抽樣5個步驟,如圖1-17所示。
▲圖1-17 SEMMA方法論
1)抽樣
該步驟涉及數據采集、數據合并與抽樣操作,目的是構造分析時用到的數據。分析人員將根據維度分析獲得的結果作為分析的依據,將散落在公司內部與外部的數據進行整合。
2)探索
這個步驟有兩個任務,第一個是對數據質量的探索。
變量質量方面涉及錯誤值(年齡=-30)、不恰當(客戶的某些業務指標為缺失值,實際上是沒有這個業務,值應該為“0”)、缺失值(沒有客戶的收入信息)、不一致(收入單位為人民幣,而支出單位為美元)、不平穩(某些數據的均值變化過于劇烈)、重復(相同的交易被記錄兩次)和不及時(銀行客戶的財務數據更新滯后)等。
探索步驟主要解決錯誤的變量是否可以修改、是否可以使用的問題。比如,缺失值很多,平穩性、及時性很差的變量不能用于后續的數據分析,而缺失值較少的變量需要進行缺失值填補。
第二個是對變量分布形態的探索。
對變量分布形態的探索主要是對變量偏態和極端值進行探索。由于后續的統計分析大多是使用參數統計方法,這要求連續變量最好是對稱分布的,這就需要我們了解每個連續變量的分布情況,并制定好變量修改的方案。
3)修改
根據變量探索的結論,對數據質量問題和分布問題涉及的變量分別做修改。數據質量問題涉及的修改包括錯誤編碼改正、缺失值填補、單位統一等操作。變量分布問題涉及的修改包括函數轉換和標準化,具體的修改方法需要與后續的統計建模方法相結合。
4)建模
根據分析的目的選取合適的模型,這部分內容在1.3節已經做了詳細的闡述,這里不再贅述。
5)評估
這里指模型的樣本內驗證,即使用歷史數據對模型表現的優劣進行評估。比如,對有監督學習使用ROC曲線和提升度等技術指標評估模型的預測能力。
03 數據挖掘建模框架的3個原則
筆者提出了數據挖掘建模框架的3個原則,即以成本-收益分析為單一分析框架、以分析主體和客體為視角構建全模型生命周期工作模板,將紛繁多樣的數據挖掘應用主題歸納為3大分析范式和9大工作模板,如圖1-18所示。
▲圖1-18 3大分析范式和9大工作模板
1. 以成本-收益分析為單一分析框架
世上萬事萬物都具有矛盾的兩面性,金融數據挖掘建模力圖通過數據反映行為背后的規律,緊抓主要矛盾就是找尋規律的捷徑。大家都知道,挖掘有效的入模特征是數據建模的難點。一旦我們了解了分析課題的主要矛盾,這個難點就迎刃而解了。下面講解如何使用這個框架進行分析。
首先舉3個例子。
- 信用評分模型中,是否逾期是被預測變量,而解釋變量中經常出現的收入穩定性、職業穩定性、家庭穩定性、個人社會資本都是在度量客戶違約成本。信用歷史既是被解釋變量的滯后項,也能反映違約成本。收益會用貸存比、貸收比、首付占比等指標來衡量。
- 申請欺詐模型的標簽往往是客觀存在的。入模特征以反映異常為主,比如異常高的收入、異常高的學歷、異常密集的關系網絡等。這背后隱藏著統一的成本-收益分析框架。之所以會顯示異常,是因為造假是有成本的,信用卡申請欺詐者知道收入證明造假可以獲得更高的信用額度,但是由于其居住地、職業和學歷沒有造假,因此按照這三個維度對其收入進行標準化之后很容易發現其收入異常。這可以說是公開的秘密,因為信用卡發放公司會根據造假成本對非可靠申請者進行授信,使得欺詐者無利可圖。
- 運營優化模型比如資產組合的持倉問題,其收益是資產的收益率,而成本是該資產市場價格的波動率。建模人員需要選擇收益-成本最優的組合。
2. 以分析主體和客體為視角
在數據挖掘建模中,定義標簽是主體視角。比如營銷預測模型中客戶是否響應,是建模人員自己定的規則,這個規則有可能是收到營銷短信后三天內注冊賬號并產生訂單。
在構建入模的特征集時需要采用客體視角,比如手機銀行的營銷響應模型中,入模的特征應該反映客體的成本-收益的變量,比如年齡反映的是使用手機銀行和去實體渠道的成本。
當建模人員意識到標簽是自己主觀臆斷的時候,便會對該標簽的選擇更用心;當意識到入模的特征來自客體時,才會從客體的視角出發更高效地構建特征集。
3. 構建全模型生命周期工作模板
我們在CRIP-DM和SEMMA的基礎上提出“高質量數據挖掘模型開發七步法”,如圖1-19所示。
前三步是蓄勢階段,更多的是從業務人員、數據中吸收經驗并形成感知。制作特征、變量處理和建立模型階段是豐富特征、尋找有效模型的階段,需要通過各種手段探查到最有效的特征和精度最高的模型。最后是模型輸出階段,選出的模型不但精度高,還要穩定性強。
▲圖1-19 業務人員的業務表述
關于作者:趙仁乾,現就職于某知名500強外資企業的創新實驗室,從事數據治理、數據平臺開發、AI應用等工作,研究方向包括數字化運營、知識圖譜等。
田建中,現就職于某大型商業銀行大數據管理部,對數據挖掘在營銷中的應用有深入研究。
葉本華,現某咨詢公司大數據總監,主要從事企業級數據治理、數據倉庫(大數據平臺)建設、數據中臺以及數據智能應用場景和模型設計相關工作。
常國珍,曾任畢馬威咨詢大數據總監,擁有近20年數據挖掘、精益數據治理、數字化運營咨詢經驗,是金融信用風險、反欺詐和反洗錢算法領域的專家。
本文摘編自《金融商業算法建模:基于Python和SAS》,經出版方授權發布。(ISBN:9787111692775)