自學(xué)B站課程筆記總結(jié):
在風(fēng)投領(lǐng)域,如何為客群分群呢?有些時(shí)候是有標(biāo)簽的。如:客戶(hù)是否有過(guò)欺詐、非欺詐的行為。
另外一種情況,則需要通過(guò)其他類(lèi)型的特征進(jìn)行判斷了,如消費(fèi)記錄、還款記錄、提現(xiàn)記錄等。
例如,我們可以人為定義高風(fēng)險(xiǎn)客戶(hù),低風(fēng)險(xiǎn)客戶(hù)、高消費(fèi)客戶(hù)、低消費(fèi)客戶(hù)。
說(shuō)到聚類(lèi),就要提簇的概念,不重疊,也不覆蓋的。通過(guò)定義距離,來(lái)度量相似的程度,米尼科夫斯基距離。適合數(shù)值型的變量。

距離公式

類(lèi)別性變量

類(lèi)別性變量轉(zhuǎn)化為數(shù)值型變量

簇間距

數(shù)據(jù)預(yù)處理方法
如果有一些人的收入在100萬(wàn),相對(duì)比較少的時(shí)候,用歸一化的處理效果并不好,分母還是特別高。除此之外,新的樣本還會(huì)出現(xiàn)比0小,或者比1大的結(jié)果。

衡量聚類(lèi)效果好壞

計(jì)算誤差或距離的方法
如果聚類(lèi)模型做的好,則樣本距離簇的整體最好。貪心策略指每一步都朝著更好的方向。


先用層次聚類(lèi),選出的精度比較好。



假設(shè)少量樣本覆蓋了各種情況。

