日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

要解決一個(gè)機(jī)器學(xué)習(xí)問(wèn)題,我們不能僅僅通過(guò)將算法應(yīng)用到提供的數(shù)據(jù)上。比如.fit() 。我們首先需要構(gòu)建一個(gè)數(shù)據(jù)集。

將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)集的任務(wù)稱為特征工程。

例如,預(yù)測(cè)客戶是否堅(jiān)持訂閱特定產(chǎn)品。這將有助于進(jìn)一步提高產(chǎn)品或用戶體驗(yàn),還有助于業(yè)務(wù)增長(zhǎng)。

原始數(shù)據(jù)將包含每個(gè)客戶的詳細(xì)信息,如位置、年齡、興趣、在產(chǎn)品上花費(fèi)的平均時(shí)間、客戶續(xù)訂訂閱的次數(shù)。這些細(xì)節(jié)是數(shù)據(jù)集的特性。創(chuàng)建數(shù)據(jù)集的任務(wù)是從原始數(shù)據(jù)中了解有用的特性,并從對(duì)結(jié)果有影響的現(xiàn)有特性中創(chuàng)建新特性,或者操作這些特性,使它們可以用于建模或增強(qiáng)結(jié)果。整個(gè)過(guò)程被簡(jiǎn)稱為特性工程。

有多種方法可以實(shí)現(xiàn)特征工程。根據(jù)數(shù)據(jù)和應(yīng)用程序不同來(lái)分類。

在本文中,我們將了解為什么使用特征工程和特征工程的各種方法。

為什么使用特征工程?

特征工程出現(xiàn)在機(jī)器學(xué)習(xí)工作流程的最初階段。特性工程是決定結(jié)果成敗的最關(guān)鍵和決定性的因素。

簡(jiǎn)介機(jī)器學(xué)習(xí)中的特征工程

 

特征工程在機(jī)器學(xué)習(xí)工作流程中的地位

許多Kaggle比賽都是通過(guò)基于問(wèn)題創(chuàng)建適當(dāng)?shù)墓δ芏@勝的。例如,在一場(chǎng)汽車轉(zhuǎn)售比賽中,獲勝者的解決方案包含一個(gè)分類特征——普通汽車的顏色,稀有汽車的顏色。這一特性增加了汽車轉(zhuǎn)售的預(yù)測(cè)效果。既然我們已經(jīng)理解了特性工程的重要性,現(xiàn)在讓我們深入研究用于實(shí)現(xiàn)的各種標(biāo)準(zhǔn)方法。

現(xiàn)在讓我們了解如何實(shí)現(xiàn)特性工程。以下是廣泛使用的基本特征工程技術(shù),

· 編碼

· 分箱

· 歸一化

· 標(biāo)準(zhǔn)化

· 處理缺失值

· 數(shù)據(jù)歸責(zé)技術(shù)

編碼

有些算法只處理數(shù)值特征。但是,我們可能有其他數(shù)據(jù),比如在我們的例子中"用戶觀看的內(nèi)容類型"。為了轉(zhuǎn)換這種數(shù)據(jù),我們使用編碼。

One-Hot編碼

將分類數(shù)據(jù)轉(zhuǎn)換為列,并將每個(gè)惟一的類別作為列值,這是一種One-Hot編碼。

下面是實(shí)現(xiàn)One-Hot編碼的代碼片段,

encoded_columns = pd.get_dummies(data['column'])
data = data.join(encoded_columns).drop('column', axis=1)

當(dāng)分類特征具有不那么獨(dú)特的類別時(shí),這種方法被廣泛使用。我們需要記住,當(dāng)分類特征的獨(dú)特類別增加時(shí),維度也會(huì)增加。

標(biāo)簽編碼

通過(guò)為每個(gè)類別分配一個(gè)唯一的整數(shù)值,將分類數(shù)據(jù)轉(zhuǎn)換為數(shù)字,稱為標(biāo)簽編碼。

比如"喜劇"為0,"恐怖"為1,"浪漫"為2。但是,這樣劃分可能會(huì)使分類具有不必要的一般性。

當(dāng)類別是有序的(特定的順序)時(shí),可以使用這種技術(shù),比如3代表"優(yōu)秀",2代表"好",1代表"壞"。在這種情況下,對(duì)類別進(jìn)行排序是有用的。

下面是要實(shí)現(xiàn)標(biāo)簽編碼器的代碼片段。

from sklearn.preprocessing import ColumnTransformer
labelencoder = ColumnTransformer()
x[:, 0] = labelencoder.fit_transform(x[:, 0])

分箱

另一種相反的情況,在實(shí)踐中很少出現(xiàn),當(dāng)我們有一個(gè)數(shù)字特征,但我們需要把它轉(zhuǎn)換成分類特征。分箱(也稱為bucketing)是將一個(gè)連續(xù)的特性轉(zhuǎn)換成多個(gè)二進(jìn)制特性的過(guò)程,通常基于數(shù)值。

簡(jiǎn)介機(jī)器學(xué)習(xí)中的特征工程

 

將數(shù)值數(shù)據(jù)分成4、8、16個(gè)箱子

#Numerical Binning Example
Value      Bin       
0-30   ->  Low       
31-70  ->  Mid       
71-100 ->  High#Categorical Binning Example
Value      Bin       
Germany->  Europe      
Italy  ->  Europe       
India  ->  Asia
Japan  ->  Asia

分箱的主要目的是為了使模型更健壯,防止過(guò)擬合,但這對(duì)性能有一定的影響。每次我們丟棄信息,我們就會(huì)犧牲一些信息。

正則化

歸一化(也稱為最小最大歸一化)是一種縮放技術(shù),當(dāng)應(yīng)用它時(shí),特征將被重新標(biāo)定,使數(shù)據(jù)落在[0,1]的范圍內(nèi)。

特征的歸一化形式可通過(guò)如下方法計(jì)算:

簡(jiǎn)介機(jī)器學(xué)習(xí)中的特征工程

 

歸一化的數(shù)學(xué)公式。

這里' x '是原始值而' x '是歸一化值。

簡(jiǎn)介機(jī)器學(xué)習(xí)中的特征工程

 


簡(jiǎn)介機(jī)器學(xué)習(xí)中的特征工程

 

原始數(shù)據(jù)、歸一化數(shù)據(jù)的散點(diǎn)圖

在原始數(shù)據(jù)中,alcohol在[11,15],malic在[0,6]。歸一化數(shù)據(jù)中,alcohol在[0,1]之間,malic在[0,1]之間。

標(biāo)準(zhǔn)化

標(biāo)準(zhǔn)化(也叫Z-score歸一化)是一種縮放技術(shù),當(dāng)它被應(yīng)用時(shí),特征會(huì)被重新調(diào)整,使它們具有標(biāo)準(zhǔn)正態(tài)分布的特性,即均值為0,標(biāo)準(zhǔn)差為=1;其中,μ 為平均值(average),σ為與平均值的標(biāo)準(zhǔn)差。

計(jì)算樣本的標(biāo)準(zhǔn)分?jǐn)?shù)(也稱z分?jǐn)?shù))如下:

簡(jiǎn)介機(jī)器學(xué)習(xí)中的特征工程

 

標(biāo)準(zhǔn)化的數(shù)學(xué)公式

這將特征在[-1,1]之間進(jìn)行縮放

簡(jiǎn)介機(jī)器學(xué)習(xí)中的特征工程

 


簡(jiǎn)介機(jī)器學(xué)習(xí)中的特征工程

 

原始數(shù)據(jù)、標(biāo)準(zhǔn)化數(shù)據(jù)的散點(diǎn)圖

在原始數(shù)據(jù)中,alcohol在[11,15],malic在[0,6]。在標(biāo)準(zhǔn)化數(shù)據(jù)中,二者居中于0。

處理缺失值

數(shù)據(jù)集可能包含一些缺失的值。這可能是在輸入數(shù)據(jù)的失誤或出于保密方面的考慮。無(wú)論原因是什么,減少它對(duì)結(jié)果的影響是至關(guān)重要的。下面是處理缺失值的方法,

· 簡(jiǎn)單地刪除那些缺少值的數(shù)據(jù)點(diǎn)(當(dāng)數(shù)據(jù)很大而缺少值的數(shù)據(jù)點(diǎn)較少時(shí),這樣做更可取)

· 使用處理缺失值的算法(取決于實(shí)現(xiàn)該算法的庫(kù))

· 使用數(shù)據(jù)注入技術(shù)(取決于應(yīng)用程序和數(shù)據(jù))

數(shù)據(jù)歸責(zé)技術(shù)

數(shù)據(jù)填充就是簡(jiǎn)單地用一個(gè)不會(huì)影響結(jié)果的值替換缺失的值。

對(duì)于數(shù)值特征,缺失的值可以替換為:

· 0或默認(rèn)值

#Filling all missing values with 0
data = data.fillna(0)

· 重復(fù)率最高的值

#Filling missing values with mode of the columns
data = data.fillna(data.mode())

· 該特征的均值(受離群值影響,可以用特征的中值替換)

#Filling missing values with medians of the columns
data = data.fillna(data.median())

對(duì)于分類特征,缺失的值可以替換為:

· 重復(fù)率最高的值

#Most repeated value function for categorical columns
data['column_name'].fillna(data['column_name'].value_counts()
.idxmax(), inplace=True)

· "其他"或任何新命名的類別,這意味著對(duì)數(shù)據(jù)點(diǎn)的估算

在本文中,我們了解了廣泛使用的基本特性工程技術(shù)。我們可以根據(jù)數(shù)據(jù)和應(yīng)用程序創(chuàng)建新特性。但是,如果數(shù)據(jù)很小而且質(zhì)量不好,這些方法可能就沒(méi)有用了。

作者:Ramya Vidiyala

deephub翻譯組:孟翔杰

分享到:
標(biāo)簽:機(jī)器 學(xué)習(xí)
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定