多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國(guó)內(nèi)最全I(xiàn)T社區(qū)平臺(tái) 聯(lián)系我們 | 收藏本站
阿里云優(yōu)惠2
您當(dāng)前位置:首頁(yè) > 服務(wù)器 > 一些常見(jiàn)的特征選擇方法

一些常見(jiàn)的特征選擇方法

來(lái)源:程序員人生   發(fā)布時(shí)間:2016-11-10 09:10:58 閱讀次數(shù):3471次

現(xiàn)實(shí)中產(chǎn)生的特點(diǎn)維度可能很多,特點(diǎn)質(zhì)量良莠不齊,不但會(huì)增加訓(xùn)練進(jìn)程的時(shí)間,也可能會(huì)下降模型質(zhì)量。因此,提取出最具代表性的1部份特點(diǎn)來(lái)參與訓(xùn)練就很重要了。
通常有特點(diǎn)抽取和特點(diǎn)選擇兩種方法。這里分別介紹1下。

特點(diǎn)抽取

特點(diǎn)抽取中最多見(jiàn)確當(dāng)屬PCA了。

PCA

對(duì)特點(diǎn)之間存在正交關(guān)系,數(shù)據(jù)滿足高斯散布或指數(shù)散布的數(shù)據(jù),作線性變換,使用方差、協(xié)方差去噪,生成新的主元,接下來(lái)按重要性排序后取少數(shù)參與訓(xùn)練,到達(dá)減少特點(diǎn)的目的。
這里最重要的思想是把多個(gè)特點(diǎn)進(jìn)行線性變換,使用較少的特點(diǎn)表達(dá)原來(lái)多個(gè)特點(diǎn)的主要特點(diǎn)。
由于現(xiàn)實(shí)中獲得的數(shù)據(jù)絕大部份滿足高斯散布,所以PCA利用極廣。

人臉辨認(rèn)利用
將多幅同1人的人臉圖象進(jìn)行PCA變換,找到代表人臉的主要特點(diǎn)模型。當(dāng)有新的人臉需要辨認(rèn)時(shí),進(jìn)行相同變換,并與已存在的人臉特點(diǎn)模型進(jìn)行匹配。

原理講授參考文檔
http://www.360doc.com/content/10/0318/20/1024901_19297267.shtml

R利用方法

//PCA方案1:用SVD實(shí)現(xiàn) pca1<-prcomp(USArrests, scale = TRUE) //PCA方案2:采取線性代數(shù)中的實(shí)對(duì)稱(chēng)均值的對(duì)角化實(shí)現(xiàn) pca2<-princomp(USArrests,cor=T) summary(pc1)

summary的輸出為:

Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.5749 0.9949 0.59713 0.41645
Proportion of Variance 0.6201 0.2474 0.08914 0.04336
Cumulative Proportion 0.6201 0.8675 0.95664 1.00000

上面3行分別為標(biāo)準(zhǔn)差,方差貢獻(xiàn)率,累計(jì)方差貢獻(xiàn)率。
根據(jù)上面的數(shù)據(jù),至PC3時(shí),累計(jì)方差貢獻(xiàn)率已達(dá)0.95664,因此只取前3個(gè)特點(diǎn)已足夠。

特點(diǎn)選擇

特點(diǎn)選擇主要有Filter、Wrapper、Embedded等幾種不同的思路。這里主要寫(xiě)寫(xiě)Filter。

卡方檢驗(yàn)

在有不同特點(diǎn)值的影響下,對(duì)兩組目標(biāo)變量作卡方檢驗(yàn),計(jì)算x2值,看兩組數(shù)據(jù)是不是有統(tǒng)計(jì)學(xué)上的明顯差異。

這里給出R中的代碼例子。

1、使用卡方檢驗(yàn)判斷患者醫(yī)治方式對(duì)醫(yī)治效果的影響

library(vcd)//加載vcd數(shù)據(jù)包 //準(zhǔn)備進(jìn)行卡檢驗(yàn)所需的數(shù)據(jù),提取醫(yī)治方式與醫(yī)治效果 mytable<-xtabs(~Treatment+Improved,data=Arthritis) //對(duì)mytable進(jìn)行卡方檢驗(yàn) chisq.test(mytable)

以下是輸出結(jié)果

Pearson's Chi-squared test

data: mytable
X-squared = 13.055, df = 2, p-value = 0.001463

p < 0.01,可以判斷患者接受的醫(yī)治方式對(duì)醫(yī)治效果有明顯影響。

2、使用卡方檢驗(yàn)判斷患者的性別對(duì)醫(yī)治效果的影響

library(vcd)//加載vcd數(shù)據(jù)包 //準(zhǔn)備進(jìn)行卡檢驗(yàn)所需的數(shù)據(jù),提取患者性別與醫(yī)治效果 mytable<-xtabs(~Improved+Sex,data=Arthritis) //對(duì)mytable進(jìn)行卡方檢驗(yàn) chisq.test(mytable)

以下是輸出結(jié)果

Pearson's Chi-squared test

data: mytable
X-squared = 4.8407, df = 2, p-value = 0.08889

p > 0.05,可以判斷患者的性別對(duì)醫(yī)治效果無(wú)明顯影響。

上面的實(shí)驗(yàn)中,p值表示不同列之間的相互獨(dú)立的幾率。
在1中,由于p值很小,所以謝絕了醫(yī)治方式與醫(yī)治效果之間相互獨(dú)立的假定。
在2中,由于p值不夠小,所以沒(méi)法謝絕性別與醫(yī)治效果之間相互獨(dú)立的假定。

WOE、IV

預(yù)測(cè)目標(biāo)變量所需的信息總量包含在所有的特點(diǎn)中,某個(gè)特點(diǎn)所包含信息量(IV值)越大,則越重要。
IV值的計(jì)算以WOE為基礎(chǔ)。
詳細(xì)的概念、原理及公式可以參考這篇文章
數(shù)據(jù)發(fā)掘模型中的IV和WOE詳解:
http://www.17bigdata.com/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E6%A8%A1%E5%9E%8B%E4%B8%AD%E7%9A%84iv%E5%92%8Cwoe%E8%AF%A6%E8%A7%A3.html

接下來(lái)看看R中的利用

//安裝和加載woe包。 install.packages("woe") library(woe) //計(jì)算數(shù)據(jù)集mtcars中,cyl這1列對(duì)目標(biāo)變量am的woe值和iv值。 woe(Data=mtcars,"cyl",FALSE,"am",10,Bad=0,Good=1)

以下是輸出結(jié)果

BIN BAD GOOD TOTAL BAD% GOOD% TOTAL% WOE IV BAD_SPLIT GOOD_SPLIT
1 4 3 8 11 0.158 0.615 0.344 135.9 0.621 0.273 0.727
2 6 4 3 7 0.211 0.231 0.219 9.1 0.002 0.571 0.429
3 8 12 2 14 0.632 0.154 0.438 ⑴41.2 0.675 0.857 0.143

//計(jì)算數(shù)據(jù)集mtcars中,mpg這1列對(duì)目標(biāo)變量am的woe值和iv值。 woe(Data=mtcars,"mpg",TRUE,"am",10,Bad=0,Good=1)

以下是輸出結(jié)果

BIN MIN MAX BAD GOOD TOTAL BAD% GOOD% TOTAL% WOE IV BAD_SPLIT GOOD_SPLIT
1 1 10.4 14.3 4 0 4 0.211 0.000 0.125 -Inf Inf 1.00 0.00
2 2 14.7 15.2 3 1 4 0.158 0.077 0.125 ⑺1.9 0.058 0.75 0.25
3 3 15.5 17.3 3 1 4 0.158 0.077 0.125 ⑺1.9 0.058 0.75 0.25
4 4 17.8 19.2 4 0 4 0.211 0.000 0.125 -Inf Inf 1.00 0.00
5 5 19.2 21.0 1 3 4 0.053 0.231 0.125 147.2 0.262 0.25 0.75
6 6 21.4 22.8 2 2 4 0.105 0.154 0.125 38.3 0.019 0.50 0.50
7 7 22.8 27.3 2 2 4 0.105 0.154 0.125 38.3 0.019 0.50 0.50
8 8 30.4 33.9 0 4 4 0.000 0.308 0.125 Inf Inf 0.00 1.00

信息熵與信息增益

信息的熵,表示不肯定性。
在1個(gè)數(shù)據(jù)集中,先對(duì)目標(biāo)分類(lèi)變量進(jìn)行熵的計(jì)算,再對(duì)目標(biāo)分類(lèi)變量按某1個(gè)特點(diǎn)值進(jìn)行分組落后行1次熵的計(jì)算,兩次熵值之差就是該特點(diǎn)值的信息增益。特點(diǎn)值的信息增益越大,表示該特點(diǎn)值的重要性越高。
這里有1個(gè)條件,即,目標(biāo)變量是1個(gè)分類(lèi)變量。

這里使用R語(yǔ)言代碼作個(gè)說(shuō)明
我原來(lái)寫(xiě)過(guò)1篇老太太買(mǎi)菜與最大熵模型
1個(gè)老太太去買(mǎi)菜,市場(chǎng)上可供選擇的東西有以下幾種:西紅柿(1)、白菜(2)、豆腐(3)、咸菜(4)、饅頭(5)、西瓜(6)、櫻桃(7)、蘋(píng)果(8)、豬肉(10)、牛肉(11)、羊肉(12)。不給出任何其它信息之前,我們沒(méi)法判斷老太太今天會(huì)買(mǎi)甚么菜。此時(shí)熵值最大,為

install.packages("entropy") library(entropy) y<-c(1,2,3,4,5,6,7,8,9,10,11,12) //使用max likehood方式計(jì)算熵值 entropy(y,method = "ML")//輸出值為:2.327497

接下來(lái),在給出4條老太太買(mǎi)菜習(xí)慣的信息后,我們發(fā)現(xiàn)老太太今天只可能會(huì)買(mǎi)櫻桃或西瓜。
此時(shí)不肯定性變小,熵值變小,為:

y<-c(6,7) entropy(y,method = "ML")//輸出值為:0.6901857

因此,4條老太太買(mǎi)菜習(xí)慣的信息增閃為:2.327497-0.6901857=1.637311

Gini指數(shù)

這個(gè)指標(biāo)同信息增益原理類(lèi)似,哪一個(gè)特點(diǎn)對(duì)Gini指數(shù)貢獻(xiàn)大,哪一個(gè)特點(diǎn)重要。

給出R語(yǔ)言實(shí)現(xiàn)
不給出任何信息時(shí),Gini指數(shù)為:

install.packages("ineq") library(ineq) y<-c(1,2,3,4,5,6,7,8,9,10,11,12) Gini(y)//輸出結(jié)果為:0.3055556

給出4個(gè)買(mǎi)菜習(xí)慣信息后,Gini指數(shù)為:

y<-c(6,7) Gini(y)//輸出結(jié)果為:0.03846154

相干性

數(shù)據(jù)集中的兩個(gè)特點(diǎn)之間存在共線性,即較強(qiáng)的線性關(guān)系,就存在冗余,在終究訓(xùn)練時(shí)只使用其中1個(gè)就足夠。

這里列出1些衡量相干性的值。

1、協(xié)方差與相干系數(shù)。
這兩個(gè)值描寫(xiě)的是兩個(gè)變量與各自期望值之間的誤差是不是變動(dòng)1致,它們之間可以相互轉(zhuǎn)換,1般使用相干系數(shù)較多。相干系數(shù)范圍為[⑴,1],其中⑴代表完全負(fù)相干,1代表完全正相干,0代表完全獨(dú)立。

這里列出R利用方法

//計(jì)算兩列數(shù)據(jù)之間的相干系數(shù) cor(mtcars$cyl,mtcars$disp,method = "pearson")//輸出值為:0.9020329,表示兩列數(shù)據(jù)正相干 cor(mtcars$mpg,mtcars$disp,method = "pearson")//輸出值為:-0.8475514,表示負(fù)相干 //計(jì)算兩列數(shù)據(jù)之間的協(xié)方差 cov(mtcars$cyl,mtcars$disp,method = "pearson")//輸出值為:199.6603 cov(mtcars$mpg,mtcars$disp,method = "pearson")//輸出值為:⑹33.0972

method取值有3種:
pearson:適用于連續(xù)變量,如分析血壓值和年齡的相干性。
spearman:適用于順序數(shù)據(jù),如分析數(shù)學(xué)和語(yǔ)言成績(jī)排名相干性。
kendall:適用于有序分類(lèi)變量,如分析疼痛級(jí)別分類(lèi)和病情嚴(yán)重程序分類(lèi)。

2、偏相干
當(dāng)數(shù)據(jù)集中的特點(diǎn)很多時(shí),兩個(gè)特點(diǎn)之間的相干性會(huì)遭到很多其它特點(diǎn)的影響。在排除掉其它特點(diǎn)的影響以后,計(jì)算出來(lái)的兩個(gè)特點(diǎn)的相干性系數(shù),叫偏相干系數(shù)。
在特點(diǎn)z固定的條件下,分析x、y的相干性,得到的是1階偏相干系數(shù),在特點(diǎn)z、q固定的條件下,得到的是2階偏相干系數(shù)。

這里給出R利用

library(ggm) data("marks")//加載marks數(shù)據(jù)集 var(marks)//計(jì)算marks數(shù)據(jù)集的方差矩陣 //計(jì)算固定analysis,statistics時(shí),vectors和algebra的2階偏相干系數(shù) pcor(c("vectors", "algebra", "analysis", "statistics"), var(marks))//輸出結(jié)果為:0.388203 pcor(c(2,3,4,5), var(marks))//與上1句代碼意義相同 //偏相干系數(shù)的顯著性檢驗(yàn),入?yún)⒎謩e為:偏相干系數(shù),固定變量個(gè)數(shù),樣本量 pcor.test(0.388203,2,dim(marks)[1])//輸出值p=0.0002213427,p<0.01,因此,在固定analysis,statistics時(shí),vectors和algebra兩個(gè)特點(diǎn)存在明顯偏相干性

Lasso

Lasso的基本思想是在回歸系數(shù)的絕對(duì)值之和小于1個(gè)常數(shù)的束縛條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴(yán)格等于0的回歸系數(shù),到達(dá)特點(diǎn)選擇的目的。

這里給出R中的利用例子

data(diabetes)//加載數(shù)據(jù)集diabetes //使用lasso進(jìn)行特點(diǎn)選擇 lars(diabetes$x,diabetes$y,type="lasso")

輸出結(jié)果為:

Call:
lars(x = diabetesx,y=diabetesy)
R-squared: 0.518
Sequence of LASSO moves:
bmi ltg map hdl sex glu tc tch ldl age hdl hdl
Var 3 9 4 7 2 10 5 8 6 1 ⑺ 7
Step 1 2 3 4 5 6 7 8 9 10 11 12

Var行即是lasso給出的特點(diǎn)選擇順序,Setp行即時(shí)順序編號(hào)。

以下方法可以得到各特點(diǎn)的多重共線性:

data<-lars(diabetes$x,diabetes$y) summary(data)

輸出結(jié)果為:

LARS/LASSO
Call: lars(x = diabetesx,y=diabetesy)
Df Rss Cp
0 1 2621009 453.7263
1 2 2510465 418.0322
2 3 1700369 143.8012
3 4 1527165 86.7411
4 5 1365734 33.6957
5 6 1324118 21.5052
6 7 1308932 18.3270
7 8 1275355 8.8775
8 9 1270233 9.1311
9 10 1269390 10.8435
10 11 1264977 11.3390
11 10 1264765 9.2668
12 11 1263983 11.0000

按data中Step行指定的順序,順次選取特點(diǎn),則Cp的值從上往下對(duì)應(yīng)變化,Cp值越小,表示回歸模型越精確。
如果我們?nèi)∏?個(gè)特點(diǎn),則cp值為86.7411。如果取前7個(gè)特點(diǎn),則Cp值為8.8775,到達(dá)最小。
因此,計(jì)算量允許的范圍內(nèi),取前7個(gè)特點(diǎn)進(jìn)行訓(xùn)練,得到的回歸模型最精確。如果要嚴(yán)格控制計(jì)算量,則取前3個(gè)特點(diǎn)便可。

參考文檔:
用R建立嶺回歸和lasso回歸
http://blog.csdn.net/jiabiao1602/article/details/39338181

總述

IV、信息增益、Gini增益主要用于單特點(diǎn)重要性評(píng)估。
Lasso主要用于超大范圍特點(diǎn)的降維挑選。

生活不易,碼農(nóng)辛苦
如果您覺(jué)得本網(wǎng)站對(duì)您的學(xué)習(xí)有所幫助,可以手機(jī)掃描二維碼進(jìn)行捐贈(zèng)
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關(guān)閉
程序員人生
主站蜘蛛池模板: 色聚网 | 性欧美videos高清精品 | 午夜影院免费看 | 日韩欧美精品在线观看 | 中文日韩欧美 | 最近中文字幕高清免费大全8 | 欧美亚洲国产成人不卡 | 日本r级在线中文在线播放 日本vs黑人hd | 亚洲在线观看一区二区 | 尤物网址在线观看日本 | 久热在线视频精品网站 | 国产一区二区三区精品久久呦 | 美国一级特a黄 | 性受视频 | 欧美伊人网 | 在线观看麻豆精品国产不卡 | 欧美成人h版网址 | 中国欧美一级毛片免费 | 国产精品国产三级国产 | 天天噜天天爽在线视频 | 亚洲高清免费视频 | 亚洲a视频在线观看 | 亚洲国产精久久久久久久 | 欧美爱爱网站 | 精品欧美一区二区三区四区 | 亚洲黄色色图 | 欧美最猛性xxxxx69交 | 国内自拍小视频 | 亚洲国产亚洲片在线观看播放 | 久久精品无码一区二区日韩av | 中文字幕在线视频播放 | 中文字幕一区二区三区四区五区 | 亚洲精品久久77777 | 欧美日本道免费一区二区三区 | 国产精品嫩草影院视频 | 91亚洲欧美综合高清在线 | 欧美理伦视频 | 亚洲一区二区三区影院 | 在线观看欧洲成人免费视频 | 国产色综合久久无码有码 | 欧美另类网站 |