機器學習實戰(zhàn)――Logistic回歸
來源:程序員人生 發(fā)布時間:2015-05-21 07:56:33 閱讀次數(shù):4050次
回歸概述(個人理解的總結(jié))
回歸是數(shù)學中的1種摹擬離散數(shù)據(jù)點的數(shù)學模型的方法,擬合1個連續(xù)的函數(shù)從而可以對未知的離散數(shù)據(jù)點進行分類或預測。這類方法有1個統(tǒng)1的情勢,給定n維特點的數(shù)據(jù)集合,對任意1個數(shù)據(jù)點Xi={x(1)i,x(2)i,...,x(n)i}的每一個維度都有1個回歸系數(shù)wi與之對應(yīng),全部模型就存在1個系數(shù)向量w={w1,w2...wn}。如果是系數(shù)向量w與特點Xi的線性組合,那末就是1個n空間下的超平面,如果對應(yīng)分類問題,那末這個超平面就是分類器的決策平面(分類超平面)。由于線性組合存在常數(shù)項,1般為了情勢統(tǒng)1,將常數(shù)項b通過1個x0=1加進系數(shù)向量成為w0。
Lotistic回歸是經(jīng)典分類方法,與感知機算法、SVM算法等都是上述的對每一個維度的特點進行線性組合,找出決策平面,從而也都是辨別式方法。這些方法在訓練數(shù)據(jù)下分別使用不同的決策函數(shù),然后歸結(jié)為最優(yōu)化問題,1般使用迭代方法進行,經(jīng)常使用的有梯度降落法、牛頓法、擬牛頓法等。
Logistic回歸模型
Sigmoid函數(shù)
在之前的博客中感知機方法使用的是符號函數(shù)f(x)=sign(x),Logistic回歸方法使用的是階躍函數(shù),函數(shù)輸出的是的兩個不同種別的幾率值{0,1},中斷的階躍函數(shù)使用最多的就是Heaviside Step函數(shù),但是不連續(xù)的特性對最優(yōu)化求解中的求導數(shù)不方便。因此使用的是連續(xù)的具有階躍函數(shù)類似性質(zhì)Sigmoid函數(shù):
Sigmoid(z)=11+e?z
該函數(shù)定義域為全實數(shù)域,任意次連續(xù)可微,以點
(0,0.5)為對稱點。當任意1個輸入
z很大時函數(shù)值趨于1,反之趨于0,在
z=0時為0.5代表對輸入值在兩個種別的可能性相當,這些性質(zhì)是的它非常合適作為分類決策函數(shù)。因此,1般當輸出值大于或等于0.5時就分類到正類,否則就分到負類。
2分類Logistic模型
分類模型由條件幾率P(Y|X)表示,其中Y∈{0,1}代表兩個種別,對給定輸入X=x:
P(Y=1|X=x)=11+e?wx
P(Y=0|X=x)=1?11+e?wx=11+ewx
其中
w={w0,w1.....wn},w0代表常數(shù)項,
x={x0,x1...xn},x0=1。對給定的輸入,可以分別求得上述兩個幾率值,通過比較上述哪一個幾率值更大,就將輸入分到相應(yīng)種別。也就是Logistic回歸模型將特點的線性組合轉(zhuǎn)換為兩個種別的幾率,線性組合的值越接近于正無窮,幾率值越接近1;線性組合的值越接近負無窮,幾率值越接近0。
另外,1個事件產(chǎn)生的幾率與不產(chǎn)生的幾率比值稱為概率(odds ratio),取對數(shù)以后稱為log-odds-ratio,而Logistic回歸模型對正類(事件產(chǎn)生)幾率和負類(事件不產(chǎn)生)幾率的比值以下:
logP(Y=1|X)P(Y=0|X)
生活不易,碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
------分隔線----------------------------
------分隔線----------------------------