您當(dāng)前位置：首頁 > php開源 > 綜合技術(shù) > [Python] 機(jī)器學(xué)習(xí)庫 Scikit-learn之SVM

[Python] 機(jī)器學(xué)習(xí)庫 Scikit-learn之SVM

來源：程序員人生發(fā)布時(shí)間：2015-06-04 08:11:56 閱讀次數(shù)：14465次

0. SVM簡介

SVM是最經(jīng)常使用的分類器之1，其可以用來做分類，回歸和異常檢測。
其模型定義和學(xué)習(xí)以下：
原始問題:

$min_ {w, b, zeta} frac{1}{2} w^T w + C sum_{i=1}^{n} zeta_i$

$extrm {subject to } y_i (w^T phi (x_i) + b) geq 1 - zeta_i,$

$zeta_i geq 0, i=1, ..., n$

對偶問題：

$min_{alpha} frac{1}{2} alpha^T Q alpha - e^T alpha$

subject to $y^T alpha = 0$

$0 leq alpha_i leq C, i=1, ..., n$

決策函數(shù)：

$operatorname{sgn}(sum_{i=1}^n y_i alpha_i K(x_i, x) + ho)$

其中 $e$ 是全為1的向量, $C > 0$ 是上邊界, $Q$ 是 $n$ $imes$ $n$ 半正定矩陣, $Q_{ij} equiv K(x_i, x_j) = phi (x_i)^T phi (x_j)$ 是核，訓(xùn)練數(shù)據(jù)通過 $phi$ 被映照到高緯空間中.

svm的優(yōu)點(diǎn)：

在高緯空間的有效性。
在特點(diǎn)維度高于樣本維度的情況下，仍然有效。
它的決策函數(shù)只使用訓(xùn)練數(shù)據(jù)的1部份，通常把這1部份數(shù)據(jù)稱之為支持向量，所以它是比較節(jié)省內(nèi)存的。
可以提供各種各樣的核函數(shù)來擴(kuò)大SVM的功能。

SVM的缺點(diǎn)：

如果特點(diǎn)的維度遠(yuǎn)大于樣本的數(shù)目，那末性能將大大的下降。
SVM不直接提供幾率估計(jì)。

1. SVM用來做分類：

SVC, NuSVC，LinearSVC

這3類都能用來做多類分類，SVC 和 NuSVC 類似，但是在1些參數(shù)上有所不同，LinearSVC 則是另外1種svm的實(shí)現(xiàn)，它是線性核。
這里寫圖片描述

輸入：

SVC, NuSVC 和LinearSVC的輸入訓(xùn)練數(shù)據(jù)：[n_samples, n_features] ，標(biāo)簽數(shù)據(jù)：[n_samples]，標(biāo)簽可以是整數(shù)或是字符串都可以。

#訓(xùn)練svm：
>>> from sklearn import svm
>>> X = [[0, 0], [1, 1]]
>>> y = [0, 1]
>>> clf = svm.SVC()
>>> clf.fit(X, y) `
#測試svm`
>>> clf.predict([[2., 2.]

成員變量：

由于svm模型只需要用到訓(xùn)練數(shù)據(jù)中的1部份，也就是支持向量的部份。
support_vectors_：寄存模型的支持向量。
support_ ：寄存模型的支持向量的索引。
n_support: 寄存模型每類的支持向量的數(shù)目。

多類分類

原始的svm只能支持2類的分類，而多類分類是通過量次2分類來實(shí)現(xiàn)的，具體有兩種方式，即1對1和1對多兩種方式。
SVC 和 NuSVC是采取1對1的方式，如果 n_class 是總的種別的數(shù)目，那末共需要訓(xùn)練n_class * (n_class - 1) / 2 個(gè)不同的2分類器。

#獲得分類器的數(shù)目：
X = [[0], [1], [2], [3]]
Y = [0, 1, 2, 3]
clf = svm.SVC()
clf.fit(X, Y)
dec = clf.decision_function([[1]])
print dec.shape[1]

不同的是， LinearSVC 是采取1對多的方式來進(jìn)行多分類，具體來講，有 n_class 個(gè)種別就訓(xùn)練n_class 個(gè)分類器，明顯，在了種別數(shù)目比較多的情況下，這樣更節(jié)省空間和時(shí)間。

不平衡數(shù)據(jù)：

SVC實(shí)現(xiàn)了不平衡訓(xùn)練數(shù)據(jù)集上的處理，通過設(shè)置class_weight參數(shù)來給每一個(gè)種別設(shè)置不同的權(quán)重，具體的使用還得看文檔。

2. SVM用來做回歸

SVM分類器可以很自然的被擴(kuò)大用來做回歸，被稱之為支持向量回歸。
SVR跟SVC1樣，模型只斟酌支持向量的數(shù)據(jù)，那些原理分界邊際的點(diǎn)將被忽視。
跟SVC類似，其也有3個(gè)類來顯示它，對應(yīng)的是： SVR, NuSVR ， LinearSVR，

>>> from sklearn import svm
>>> X = [[0, 0], [2, 2]]
>>> y = [0.5, 2.5]
>>> clf = svm.SVR()
>>> clf.fit(X, y) 
SVR(C=1.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1, gamma=0.0,
    kernel='rbf', max_iter=-1, shrinking=True, tol=0.001, verbose=False)
>>> clf.predict([[1, 1]])
array([ 1.5])

3. 密度估計(jì)，異常檢測

種別：OneClassSVM 來實(shí)現(xiàn)異常檢測，這是1種無監(jiān)督的方法，它的訓(xùn)練數(shù)據(jù)只需要 $X$ ,而無需 $Y$ 。

4. 復(fù)雜度分析

SVM是1個(gè)2次計(jì)劃問題（QP問題），其實(shí)重訓(xùn)練數(shù)據(jù)集合中分離出支持向量的數(shù)據(jù)點(diǎn)，在基于libsvm的實(shí)現(xiàn)中，其復(fù)雜度介于： $O(n_{features} imes n_{samples}^2)$ 和 $O(n_{features} imes n_{samples}^3)$ 之間。