多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > 服務器 > R語言數據分析系列之七

R語言數據分析系列之七

來源:程序員人生   發布時間:2015-04-18 12:08:40 閱讀次數:5784次

R語言數據分析系列之7

―― by comaple.zhang


回歸分析建模是數據分析里面很重要的1個利用之1,即通過使用已有的自變量的值建立某種關系,來預測未知變量(因變量)的值。如果因變量是連續的那就是回歸分析,如果因變量為離散的,可以理解為是分類。在機器學習算法中,不論是連續變量預測還是離散的變量預測,我們都稱之為有監督學習。

回歸分析可以用來做廣告點擊率預測也能夠用來做銷量預測,app各種指標預測,或庫存量,分倉鋪貨預測等。既然如此奇異,那末我們就來看1下回歸是如何做到的。

數據集

我們本節利用women數據集,做1些簡單的預測。

 

 

1元線性回歸分析

輸入:1元自變量x,1元因變量y,尋覓y與x的關系,

線性模型假定:

模型誤差:

目標:找到參數w和b使得誤差平方和最小即


方法:最小2乘法,為了求得w,b使得上式成立,我們可以對參數求偏導數,令偏導數等于零,來求解。

 

在R語言里面線性回歸可以用lm函數來擬合數據集,假設我們要預測女性身高對體重的影響,那末可以建模為簡單地線性模型即:weight = w * height + b用R語言來實現很簡單以下:

fit <- lm(formula = weight ~ height,data = women) summary(fit) Call: lm(formula = weight ~ height, data = women)


 

Residuals:

   Min      1Q  Median     3Q     Max

⑴.7333 ⑴.1333 -0.3833  0.7417 3.1167

 

Coefficients:

            Estimate Std. Error t value Pr(>|t|)   

(Intercept) ⑻7.51667    5.93694 ⑴4.74 1.71e-09 ***

height        3.45000    0.09114  37.85 1.09e⑴4 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’1

 

Residual standard error: 1.525 on 13degrees of freedom

Multiple R-squared:  0.991,       AdjustedR-squared:  0.9903

F-statistic:  1433 on 1 and 13 DF,  p-value: 1.091e⑴4

在summary的結果中我們可以看到,Intercept截距為b的值,height即為w的值

結果驗證:

有了這個模型是不是合適呢,或合適的程度有多大,我們從summary的結果可以分析得到,首先是Residual standard error,值得是預測結果和實際值得殘差的均方值即RMSE該值越小證明模型越好,AdjustedR-squared:該值為r方值,也就是自變量與因變量的相干程度,可理解為模型對數據集的解釋程度,p-value: 該值為T檢驗,1般認為<0.005時模型參數通過檢驗。

我們通過繪圖直觀的視察1下:

plot(women$height,women$weight,main='簡單線性回歸',family='STKaiti') lines(women$height,fitted(fit),col=’red’)


 

 

 

 

 

 

 

 

多項式回歸分析

輸入:多元回歸的輸入為1個向量,即X是1組變量


而對應的參數W也應當是1個向量


 回歸模型假定為:

 

 

我們可以把模型化簡:


因而模型簡化為:

 

模型誤差:

目標:通過學習找到1個向量使得模型誤差的平方和最小,即模型的損失函數以下

 

 

下面我的目標就是要優化這個W向量使得我們的損失函數最小化。我們可以進行矩陣運算,對w求偏導數,并令結果等于0,通過推到整理我們可以得到以下結果:

 

這樣我們只通過矩陣運算來求得W向量的值。

下面基于R來實現1個簡單的多遠回歸,在R中已實現了1個最小2乘法的回歸模型,我們1樣還是直接調用便可,我們仍然采取women數據集,并將weight變量做平方變換,即模型公式為:

R語言實現:

fit2 <- lm(weight ~height+I(height^2),data=women) plot(women$height,women$weight,main='多項式回歸,weight= height + height^2',family='STKaiti') lines(women$height,fitted(fit2),col=’red’) summary(fit2)


 

Call:

lm(formula = weight ~ height + I(height^2),data = women)

 

Residuals:

    Min       1Q   Median      3Q      Max

-0.50941 -0.29611 -0.00941  0.28615 0.59706

 

Coefficients:

            Estimate Std. Error t value Pr(>|t|)   

(Intercept) 261.87818   25.19677 10.393 2.36e-07 ***

height      ⑺.34832    0.77769  ⑼.449 6.58e-07 ***

I(height^2)   0.08306   0.00598  13.891 9.32e-09 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’1

 

Residual standard error: 0.3841 on 12degrees of freedom

Multiple R-squared:  0.9995,     AdjustedR-squared:  0.9994

F-statistic: 1.139e+04 on 2 and 12 DF,  p-value: < 2.2e⑴6

從結果我們可以看出,RMSE減少到0.38殘差均方值變小,R方值變大0.999更好的擬合了真是數據,Pr(>|t|)該值是對應參數的T檢驗,明顯小于0.005各參數均通過檢驗。最后上圖以下:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 欧美日韩一区二区三区视频在线观看 | 亚洲欧美日韩在线观看看另类 | www.亚洲成人 | 看一级毛片一区二区三区免费 | 日产日韩亚洲欧美综合搜索 | 亚洲 欧美 小说 国产 图片 | 大量喷潮free | 国产一区二区三区免费播放 | 日韩视频一 | 亚洲综合一区二区三区四区 | 最近中文字幕国语免费 | 最近高清中文在线观看国语字幕7 | 国产欧美日韩一区二区三区 | 亚洲人成网亚洲欧洲无码 | 日本在线视频二区 | 国产高清国产精品国产k | 亚洲精品亚洲人成在线播放 | 亚洲综合日韩欧美一区二区三 | 欧美一区二区在线观看 | 在线成h人视频网站免费观看 | 一区二区三区四区五区 | 欧美色综合久久 | 在线黄色免费网站 | 五月网| 尤物视频黄 | 中文字幕视频免费在线观看 | 99热成人精品国产免男男 | 国产欧美二区三区 | a级片日韩 | 亚洲欧美日韩精品 | 欧美三级视频在线观看 | 狂野欧美激情性xxxx | 欧美性福利 | 手机在线精品视频每日更新 | 免费一级毛片免费播放 | 中文字幕中文字幕在线 | 欧美精品1区2区 | jizz在线观看国产精品 | 久久精品免费一区二区三区 | 欧美黑人xxx | 色综合久久综合欧美综合图片 |