您當(dāng)前位置：首頁(yè) > php開源 > 綜合技術(shù) > 【機(jī)器學(xué)習(xí)基礎(chǔ)】機(jī)器學(xué)習(xí)中的三個(gè)技巧原則

【機(jī)器學(xué)習(xí)基礎(chǔ)】機(jī)器學(xué)習(xí)中的三個(gè)技巧原則

來(lái)源：程序員人生發(fā)布時(shí)間：2015-04-08 08:44:42 閱讀次數(shù)：3071次

奧卡姆剃刀原則（Occam's Razor）

有1句話是這樣說(shuō)的，"An explanation of the data should be mad as simple as possible,but no simpler"。
在機(jī)器學(xué)習(xí)中其意義就是，對(duì)數(shù)據(jù)最簡(jiǎn)單的解釋也就是最好的解釋（The simplest model that fits the data is also the most plausible）。

比如上面的圖片，右側(cè)是否是比左側(cè)解釋的更好呢？明顯不是這樣的。

如無(wú)必要，勿增實(shí)體
奧卡姆剃刀定律，即簡(jiǎn)單有效原則，說(shuō)的是，切勿浪費(fèi)較多東西去做，用較少的東西，一樣可以做好的事情。

所以，相比復(fù)雜的假定，我們更偏向于選擇簡(jiǎn)單的、參數(shù)少的假定；同時(shí)，我們還希望選擇更加簡(jiǎn)單的模型，使得有效的假定的數(shù)量不是很多。
另外一種解釋是，假定有1個(gè)簡(jiǎn)單的假定H，如果它可以很好的辨別1組數(shù)據(jù)，那末說(shuō)明這組數(shù)據(jù)確切是存在某種規(guī)律性。

抽樣偏差（Sampling Bias）

If the data is sampled in a biased way,learning will produce a similarily biased outcome.
這句話告知我們，如果抽樣的數(shù)據(jù)是有偏差的，那末學(xué)習(xí)的效果也是有偏差的，這類情形稱作是抽樣偏差。
在實(shí)際情況中，我們需要訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)自同1散布。
為了不這樣的問(wèn)題，我們可以做的是要了解測(cè)試環(huán)境，讓訓(xùn)練環(huán)境或說(shuō)是訓(xùn)練數(shù)據(jù)和測(cè)試環(huán)境盡量的接近。

數(shù)據(jù)窺測(cè)（Data Snooping）

你在使用數(shù)據(jù)任何進(jìn)程都是間接的窺測(cè)了數(shù)據(jù)，所以你在下決策的時(shí)候，你要知道，這些數(shù)據(jù)可能已被你頭腦中的模型復(fù)雜度所污染。
有效避免這類情況的方法有：

做決定之前不要看數(shù)據(jù)
要時(shí)刻存有懷疑

轉(zhuǎn)載請(qǐng)注明作者Jason Ding及其出處
Github主頁(yè)(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡(jiǎn)書主頁(yè)(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

生活不易，碼農(nóng)辛苦
如果您覺得本網(wǎng)站對(duì)您的學(xué)習(xí)有所幫助,可以手機(jī)掃描二維碼進(jìn)行捐贈(zèng)
程序員人生

------分隔線----------------------------

上一篇 Laravel大型項(xiàng)目系列教程（七）之7 擴(kuò)展包和Artisan開發(fā)

下一篇 Gradle 多環(huán)境URL請(qǐng)求設(shè)置

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關(guān)注

欄目熱點(diǎn)

多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

【機(jī)器學(xué)習(xí)基礎(chǔ)】機(jī)器學(xué)習(xí)中的三個(gè)技巧原則

奧卡姆剃刀原則（Occam's Razor）

抽樣偏差（Sampling Bias）

數(shù)據(jù)窺測(cè)（Data Snooping）