多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

<td id="vf6or"></td>

國內最全IT社區(qū)平臺聯系我們 | 收藏本站

阿里云優(yōu)惠2

您當前位置：首頁 > 服務器 > Google深度學習筆記文本與序列的深度模型

Google深度學習筆記文本與序列的深度模型

來源：程序員人生發(fā)布時間：2016-07-14 08:34:27 閱讀次數：2951次

Deep Models for Text and Sequence

轉載請注明作者：夢里風林
Github工程地址：https://github.com/ahangchen/GDLnotes
歡迎star，有問題可以到Issue區(qū)討論
官方教程地址
視頻/字幕下載

Rare Event

與其他機器學習不同，在文本分析里，陌生的東西（rare event）常常是最重要的，而最多見的東西常常是最不重要的。

語法多義性

1個東西可能有多個名字，對這類related文本能夠做參數同享是最好的
需要辨認單詞，還要辨認其關系，就需要過量label數據

無監(jiān)督學習

不用label進行訓練，訓練文本是非常多的，關鍵是要找到訓練的內容
遵守這樣1個思想：類似的辭匯出現在類似的場景中
不需要知道1個詞真實的含義，詞的含義由它所處的歷史環(huán)境決定

Embeddings

將單詞映照到1個向量（Word2Vec），越類似的單詞的向量會越接近
新的詞可以由語境得到同享參數

Word2Vec

將每一個詞映照到1個Vector列表(就是1個Embeddings)里，1開始隨機，用這個Embedding進行預測
Context即Vector列表里的鄰居
目標是讓Window里相近的詞放在相鄰的位置，即預測1個詞的鄰居
用來預測這些相鄰位置單詞的模型只是1個Logistics Regression， just a simple Linear model

Comparing embeddings

比較兩個vector之間的夾角大小來判斷接近程度，用cos值而非L2計算，由于vector的長度和分類是不相干的：

最好將要計算的vector都歸1化

Predict Words

單詞經過embedding變成1個vector
然后輸入1個WX+b，做1個線性模型
輸出的label幾率為輸入文本中的辭匯
問題在于WX+b輸出時，label太多了，計算這類softmax很低效
解決方法是，篩掉不多是目標的label，只計算某個label在某個局部的幾率，sample softmax

t-SNE

查看某個詞在embedding里的最近鄰居可以看到單詞間的語義接近關系
將vector構成的空間降維，可以更高效地查找最近單詞，但降維進程中要保持鄰居關系（原來接近的降維后還要接近）
t-SNE就是這樣1種有效的方法

類比

實際上我們能得到的不但是單詞的鄰接關系，由于將單詞向量化，可以對單詞進行計算
可以通過計算進行語義加減，語法加減

Sequence

文本（Text）是單詞（word）的序列，1個關鍵特點是長度可變，就不能直接變成vector

CNN and RNN

CNN 在空間上同享參數，RNN在時間上（順序上）同享參數

在每輪訓練中，需要判斷至今為之產生了甚么，過去輸入的所有數據都對當下的分類造成影響
1種思路是記憶之前的分類器的狀態(tài)，在這個基礎上訓練新的分類器，從而結合歷史影響
這樣需要大量歷史分類器
重用分類器，只用1個分類器總結狀態(tài)，其他分類器接受對應時間的訓練，然后傳遞狀態(tài)

RNN Derivatives

BackPropagation Through time
對同1個weight參數，會有許多求導操作同時更新之
對SGD不友好，由于SGD是用許多不相干的求導更新參數，以保證訓練的穩(wěn)定性
由于梯度之間的相干性，致使梯度爆炸或梯度消失

使得訓練時找不到優(yōu)化方向，訓練失敗

Clip Gradient

計算到梯度爆炸的時候，使用1個比值來代替△W（梯度是回流計算的，橫坐標從右往左看）

Hack but cheap and effective

LSTM（Long Short-Term Memory）

梯度消失會致使分類器只對最近的消息的變化有反應，淡化之前訓練的參數，也不能用比值的方法來解決
- 1個RNN的model包括兩個輸入，1個是過去狀態(tài)，1個是新的數據，兩個輸出，1個是預測，1個是將來狀態(tài)

中間是1個簡單的神經網絡
將中間的部份換成LSTM-cell就可以解決梯度消失問題
我們的目的是提高RNN的記憶能力
Memory Cell

3個門，決定是不是寫/讀/遺忘/寫回

在每一個門上，不單純做yes/no的判斷，而是使用1個權重，決定對輸入的接收程度
這個權重是1個連續(xù)的函數，可以求導，也就能夠進行訓練，這是LSTM的核心

用1個邏輯回歸訓練這些門，在輸出進行歸1化

這樣的模型能讓全部cell更好地記憶與遺忘
由于全部模型都是線性的，所以可以方便地求導和訓練

LSTM Regularization

L2, works
Dropout on the input or output of data, works

Beam Search

有了上面的模型以后，我們可以根據上文來推測下文，乃至創(chuàng)造下文，預測，挑選最大幾率的詞，喂回，繼續(xù)預測……

我們可以每次只預測1個字母，but this is greedy，每次都挑最好的那個
也能夠每次多預測幾步，然后挑整體幾率較高的那個，以減少偶然因素的影響
但這樣需要生成的sequence會指數增長
因此我們在多預測幾步的時候，只為幾率比較高的幾個候選項做預測，that’s beam search.

翻譯與識圖

RNN將variable length sequence問題變成了fixed length vector問題，同時由于實際上我們能利用vector進行預測，我們也能夠將vector變成sequence
我們可以利用這1點，輸入1個序列，到1個RNN里，將輸出輸入到另外一個逆RNN序列，構成另外一種序列，比如，語言翻譯
如果我們將CNN的輸出接到1個RNN，就能夠做1種識圖系統

循環(huán)神經網絡實踐

覺得我的文章對您有幫助的話，給個star可好？

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

程序員人生

------分隔線----------------------------

上一篇 4.1、Android Stuido配置你的Build Variant

下一篇 【Leetcode】Count Numbers with Unique Digits

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

程序員人生

主站蜘蛛池模板：亚洲成aⅴ人在线观看 | 伊人影院在线播放 | 欧美高清另类videosbestsex | 欧美性大交大片在线 | 能看毛片的网址 | 国产日韩欧美久久久 | 伊人网成人| 日韩有码视频在线 | 又污又黄又无遮挡网站 | 午夜影院网站 | 免费播放欧美毛片欧美a | 伊人影院在线观看视频 | 337p日本欧洲亚洲大胆色噜噜 | 日韩中文视频 | www.干| 午夜影院福利 | 激情久久久久久久久久 | 亚洲日本一区二区三区在线不卡 | 国语精品视频在线观看不卡 | 2020久久国产最新免费观看 | 日韩久久久精品首页 | 亚洲欧美在线视频免费 | a级亚洲片精品久久久久久久 | 久久avav| 中文字幕2022永久在线 | 欧美高清 hd videotv | 欧美天天视频 | 亚洲永久在线 | 久久精品国产福利国产琪琪 | 波多野结衣在线视频播放 | 欧美日韩亚洲高清老妇性 | 国产精品60岁老女人 | 亚洲欧美久久婷婷爱综合一区天堂 | 日韩欧美精品 | yellow中文字幕网 | 欧美午夜精品一区二区三区 | 手机在线成人精品视频网 | 国产精品久久久久久久久免费hd | 日韩在线视频不卡一区二区三区 | 国产91精品黄网在线观看 | 在线观看亚洲视频 |

<i id="by489"><ins id="by489"></ins></i>