您當(dāng)前位置：首頁 > php開源 > 綜合技術(shù) > R-FCN：基于區(qū)域的全卷積網(wǎng)絡(luò)來檢測物體

R-FCN：基于區(qū)域的全卷積網(wǎng)絡(luò)來檢測物體

來源：程序員人生發(fā)布時間：2016-07-06 13:20:59 閱讀次數(shù)：9160次

原文標(biāo)題為“R-FCN: Object Detection via Region-based Fully Convolutional Networks ”，作者代季峰 1，14年畢業(yè)的清華博士到微軟亞洲研究院的視覺計算組，CVPR 16 兩篇1作的會議主持人~ ╰(°▽°)╯ 同時公布了源碼~ 2

后面主要內(nèi)容為原文隨意的翻譯或概括。必有不緊貼原文原意的地方，歪曲請指出，否則求放過~

1. 簡介

物體檢測的深度網(wǎng)絡(luò)按感興趣區(qū)域 (RoI) 池化層分為兩大主流：同享計算的全卷積子網(wǎng)絡(luò) (每一個子網(wǎng)絡(luò)與 RoI 無關(guān)) 和不同享計算的作用于各自 RoI 的子網(wǎng)絡(luò)。工程分類結(jié)構(gòu) (如 Alexnet 和 VGG Nets) 造成這樣的分流。而工程上的圖象分類結(jié)構(gòu)被設(shè)計為兩個子網(wǎng)絡(luò)——1個后綴1個空間池化層的卷積子網(wǎng)絡(luò)和多個全連接層。因此，圖象分類網(wǎng)絡(luò)中最后的空間池化層自然變成了物體檢測網(wǎng)絡(luò)中的 RoI 池化層。

最近幾年來，諸如殘差網(wǎng)絡(luò)和 GoogLeNets 等先進的圖象分類網(wǎng)絡(luò)為全卷積網(wǎng)絡(luò)。類似地，自然會想到用在物體檢測中用全卷積網(wǎng)絡(luò) (隱藏層不包括作用于 RoI 的子網(wǎng)絡(luò))。但是，物體檢測工作中的經(jīng)驗表明，這樣天真的解決方案的檢測效果遠(yuǎn)差于該網(wǎng)絡(luò)的分類效果。 為彌補為難，更快 R-CNN 檢測器不自然地在兩卷積層間插入RoI 池化層，這樣更深的作用于各 RoI 的子網(wǎng)絡(luò)雖精度更高，但各個 RoI 計算不同享所以速度慢。

為難在于：物體分類要求平移不變性越大越好 (圖象中物體的移動不用辨別)，而物體檢測要求有平移變化。所以，ImageNet 分類領(lǐng)先的結(jié)果證明盡量有平移不變性的全卷積結(jié)構(gòu)更受親睞。另外一方面，物體檢測任務(wù)需要1些平移變化的定位表示。比如，物體的平移應(yīng)當(dāng)使網(wǎng)絡(luò)產(chǎn)生響應(yīng)，這些響應(yīng)對描寫候選框覆蓋真實物體的好壞是成心義的。我們假定圖象分類網(wǎng)絡(luò)的卷積層越深，則該網(wǎng)絡(luò)對平移越不敏感。

我曾看到的為難包括：

a) Kaggle 中的白鯨身份辨認(rèn)。剛開始很多人嘗試從圖象到坐標(biāo)的直接回歸，到后面有幾位心善的大哥分享了自己手動標(biāo)定后白鯨的圖象坐標(biāo)，后來顯著的進展大多是由于把白鯨的位置檢測和身份辨認(rèn)問題簡化為白鯨的身份辨認(rèn)問題。
b) Caffe 用于物體檢測時的均值收斂問題。

為消除為難，在網(wǎng)絡(luò)的卷積層間插入 RoI 池化層。這類具體到區(qū)域的操作在不同區(qū)域間跑時不再有平移不變性。但是，該設(shè)計因引入相當(dāng)數(shù)目的按區(qū)域操作層 (region-wise layers) 而犧牲了訓(xùn)練和測試效力。

本文，我們?yōu)槲矬w檢測推出了基于區(qū)域的全卷積網(wǎng)絡(luò) (R-FCN)，采取全卷積網(wǎng)絡(luò)結(jié)構(gòu)作為 FCN，為給 FCN 引入平移變化，用專門的卷積層構(gòu)建位置敏感分?jǐn)?shù)地圖 (position-sensitive score maps)。每一個空間敏感地圖編碼感興趣區(qū)域的相對空間位置信息。 在FCN上面增加1個位置敏感 RoI 池化層來監(jiān)管這些分?jǐn)?shù)地圖。

2. 方法

(1) 簡介

效仿 R-CNN，采取流行的物體檢測策略，包括區(qū)域建議和區(qū)域分類兩步。不依賴區(qū)域建議的方法確切存在 (SSD 和 Yolo 弟兄)，基于區(qū)域的系統(tǒng)在不同 benchmarks 上仍然精度領(lǐng)先。用更快 R-CNN 中的區(qū)域建議網(wǎng)絡(luò) (RPN) 提取候選區(qū)域，該 RPN 為全卷積網(wǎng)絡(luò)。效仿更快 R-CNN，同享 RPN 和 R-FCN 的特點。

這里寫圖片描述

RPN 給出感興趣區(qū)域，R-FCN 對該感興趣區(qū)域分類。R-FCN 在與 RPN 同享的卷積層后多加1個卷積層。所以，R-FCN 與 RPN 1樣，輸入為整幅圖象。但 R-FCN 最后1個卷積層的輸出從整幅圖象的卷積響應(yīng)圖象中分割出感興趣區(qū)域的卷積響應(yīng)圖象。

這里寫圖片描述

R-FCN 最后1個卷積層在整幅圖象上為每類生成k2個位置敏感分?jǐn)?shù)圖，有C類物體外加1個背景，因此有k2(C+1)個通道的輸出層。k2個分?jǐn)?shù)圖對應(yīng)描寫位置的空間網(wǎng)格。比如，k×k=3×3，則9個分?jǐn)?shù)圖編碼單個物體類的 {top?left,top?center,top?right,...,bottom?right}。

R-FCN 最后用位置敏感 RoI 池化層，給每一個 RoI 1個分?jǐn)?shù)。選擇性池化圖解：看上圖的橙色響應(yīng)圖象 (top?left)，摳出橙色方塊 RoI，池化橙色方塊 RoI 得到橙色小方塊 (分?jǐn)?shù))；其它色彩的響應(yīng)圖象同理。對所有色彩的小方塊投票 (或池化) 得到1類的響應(yīng)結(jié)果。

選擇性池化是跨通道的，投票部份的池化為所有通道的池化。而1般池化都在通道內(nèi)。

R-FCN 最后1個卷積層的輸出為何會具有相對空間位置這樣的物理意義 (top-left,top-center,…,bottom-right)？

原文為“With end-to-end training, this RoI layer shepherds the last convolutional layer to learn specialized position-sensitive score maps.”。所以，假定端到端訓(xùn)練后每層真有相對位置的意義，那末投票前的輸入1定位置敏感。投票后面的內(nèi)容用作分類。

端到端訓(xùn)練先自行腦補：
假定已知原圖象與真實物體的邊界框中心坐標(biāo)和寬高，把1個物體的邊界框中心坐標(biāo)分成k2個網(wǎng)格的中心坐標(biāo)，寬高縮放為物體寬高的1k倍，得到每一個網(wǎng)格的掩碼。用原圖象和每類物體的網(wǎng)格在整幅圖象中的掩碼端到端訓(xùn)練全卷積網(wǎng)絡(luò)。挺像圖象分割~

(2) 基礎(chǔ)結(jié)構(gòu)

ResNet⑴01 網(wǎng)絡(luò)有100個卷積層，1個全局平均池化層和1個1000類的全連接層。僅用ImageNet預(yù)訓(xùn)練的該網(wǎng)絡(luò)的卷積層計算特點圖。

(3) 位置敏感分?jǐn)?shù)圖

對 R-FCN 的卷積響應(yīng)圖象按 RPN 的結(jié)果分割出來感興趣區(qū)域，對單通道的感興趣區(qū)域分成k×k個網(wǎng)格，每一個網(wǎng)格平均池化，然后所有通道再平均池化。
其實不是這樣的~ 由于 RoI 覆蓋的所有面積的橙色方片都是左上位置的響應(yīng)。

“To explicitly encode position information into each RoI, we divide each RoI rectangle into k×k bins by a regular grid.” 這句話應(yīng)對應(yīng)下圖 (對應(yīng)后面效果圖的黃色虛線部份)：

這里寫圖片描述