原文標(biāo)題為“R-FCN: Object Detection via Region-based Fully Convolutional Networks ”,作者代季峰 1,14年畢業(yè)的清華博士到微軟亞洲研究院的視覺計算組,CVPR 16 兩篇1作的會議主持人~ ╰(°▽°)╯ 同時公布了源碼~ 2
后面主要內(nèi)容為原文隨意的翻譯或概括。必有不緊貼原文原意的地方,歪曲請指出,否則求放過~
物體檢測的深度網(wǎng)絡(luò)按感興趣區(qū)域 (RoI) 池化層分為兩大主流:同享計算的全卷積子網(wǎng)絡(luò) (每一個子網(wǎng)絡(luò)與 RoI 無關(guān)) 和 不同享計算的作用于各自 RoI 的子網(wǎng)絡(luò)。工程分類結(jié)構(gòu) (如 Alexnet 和 VGG Nets) 造成這樣的分流。而工程上的圖象分類結(jié)構(gòu)被設(shè)計為兩個子網(wǎng)絡(luò)——1個后綴1個空間池化層的卷積子網(wǎng)絡(luò)和多個全連接層。因此,圖象分類網(wǎng)絡(luò)中最后的空間池化層自然變成了物體檢測網(wǎng)絡(luò)中的 RoI 池化層。
最近幾年來,諸如殘差網(wǎng)絡(luò)和 GoogLeNets 等先進的圖象分類網(wǎng)絡(luò)為全卷積網(wǎng)絡(luò)。類似地,自然會想到用在物體檢測中用全卷積網(wǎng)絡(luò) (隱藏層不包括作用于 RoI 的子網(wǎng)絡(luò))。但是,物體檢測工作中的經(jīng)驗表明,這樣天真的解決方案的檢測效果遠(yuǎn)差于該網(wǎng)絡(luò)的分類效果。 為彌補為難,更快 R-CNN 檢測器不自然地在兩卷積層間插入RoI 池化層,這樣更深的作用于各 RoI 的子網(wǎng)絡(luò)雖精度更高,但各個 RoI 計算不同享所以速度慢。
為難在于:物體分類要求平移不變性越大越好 (圖象中物體的移動不用辨別),而物體檢測要求有平移變化。所以,ImageNet 分類領(lǐng)先的結(jié)果證明盡量有平移不變性的全卷積結(jié)構(gòu)更受親睞。另外一方面,物體檢測任務(wù)需要1些平移變化的定位表示。比如,物體的平移應(yīng)當(dāng)使網(wǎng)絡(luò)產(chǎn)生響應(yīng),這些響應(yīng)對描寫候選框覆蓋真實物體的好壞是成心義的。我們假定圖象分類網(wǎng)絡(luò)的卷積層越深,則該網(wǎng)絡(luò)對平移越不敏感。
我曾看到的為難包括:
a) Kaggle 中的白鯨身份辨認(rèn)。剛開始很多人嘗試從圖象到坐標(biāo)的直接回歸,到后面有幾位心善的大哥分享了自己手動標(biāo)定后白鯨的圖象坐標(biāo),后來顯著的進展大多是由于把白鯨的位置檢測和身份辨認(rèn)問題簡化為白鯨的身份辨認(rèn)問題。
b) Caffe 用于物體檢測時的均值收斂問題。
為消除為難,在網(wǎng)絡(luò)的卷積層間插入 RoI 池化層。這類具體到區(qū)域的操作在不同區(qū)域間跑時不再有平移不變性。但是,該設(shè)計因引入相當(dāng)數(shù)目的按區(qū)域操作層 (region-wise layers) 而犧牲了訓(xùn)練和測試效力。
本文,我們?yōu)槲矬w檢測推出了基于區(qū)域的全卷積網(wǎng)絡(luò) (R-FCN),采取全卷積網(wǎng)絡(luò)結(jié)構(gòu)作為 FCN,為給 FCN 引入平移變化,用專門的卷積層構(gòu)建位置敏感分?jǐn)?shù)地圖 (position-sensitive score maps)。每一個空間敏感地圖編碼感興趣區(qū)域的相對空間位置信息。 在FCN上面增加1個位置敏感 RoI 池化層來監(jiān)管這些分?jǐn)?shù)地圖。
效仿 R-CNN,采取流行的物體檢測策略,包括區(qū)域建議和區(qū)域分類兩步。不依賴區(qū)域建議的方法確切存在 (SSD 和 Yolo 弟兄),基于區(qū)域的系統(tǒng)在不同 benchmarks 上仍然精度領(lǐng)先。用更快 R-CNN 中的區(qū)域建議網(wǎng)絡(luò) (RPN) 提取候選區(qū)域,該 RPN 為全卷積網(wǎng)絡(luò)。效仿更快 R-CNN,同享 RPN 和 R-FCN 的特點。
RPN 給出感興趣區(qū)域,R-FCN 對該感興趣區(qū)域分類。R-FCN 在與 RPN 同享的卷積層后多加1個卷積層。所以,R-FCN 與 RPN 1樣,輸入為整幅圖象。但 R-FCN 最后1個卷積層的輸出從整幅圖象的卷積響應(yīng)圖象中分割出感興趣區(qū)域的卷積響應(yīng)圖象。
R-FCN 最后1個卷積層在整幅圖象上為每類生成
R-FCN 最后用位置敏感 RoI 池化層,給每一個 RoI 1個分?jǐn)?shù)。選擇性池化圖解:看上圖的橙色響應(yīng)圖象 (
選擇性池化是跨通道的,投票部份的池化為所有通道的池化。而1般池化都在通道內(nèi)。
R-FCN 最后1個卷積層的輸出為何會具有相對空間位置這樣的物理意義 (top-left,top-center,…,bottom-right)?
原文為“With end-to-end training, this RoI layer shepherds the last convolutional layer to learn specialized position-sensitive score maps.”。所以,假定端到端訓(xùn)練后每層真有相對位置的意義,那末投票前的輸入1定位置敏感。投票后面的內(nèi)容用作分類。
端到端訓(xùn)練先自行腦補:
假定已知原圖象與真實物體的邊界框中心坐標(biāo)和寬高,把1個物體的邊界框中心坐標(biāo)分成
ResNet⑴01 網(wǎng)絡(luò)有100個卷積層,1個全局平均池化層和1個1000類的全連接層。僅用ImageNet預(yù)訓(xùn)練的該網(wǎng)絡(luò)的卷積層計算特點圖。
對 R-FCN 的卷積響應(yīng)圖象按 RPN 的結(jié)果分割出來感興趣區(qū)域,對單通道的感興趣區(qū)域分成
其實不是這樣的~ 由于 RoI 覆蓋的所有面積的橙色方片都是左上位置的響應(yīng)。
“To explicitly encode position information into each RoI, we divide each RoI rectangle into
對1個大小為
其中,
桶對應(yīng)后面效果圖的黃色實線部份,1個桶只摳了每類的每一個相對空間位置通道中 RoI 的對應(yīng)相對空間位置的分?jǐn)?shù)圖,其它的部份拋棄。
對該 RoI 每類的所有相對空間位置的分?jǐn)?shù)平均池化 (或投票)。
Softmax 回歸分類。
如果您覺得本網(wǎng)站對您的學(xué)習(xí)有所幫助,可以手機掃描二維碼進行捐贈