【1】Shi B, Wang X, Lv P, et al. Robust Scene Text Recognition with Automatic Rectification[J]. arXiv preprint arXiv:1603.03915, 2016.
上圖即為本篇論文的系統框架:包括 Spatial Transformer Network (STN ) 和 Sequence Recognition Network (SRN ) 兩個網絡結構。其中, STN 通過 Thin-Plate-Spline 變換,能夠將透射變換或曲折的文本圖片對齊到1個正規的、更容易讀的圖片;SRN 能夠直接將輸入的文本圖片辨認為1個文本序列。
這個系統是1個端到真個文本辨認系統,在訓練進程中也不需要額外標記字符串的關鍵點、字符位置等。同時,由于 STN 和 SRN 這兩個網絡的共同作用,該系統在自然場景的文本辨認方面獲得了 state-of-the-art 的結果,特別是對那些有著各種形變的字符圖片。