文通互聯(lián)網(wǎng)圖片文字識(shí)別系統(tǒng)
1、 公司簡介
北京文通科技有限公司是享譽(yù)國內(nèi)外的OCR(光學(xué)字符識(shí)別)技術(shù)生產(chǎn)商、文檔影像技術(shù)和應(yīng)用解決方案提供商。在與清華大學(xué)的攜手合作過程中,文通科技成功地將"國家863計(jì)劃"項(xiàng)目成果――"文字圖像識(shí)別技術(shù)TH-OCR"產(chǎn)業(yè)化,真正實(shí)現(xiàn)了TH-OCR技術(shù)與市場應(yīng)用的完美結(jié)合。
文通科技以TH-OCR和手寫識(shí)別技術(shù)為核心,研發(fā)出多項(xiàng)產(chǎn)品并提供多種行業(yè)解決方案,依靠完善的服務(wù)體系,拓寬了產(chǎn)品技術(shù)應(yīng)用領(lǐng)域。目前,文通科技已經(jīng)擁有跨平臺(tái)(包括Windows/Linux/Android/IOS及嵌入式平臺(tái))的智能圖像處理、亞洲文字OCR、手寫識(shí)別、二維條碼識(shí)別等自有知識(shí)產(chǎn)權(quán)技術(shù)。公司業(yè)務(wù)深入至金融保險(xiǎn)、智能交通、稅務(wù)、公共安全、政府等行業(yè)領(lǐng)域。
2、 行業(yè)背景
2.1、OCR技術(shù)由來已久
1929年,德國的科學(xué)家Tausheck首先提出了OCR的概念,并且申請了專利。幾年后,美國科學(xué)家Handel也提出了利用技術(shù)對文字進(jìn)行識(shí)別的想法。但這種夢想直到計(jì)算機(jī)的誕生才變成了現(xiàn)實(shí)。OCR的意思就演變成為利用光學(xué)技術(shù)對文字和字符進(jìn)行掃描識(shí)別,轉(zhuǎn)化成計(jì)算機(jī)內(nèi)碼。
在60~70年代,世界各國相繼開始了OCR的研究,多以文字的識(shí)別方法研究為主,且識(shí)別的文字僅為0至9的數(shù)字。直至1965至1970年之間開始有一些簡單的產(chǎn)品,如印刷文字的郵政編碼識(shí)別系統(tǒng),幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式。
2.2、漢字OCR技術(shù)發(fā)展迅速
對于漢字的識(shí)別最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文,在這篇論文中他們利用簡單的模板匹配法識(shí)別了1,000個(gè)印刷體漢字。
我國OCR技術(shù)自70年代才開始對數(shù)字、英文字母及符號的識(shí)別進(jìn)行研究。
同國外相比,我國的光學(xué)字符識(shí)別研究起步較晚。但由于我國政府對漢字自動(dòng)識(shí)別輸入的研究從80年代開始給予了充分的重視和支持,經(jīng)過科研人員十多年的辛勤努力,漢字識(shí)別技術(shù)的發(fā)展和應(yīng)用有了長足進(jìn)步:目前系統(tǒng)可以支持簡、繁體漢字的識(shí)別,解決了多體多字號混排文本的識(shí)別問題,對于簡單的版面可以進(jìn)行有效的定量分析,同時(shí)漢字識(shí)別率已達(dá)到了98%以上。
2.3、OCR的“三級跳”
任何一項(xiàng)技術(shù)要從實(shí)驗(yàn)室走向市場,都要實(shí)現(xiàn)技術(shù)、產(chǎn)品和應(yīng)用的“三級跳”。對于OCR技術(shù)來說也是如此。正如上面所說的,OCR在中國經(jīng)歷了幾十年的發(fā)展,技術(shù)和產(chǎn)品已經(jīng)非常成熟了,其識(shí)別率也已經(jīng)達(dá)到相當(dāng)高的水平,而在應(yīng)用方面,卻遠(yuǎn)遠(yuǎn)落后于歐美以及日本等國家。
從行業(yè)消費(fèi)者的需求來看,電子政務(wù)、金融、保險(xiǎn)、稅務(wù)、工商等行業(yè)用戶對信息識(shí)別的需求已越來越廣泛,由此大力促使了識(shí)別技術(shù)的大規(guī)模的應(yīng)用。而個(gè)人消費(fèi)者對資料電子化、手寫識(shí)別技術(shù)等需求拓展了OCR識(shí)別技術(shù)在這一領(lǐng)域的應(yīng)用之路。
與此同時(shí),網(wǎng)絡(luò)時(shí)代的特征也在影響著OCR應(yīng)用市場的前進(jìn)步伐,政府、公司、家庭、個(gè)人均是網(wǎng)絡(luò)時(shí)代的組成部分,因此,大家越來越重視信息安全方面的內(nèi)容在網(wǎng)絡(luò)上傳播,政府也越來越重視網(wǎng)絡(luò)輿情領(lǐng)域?qū)γ癖姷乃枷胍龑?dǎo)影響,在這樣的環(huán)境下,傳統(tǒng)的文字識(shí)別已經(jīng)不能滿足當(dāng)下的使用需求,互聯(lián)網(wǎng)圖片文字識(shí)別系統(tǒng)應(yīng)運(yùn)而生!
1、互聯(lián)網(wǎng)搜索公司:
手機(jī)拍攝圖片識(shí)別
一些互聯(lián)網(wǎng)搜索公司經(jīng)常會(huì)遇到移動(dòng)終端拍照的圖片文字提取的需求,這個(gè)時(shí)候就需要一項(xiàng)技術(shù)專門來提取這些信息,將結(jié)果傳輸回給用戶進(jìn)行復(fù)用!這里面會(huì)包含各式各樣類型的圖片,識(shí)別的復(fù)雜程度非常高。
2、輿情監(jiān)控公司:
長微博圖片識(shí)別,網(wǎng)頁截屏識(shí)別
由于目前中國經(jīng)濟(jì)發(fā)展較好,國際上的一些潛在威脅慢慢的想國內(nèi)蔓延,針對這種情況發(fā)展而起的輿情監(jiān)控公司非常需要一套有力的技術(shù)手段,對非傳統(tǒng)的文字信息,也就是圖片來進(jìn)行監(jiān)測和控制,用以及時(shí)發(fā)現(xiàn)不良活動(dòng)的苗頭,防患于未然。
通常輿情監(jiān)控公司對網(wǎng)頁截圖的傳播,以及長微博的傳播,以及一些博客論壇的圖片傳播監(jiān)控力度不夠,主要是針對圖片識(shí)別的技術(shù)一直較落后的原因使然。
所以互聯(lián)網(wǎng)圖片文字識(shí)別系統(tǒng)可以幫助輿情監(jiān)控類的公司更高效的保護(hù)網(wǎng)絡(luò)意識(shí)的干凈環(huán)境,使謠言圖片等止于源頭。
3、信息安全公司:
掃描件識(shí)別、互聯(lián)網(wǎng)圖片識(shí)別、長微博識(shí)別,彩信圖片識(shí)別
1、識(shí)別算法
以下算法都是系統(tǒng)先自動(dòng)計(jì)算,定位出文字位置,然后進(jìn)行文字字符切分,最后進(jìn)行文字字符識(shí)別的過程,差別就在于定位文字的方法,以及字符識(shí)別的算法!
(1) 普通互聯(lián)網(wǎng)圖像識(shí)別核心
在網(wǎng)上傳播的一些較簡單、類似文檔的圖片進(jìn)行識(shí)別,提取出相應(yīng)的文字內(nèi)容,用于后端的系統(tǒng)集成;
(2) 復(fù)雜背景圖像識(shí)別核心
在網(wǎng)上傳播的一些較復(fù)雜、類似廣告、宣傳、推廣的海報(bào)類圖片進(jìn)行識(shí)別,也包括一些后期加文字處理的照片識(shí)別,還包括用戶手機(jī)拍照或者制作的彩信圖片識(shí)別;這些圖片多半出現(xiàn)在論壇、博客等區(qū)域,或者通過互聯(lián)網(wǎng),或者通過移動(dòng)網(wǎng)絡(luò)進(jìn)行傳播,帶有較強(qiáng)的引導(dǎo)讀者思路的影響;針對這些圖片進(jìn)行文字提取,然后進(jìn)行系統(tǒng)集成。
(3) 長微博圖像識(shí)別核心:這個(gè)目前使用
由于移動(dòng)手持設(shè)備的大力發(fā)展,手機(jī)、平板的廣泛應(yīng)用,很多文章都會(huì)被轉(zhuǎn)化成適合小寬度超長度的圖片,供移動(dòng)終端設(shè)備查閱,由于其傳播載體太過廣泛,對讀者的思維滲透影響卓絕,勢必需要對立面的內(nèi)容進(jìn)行識(shí)別,然后集成到相應(yīng)系統(tǒng)中甄別不良信息。
長微博識(shí)別核心可以針對長微博這種類型的圖片,進(jìn)行特殊的版面分析方法,準(zhǔn)確的進(jìn)行文字定位,然后對每個(gè)字符進(jìn)行切分識(shí)別;同時(shí)針對復(fù)雜背景以及一類特殊字體進(jìn)行識(shí)別。
2、軟件功能
該技術(shù)是一個(gè)系統(tǒng)集成開發(fā)包,C語言所寫,具有豐富的接口,可以兼容目前市面上各種設(shè)計(jì)語言的環(huán)境接口;軟件演示程序會(huì)包括下列幾項(xiàng)設(shè)置:
(1) 選擇識(shí)別算法
根據(jù)應(yīng)用場景的不同,可以預(yù)先選擇4種識(shí)別算法中的一種來提高工作效果:
(2) 識(shí)別語言選擇
目前系統(tǒng)支持純英語、漢語+英語、漢語,其中漢語包括簡體和繁體兩種。
少數(shù)民族語言:維吾爾文,哈薩克文(新疆),藏文,阿拉伯文,
(3) 顯示識(shí)別結(jié)果
對識(shí)別的結(jié)果顯示支持設(shè)置,包括字體、字號等內(nèi)容
(4) 顯示定位區(qū)域識(shí)別結(jié)果
識(shí)別結(jié)果包括定位的區(qū)域和位置,方便用戶查閱識(shí)別的對象是否是所需要的內(nèi)容。
(5) 支持的圖片格式
TIF、BMP、PNG、JPG、GIF
(6) 豎排文字識(shí)別
目前市面上的公司普遍服務(wù)器使用的是windows和linux 兩類系統(tǒng),這兩類系統(tǒng)中又分為32位和64位;該開發(fā)包目前全兼容這兩種系統(tǒng)4個(gè)平臺(tái)
(1) Windows32和64位操作系統(tǒng)
(2) Linux32和64位操作系統(tǒng)