多多色-多人伦交性欧美在线观看-多人伦精品一区二区三区视频-多色视频-免费黄色视屏网站-免费黄色在线

國內(nèi)最全I(xiàn)T社區(qū)平臺(tái) 聯(lián)系我們 | 收藏本站
阿里云優(yōu)惠2
您當(dāng)前位置:首頁 > 互聯(lián)網(wǎng) > 科普---互聯(lián)網(wǎng)圖片 文字識(shí)別系統(tǒng) 你造么

科普---互聯(lián)網(wǎng)圖片 文字識(shí)別系統(tǒng) 你造么

來源:程序員人生   發(fā)布時(shí)間:2014-10-08 12:25:28 閱讀次數(shù):3713次

文通互聯(lián)網(wǎng)圖片文字識(shí)別系統(tǒng)




你不努力,別人就會(huì)超越你!
我明白、不是每一次付出的努力都會(huì)得到收貨!
但是我始終相信每一次收貨、都需要付出努力!

我們的OCR一直在努力改進(jìn)、提升!
我們在一直按照我們的使命前行--------源于清華  服務(wù)全球!

一、公司研發(fā)背景

1、  公司簡介

北京文通科技有限公司是享譽(yù)國內(nèi)外的OCR(光學(xué)字符識(shí)別)技術(shù)生產(chǎn)商、文檔影像技術(shù)和應(yīng)用解決方案提供商。在與清華大學(xué)的攜手合作過程中,文通科技成功地將"國家863計(jì)劃"項(xiàng)目成果――"文字圖像識(shí)別技術(shù)TH-OCR"產(chǎn)業(yè)化,真正實(shí)現(xiàn)了TH-OCR技術(shù)與市場應(yīng)用的完美結(jié)合。

文通科技以TH-OCR和手寫識(shí)別技術(shù)為核心,研發(fā)出多項(xiàng)產(chǎn)品并提供多種行業(yè)解決方案,依靠完善的服務(wù)體系,拓寬了產(chǎn)品技術(shù)應(yīng)用領(lǐng)域。目前,文通科技已經(jīng)擁有跨平臺(tái)(包括Windows/Linux/Android/IOS及嵌入式平臺(tái))的智能圖像處理、亞洲文字OCR、手寫識(shí)別、二維條碼識(shí)別等自有知識(shí)產(chǎn)權(quán)技術(shù)。公司業(yè)務(wù)深入至金融保險(xiǎn)、智能交通、稅務(wù)、公共安全、政府等行業(yè)領(lǐng)域。

 

2、  行業(yè)背景

2.1、OCR技術(shù)由來已久

  1929年,德國的科學(xué)家Tausheck首先提出了OCR的概念,并且申請了專利。幾年后,美國科學(xué)家Handel也提出了利用技術(shù)對文字進(jìn)行識(shí)別的想法。但這種夢想直到計(jì)算機(jī)的誕生才變成了現(xiàn)實(shí)。OCR的意思就演變成為利用光學(xué)技術(shù)對文字和字符進(jìn)行掃描識(shí)別,轉(zhuǎn)化成計(jì)算機(jī)內(nèi)碼。

  在60~70年代,世界各國相繼開始了OCR的研究,多以文字的識(shí)別方法研究為主,且識(shí)別的文字僅為0至9的數(shù)字。直至1965至1970年之間開始有一些簡單的產(chǎn)品,如印刷文字的郵政編碼識(shí)別系統(tǒng),幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式。

2.2、漢字OCR技術(shù)發(fā)展迅速

  對于漢字的識(shí)別最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy發(fā)表了第一篇關(guān)于印刷體漢字識(shí)別的論文,在這篇論文中他們利用簡單的模板匹配法識(shí)別了1,000個(gè)印刷體漢字。

  我國OCR技術(shù)自70年代才開始對數(shù)字、英文字母及符號的識(shí)別進(jìn)行研究。

  同國外相比,我國的光學(xué)字符識(shí)別研究起步較晚。但由于我國政府對漢字自動(dòng)識(shí)別輸入的研究從80年代開始給予了充分的重視和支持,經(jīng)過科研人員十多年的辛勤努力,漢字識(shí)別技術(shù)的發(fā)展和應(yīng)用有了長足進(jìn)步:目前系統(tǒng)可以支持簡、繁體漢字的識(shí)別,解決了多體多字號混排文本的識(shí)別問題,對于簡單的版面可以進(jìn)行有效的定量分析,同時(shí)漢字識(shí)別率已達(dá)到了98%以上。

2.3、OCR的“三級跳”

  任何一項(xiàng)技術(shù)要從實(shí)驗(yàn)室走向市場,都要實(shí)現(xiàn)技術(shù)、產(chǎn)品和應(yīng)用的“三級跳”。對于OCR技術(shù)來說也是如此。正如上面所說的,OCR在中國經(jīng)歷了幾十年的發(fā)展,技術(shù)和產(chǎn)品已經(jīng)非常成熟了,其識(shí)別率也已經(jīng)達(dá)到相當(dāng)高的水平,而在應(yīng)用方面,卻遠(yuǎn)遠(yuǎn)落后于歐美以及日本等國家。

從行業(yè)消費(fèi)者的需求來看,電子政務(wù)、金融、保險(xiǎn)、稅務(wù)、工商等行業(yè)用戶對信息識(shí)別的需求已越來越廣泛,由此大力促使了識(shí)別技術(shù)的大規(guī)模的應(yīng)用。而個(gè)人消費(fèi)者對資料電子化、手寫識(shí)別技術(shù)等需求拓展了OCR識(shí)別技術(shù)在這一領(lǐng)域的應(yīng)用之路。

與此同時(shí),網(wǎng)絡(luò)時(shí)代的特征也在影響著OCR應(yīng)用市場的前進(jìn)步伐,政府、公司、家庭、個(gè)人均是網(wǎng)絡(luò)時(shí)代的組成部分,因此,大家越來越重視信息安全方面的內(nèi)容在網(wǎng)絡(luò)上傳播,政府也越來越重視網(wǎng)絡(luò)輿情領(lǐng)域?qū)γ癖姷乃枷胍龑?dǎo)影響,在這樣的環(huán)境下,傳統(tǒng)的文字識(shí)別已經(jīng)不能滿足當(dāng)下的使用需求,互聯(lián)網(wǎng)圖片文字識(shí)別系統(tǒng)應(yīng)運(yùn)而生!

二、軟件面向行業(yè)

1、互聯(lián)網(wǎng)搜索公司:

手機(jī)拍攝圖片識(shí)別

一些互聯(lián)網(wǎng)搜索公司經(jīng)常會(huì)遇到移動(dòng)終端拍照的圖片文字提取的需求,這個(gè)時(shí)候就需要一項(xiàng)技術(shù)專門來提取這些信息,將結(jié)果傳輸回給用戶進(jìn)行復(fù)用!這里面會(huì)包含各式各樣類型的圖片,識(shí)別的復(fù)雜程度非常高。

2、輿情監(jiān)控公司:

   長微博圖片識(shí)別,網(wǎng)頁截屏識(shí)別

由于目前中國經(jīng)濟(jì)發(fā)展較好,國際上的一些潛在威脅慢慢的想國內(nèi)蔓延,針對這種情況發(fā)展而起的輿情監(jiān)控公司非常需要一套有力的技術(shù)手段,對非傳統(tǒng)的文字信息,也就是圖片來進(jìn)行監(jiān)測和控制,用以及時(shí)發(fā)現(xiàn)不良活動(dòng)的苗頭,防患于未然。

通常輿情監(jiān)控公司對網(wǎng)頁截圖的傳播,以及長微博的傳播,以及一些博客論壇的圖片傳播監(jiān)控力度不夠,主要是針對圖片識(shí)別的技術(shù)一直較落后的原因使然。

所以互聯(lián)網(wǎng)圖片文字識(shí)別系統(tǒng)可以幫助輿情監(jiān)控類的公司更高效的保護(hù)網(wǎng)絡(luò)意識(shí)的干凈環(huán)境,使謠言圖片等止于源頭。

3、信息安全公司:

掃描件識(shí)別、互聯(lián)網(wǎng)圖片識(shí)別、長微博識(shí)別,彩信圖片識(shí)別

 

 

三、軟件功能

1、識(shí)別算法

以下算法都是系統(tǒng)先自動(dòng)計(jì)算,定位出文字位置,然后進(jìn)行文字字符切分,最后進(jìn)行文字字符識(shí)別的過程,差別就在于定位文字的方法,以及字符識(shí)別的算法!

(1)   普通互聯(lián)網(wǎng)圖像識(shí)別核心

在網(wǎng)上傳播的一些較簡單、類似文檔的圖片進(jìn)行識(shí)別,提取出相應(yīng)的文字內(nèi)容,用于后端的系統(tǒng)集成;

(2)   復(fù)雜背景圖像識(shí)別核心

在網(wǎng)上傳播的一些較復(fù)雜、類似廣告、宣傳、推廣的海報(bào)類圖片進(jìn)行識(shí)別,也包括一些后期加文字處理的照片識(shí)別,還包括用戶手機(jī)拍照或者制作的彩信圖片識(shí)別;這些圖片多半出現(xiàn)在論壇、博客等區(qū)域,或者通過互聯(lián)網(wǎng),或者通過移動(dòng)網(wǎng)絡(luò)進(jìn)行傳播,帶有較強(qiáng)的引導(dǎo)讀者思路的影響;針對這些圖片進(jìn)行文字提取,然后進(jìn)行系統(tǒng)集成。

(3)   長微博圖像識(shí)別核心:這個(gè)目前使用

由于移動(dòng)手持設(shè)備的大力發(fā)展,手機(jī)、平板的廣泛應(yīng)用,很多文章都會(huì)被轉(zhuǎn)化成適合小寬度超長度的圖片,供移動(dòng)終端設(shè)備查閱,由于其傳播載體太過廣泛,對讀者的思維滲透影響卓絕,勢必需要對立面的內(nèi)容進(jìn)行識(shí)別,然后集成到相應(yīng)系統(tǒng)中甄別不良信息。

長微博識(shí)別核心可以針對長微博這種類型的圖片,進(jìn)行特殊的版面分析方法,準(zhǔn)確的進(jìn)行文字定位,然后對每個(gè)字符進(jìn)行切分識(shí)別;同時(shí)針對復(fù)雜背景以及一類特殊字體進(jìn)行識(shí)別。

2、軟件功能

該技術(shù)是一個(gè)系統(tǒng)集成開發(fā)包,C語言所寫,具有豐富的接口,可以兼容目前市面上各種設(shè)計(jì)語言的環(huán)境接口;軟件演示程序會(huì)包括下列幾項(xiàng)設(shè)置:

(1)   選擇識(shí)別算法

根據(jù)應(yīng)用場景的不同,可以預(yù)先選擇4種識(shí)別算法中的一種來提高工作效果:

(2)   識(shí)別語言選擇

目前系統(tǒng)支持純英語、漢語+英語、漢語,其中漢語包括簡體和繁體兩種。

少數(shù)民族語言:維吾爾文,哈薩克文(新疆),藏文,阿拉伯文,

(3)   顯示識(shí)別結(jié)果

   對識(shí)別的結(jié)果顯示支持設(shè)置,包括字體、字號等內(nèi)容

(4)   顯示定位區(qū)域識(shí)別結(jié)果

識(shí)別結(jié)果包括定位的區(qū)域和位置,方便用戶查閱識(shí)別的對象是否是所需要的內(nèi)容。

(5)   支持的圖片格式

TIF、BMP、PNG、JPG、GIF

(6)   豎排文字識(shí)別

 

 

 


 

 

四、操作系統(tǒng)支持

    目前市面上的公司普遍服務(wù)器使用的是windows和linux 兩類系統(tǒng),這兩類系統(tǒng)中又分為32位和64位;該開發(fā)包目前全兼容這兩種系統(tǒng)4個(gè)平臺(tái)

(1)         Windows32和64位操作系統(tǒng)

(2)         Linux32和64位操作系統(tǒng)

 

 

 


 

 

 

 

生活不易,碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學(xué)習(xí)有所幫助,可以手機(jī)掃描二維碼進(jìn)行捐贈(zèng)
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關(guān)閉
程序員人生
主站蜘蛛池模板: 韩国午夜理伦三级网 | 日韩欧美一区二区久久黑人 | 欧美视频一区在线 | 在线第一页 | 羞羞网站入口 | 久久精品www | 国产区第一页 | c看欧美激情毛片 | 欧美在线视频二区 | 在线欧美一级毛片免费观看 | 亚洲国产www| 欧美三级在线观看视频 | 在线视频播放网站 | 日本高清www视频在线观看 | 国产第一页在线观看 | 国产精品成人久久久 | 91四虎国自产在线播放线 | 国产亚洲精品久久久久久 | 性猛交xxxx乱大交孕妇 | 最新69成人精品毛片 | 亚洲国产一级毛片 | 国产在线精品福利91香蕉 | 在线视频一本 | 久久久久欧美精品 | 一区二区精品 | 成人在线亚洲 | 国产精品亚洲第一区二区三区 | 美美女高清毛片视频免费观看 | 国产精品99久久免费黑人 | 亚洲精品在线视频观看 | 亚洲系列动漫卡通 | 亚洲人成网站观看在线观看 | 午夜dj影视在线观看免费视频 | 波多野结衣久久一区二区 | 黄色毛片大全 | 亚洲欧美成人中文在线网站 | 国产v欧美v日本v精品 | 免费在线亚洲视频 | tube欧美69xxxx| 亚洲自拍偷拍网 | 欧美亚洲免费久久久 |