在對(duì)“降本增效”的絕對(duì)追求下,OCR技術(shù)的應(yīng)用創(chuàng)新,為整個(gè)產(chǎn)業(yè)“智能化”升級(jí)帶來有效助力。10月31日,百度大腦開放日OCR文字識(shí)別專場在上海召開,百度AI技術(shù)生態(tài)部產(chǎn)品經(jīng)理為開發(fā)者們?cè)敿?xì)介紹了百度大腦最新的開放能力,百度視覺技術(shù)部韓鈞宇深入分享了百度大腦OCR文字識(shí)別方向的最新技術(shù)與趨勢(shì),并邀請(qǐng)華夏保險(xiǎn)上海分公司、快合財(cái)稅等企業(yè)通過實(shí)際案例講述了是如何基于百度大腦OCR技術(shù),進(jìn)行企業(yè)內(nèi)部智能化升級(jí)的全新思路。百度OCR產(chǎn)品經(jīng)理進(jìn)一步分享了交通、教育、醫(yī)療等更多行業(yè)應(yīng)用的案例并進(jìn)行了實(shí)際的產(chǎn)品演示?;顒?dòng)現(xiàn)場座無虛席,互動(dòng)活躍。

百度大腦O CR 技術(shù)持續(xù)保持業(yè)界第一
據(jù)介紹,百度大腦AI開放平臺(tái)面向廣泛的企業(yè)和開發(fā)者,提供最先進(jìn)、最全面的AI能力,不斷降低AI應(yīng)用落地的門檻。截至目前,已開放218項(xiàng)AI技術(shù)能力,達(dá)到24小時(shí)快速集成,開發(fā)者規(guī)模持續(xù)快速增長并突破150萬。

而基于深度學(xué)習(xí)的百度OCR技術(shù)更是獲得了持續(xù)領(lǐng)先性的成果。2019年,在由工信部、公安部和網(wǎng)信辦組織的,中國最高等級(jí)商業(yè)領(lǐng)域人工智能技術(shù)競賽的90+隊(duì)伍中,百度OCR脫穎而出,獲得唯一A級(jí)別證書,同時(shí)還獲得ICDAR2019 MLT文字檢測競賽冠軍等榮譽(yù)。

“百度OCR基礎(chǔ)技術(shù)的持續(xù)領(lǐng)先,離不開更好效果的算法創(chuàng)新和更高性能的模型壓縮。”韓鈞宇介紹到。百度OCR文字識(shí)別算法具備準(zhǔn)確、多場景、多語種、多平臺(tái)的特性,通用中英文字符識(shí)別準(zhǔn)確率達(dá)95%以上,支持文檔,隨拍,網(wǎng)圖,街景,商品,手寫等常見文字場景,并且支持中,英,日,韓,法,德,意等20多種語種,還支持云端,嵌入式,私有化等請(qǐng)求部署方式。而端到端識(shí)別、卡證票據(jù)識(shí)別、公式識(shí)別、文字編輯等解決方案則能夠更好地解決具體場景的技術(shù)痛點(diǎn)問題,提升模型精度和運(yùn)算效率,讓識(shí)別更加準(zhǔn)確高效。

未來,OCR技術(shù)的行業(yè)應(yīng)用趨勢(shì)將向綜合方案和定制平臺(tái)兩個(gè)方向發(fā)展。教育、醫(yī)療、交通、財(cái)稅等場景都已實(shí)現(xiàn)通用化的綜合解決方案,而iOCR自定義模板文字識(shí)別和垂類OCR模型訓(xùn)練平臺(tái)等定制平臺(tái)將針對(duì)更豐富的客戶需求滿足個(gè)性定制。
百度大腦O CR 實(shí)現(xiàn)最廣泛的應(yīng)用落地
此次專場,百度大腦邀請(qǐng)到了華夏保險(xiǎn)上海分公司和快合財(cái)稅兩家企業(yè)客戶根據(jù)自身結(jié)合百度OCR技術(shù)的實(shí)際應(yīng)用落地進(jìn)行了案例分享。

(左:華夏保險(xiǎn)上海分公司新技術(shù)應(yīng)用處經(jīng)理於維佳 右:快合財(cái)稅產(chǎn)品總監(jiān)寧壽輝)
華夏保險(xiǎn)上海分公司新技術(shù)應(yīng)用處經(jīng)理於維佳表示:“通過百度大腦OCR提供的解決方案,讓我們?cè)诿媾R手工錄入發(fā)票信息出錯(cuò)率高、效率低等行業(yè)痛點(diǎn)時(shí),能夠顯著的節(jié)約成本、提升財(cái)務(wù)報(bào)銷業(yè)務(wù)流程效率。”華夏保險(xiǎn)上海分公司,通過應(yīng)用百度大腦iOCR自定義模板文字識(shí)別和EasyDL定制化物體檢測,實(shí)現(xiàn)二維碼檢測、增值稅發(fā)票識(shí)別,進(jìn)而實(shí)現(xiàn)報(bào)銷單據(jù)影像分組及票面識(shí)別的自動(dòng)化業(yè)務(wù)流程,年節(jié)省人力等成本核算達(dá)到1000萬元。
快合財(cái)稅產(chǎn)品總監(jiān)寧壽輝則在現(xiàn)場講到,基于百度iOCR財(cái)會(huì)票據(jù)識(shí)別平臺(tái)搭建的快合財(cái)稅智能記賬SaaS,結(jié)合一臺(tái)自動(dòng)饋紙式掃描儀,就能夠?qū)⒖旌县?cái)稅的會(huì)計(jì)做賬效率提升3倍,每年幫助幾百家代賬公司在做賬報(bào)稅環(huán)節(jié)合計(jì)省出2000萬元的成本。
最后,百度OCR產(chǎn)品經(jīng)理更加系統(tǒng)化的詳細(xì)介紹了金融財(cái)稅之外更多行業(yè)應(yīng)用方案。目前,百度OCR已經(jīng)廣泛應(yīng)用于財(cái)稅票據(jù)、身份驗(yàn)證、內(nèi)容審核、教育、保險(xiǎn)醫(yī)療、交通以及拍照識(shí)別/翻譯等領(lǐng)域,并且為了滿足不同客戶的各種需求,百度大腦除了提供近40款垂類文字識(shí)別產(chǎn)品外,還提供了自定義模板文字識(shí)別開發(fā)平臺(tái)iOCR,針對(duì)特殊版式的票據(jù)可快速定制識(shí)別模板。通過這些案例,能夠看出在這些應(yīng)用場景中,百度OCR充分發(fā)揮著的優(yōu)勢(shì):豐富的接口、支持自定義模板、高可用的服務(wù)確保用戶業(yè)務(wù)持久穩(wěn)定、低價(jià)/多樣的付費(fèi)方式(購買次數(shù)包,最多可以節(jié)省74.6%的費(fèi)用,高精度版本低至千次7.6元),以及支持部署至私有云。

AI的大力發(fā)展,讓不同行業(yè)逐步走上了智能化升級(jí)之路,而隨著基礎(chǔ)能力的進(jìn)一步開放,百度OCR技術(shù)將獲得更多的業(yè)界專家和開發(fā)者的支持,在技術(shù)不斷突破的同時(shí),百度OCR技術(shù)也通過百度大腦AI開放平臺(tái)全面開放給第三方使用,打破封閉的研發(fā)生態(tài),積極推動(dòng)技術(shù)在具體場景上的落地。從而積累更為領(lǐng)先的技術(shù),探索更多的應(yīng)用場景,賦能更多的合作伙伴,創(chuàng)造更多的價(jià)值。
最后,對(duì)百度于2019年度公開發(fā)表的OCR文字識(shí)別領(lǐng)域創(chuàng)新技術(shù)算法,進(jìn)行簡單介紹:
文字檢測:
基于主干、候選回歸、候選區(qū)域及精細(xì)化二次回歸,文字檢測算法可對(duì)任意文字形狀進(jìn)行精確表示,解決任意形狀長行文字檢測問題,在公開數(shù)據(jù)集合達(dá)到SOTA檢測定位效果。
詳情請(qǐng)參見文章:C. Zhang, et al, Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes, in Proc. of CVPR’19
https://arxiv.org/abs/1904.06535
借鑒目標(biāo)檢測中的經(jīng)驗(yàn),為提升檢測速度,研究者通過單階段模型結(jié)構(gòu)與多分支輸出設(shè)計(jì)對(duì)文字候選區(qū)域表達(dá),多任務(wù)學(xué)習(xí)、單階段訓(xùn)練可以取得兩階段、多階段相當(dāng)?shù)男Ч?,并提升速度?/p>
詳情請(qǐng)參見文章:P. Wang, et al A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning, in Proc. of ACMMM’19 to appear
https://arxiv.org/abs/1908.05498
端到端識(shí)別:
現(xiàn)有文字識(shí)別系統(tǒng)以兩階段、多階段檢測、序列識(shí)別模型級(jí)聯(lián)為主,非規(guī)則文字識(shí)別效果精度不足。為克服同時(shí)識(shí)別規(guī)則和非規(guī)則文字效果不佳的問題,我們提出端到端OCR識(shí)別TextNet算法,通過共享主干、透視RoI變換實(shí)現(xiàn)文字檢測、空間注意力機(jī)制序列識(shí)別耦合設(shè)計(jì),同時(shí)提升非規(guī)則行的文字識(shí)別效果。
詳情請(qǐng)參見文章:Y. Sun, et al, TextNet: Irregular Text Reading from Images with an End-to-End Trainable Network. In Proc. of ACCV’18 oral
https://arxiv.org/abs/1812.09900
針對(duì)中文大類別識(shí)別場景,我們引入弱標(biāo)注數(shù)據(jù)的概念,針對(duì)街景場景只標(biāo)注關(guān)鍵詞信息,忽略非重要信息,無需精確位置標(biāo)注,避免大量精標(biāo)注全監(jiān)督數(shù)據(jù)高成本低效率問題。
基于端到端-部分監(jiān)督學(xué)習(xí)方法,弱標(biāo)注成本是精標(biāo)注的1/90,弱標(biāo)識(shí)數(shù)據(jù)量從2萬擴(kuò)增到40萬,單模型平均編輯距離AED錯(cuò)誤率相對(duì)降低20%。取公開英文數(shù)據(jù)集,端到端部分監(jiān)督學(xué)習(xí)在ICDAR 15端到端評(píng)測達(dá)到單模型尺度SOTA效果。
詳情請(qǐng)參見文章:Y. Sun, et al, Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning, in Proc. of ICCV 2019, to appear,
https://arxiv.org/abs/1909.07808
大規(guī)模公開數(shù)據(jù)集:
為進(jìn)一步推動(dòng)中文場景文字識(shí)別領(lǐng)域發(fā)展,通過構(gòu)建新的ICDAR 2019-LSVT大規(guī)模街景文字、ICDAR 2019-ArT任意形狀文字集合,百度攜學(xué)術(shù)界舉辦兩項(xiàng)ICDAR 2019場景文字識(shí)別的國際賽事,提供源于百度真實(shí)場景圖像數(shù)據(jù)45萬,獎(jiǎng)金17,800美金,吸引業(yè)內(nèi)各大企業(yè)、知名高校研究單位118支參數(shù)隊(duì)伍有效提交結(jié)果339個(gè),各大主流媒體報(bào)道20余次。百度團(tuán)隊(duì)在ICDAR 2019國際會(huì)議期間受邀做總結(jié)報(bào)告并為獲獎(jiǎng)單位頒獎(jiǎng),展現(xiàn)近年來OCR識(shí)別技術(shù)的快速發(fā)展與應(yīng)用新高度。
詳情請(qǐng)參見文章:C. Chng, et al, ICDAR 2019 RobustReading Challenge on Arbitrary-Shaped Text-ArT,in Prof. of ICDAR 2019 Oral,
https://arxiv.org/abs/1909.07741
Y. Sun, et al,ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling-LSVT,in Proc. of ICDAR 2019 Oral,
https://arxiv.org/abs/1909.07145
文字編輯
針對(duì)文字編輯和風(fēng)格遷移任務(wù),我們提出了業(yè)界首個(gè)文本行級(jí)別的文字編輯解決方案SRNet。該方案主要思想是將文字屬性遷移和背景紋理修復(fù)任務(wù)進(jìn)行解耦監(jiān)督學(xué)習(xí),并且讓網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)兩者的融合,以端到端優(yōu)化方式達(dá)到魯棒的文字編輯功能。
詳情請(qǐng)參見文章:L.Wu, et al Editing Text in the Wild, in Proc. of ACMMM’19 to appear
https://arxiv.org/abs/1908.03047
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。