課程簡介
案例背景:
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,光學(xué)字符識別技術(shù)(OCR)被廣泛的運用至各個場景之中,包括自然場景中文字識別、車牌識別、票據(jù)識別等等,是機(jī)器服務(wù)人類的重要場景之一。根據(jù)美國研究機(jī)構(gòu)Grand View Research, Inc的最新報告,預(yù)計到2025年,全球光學(xué)字符識別市場規(guī)模將達(dá)到133.8億美元。
但目前OCR發(fā)展面臨著諸多難題,
(1)模型的效果和處理速度的要求:OCR應(yīng)用常對接海量圖片轉(zhuǎn)文本數(shù)據(jù),要求數(shù)據(jù)能夠得到實時處理,甚至有一些OCR應(yīng)用需要部署在移動端或嵌入式硬件,對OCR模型的大小和預(yù)測速度提出了很高的要求。
(2)自定義從訓(xùn)練到部署全流程的需求:自然環(huán)境復(fù)雜多樣,機(jī)器識別面臨著尺度、光照不足、拍攝模糊等問題。同時業(yè)務(wù)場景不同,也會導(dǎo)致通用的商業(yè)API無法滿足多樣性需求,迫切需要完整的自定義訓(xùn)練能力和支持多樣的部署能力。
解決思路:
(1)打造8.6M超輕量模型:通過精選backbone、調(diào)整特征通道數(shù)等手段,在保證效果的前提下,不斷壓縮模型到8.6M,包含1個檢測模型(4.1M)與1個識別模型(4.5M),非常適合于部署于移動端。
(2)打通從訓(xùn)練到部署全流程:模型訓(xùn)練精選2種檢測算法(EAST、DB)、4種文本識別算法(CRNN、Rosseta、STAR-Net、RARE),基本可以覆蓋常見的OCR任務(wù)需求。支持基于Python/C++的預(yù)測推理、支持Serving服務(wù)化部署、支持端側(cè)部署等豐富的部署方式,同時還提供了在線演示、Apk Demo供開發(fā)者嘗試使用。
成果:
PaddleOCR開源項目經(jīng)媒體報道后,引起全球開發(fā)者的熱切關(guān)注和廣泛好評,媒體發(fā)稿第二天,登上GitHub Trending全球榜第一名,并且截至分享者提供材料之時,項目持續(xù)保持在周榜TOP3位置,技術(shù)交流群大量企業(yè)開發(fā)者完成企業(yè)項目落地。
目標(biāo)收益
(1)最新的前沿OCR技術(shù)進(jìn)展及發(fā)展方向
(2)解析8.6M超輕量中英文OCR模型是如何打造的
(3)從訓(xùn)練到部署的完整解決方案(含真實企業(yè)案例)
(4)傳授GitHub Trending 全球榜第一名登頂經(jīng)驗
培訓(xùn)對象
課程內(nèi)容
案例方向
智能語音/圖神經(jīng)網(wǎng)絡(luò)/知識圖譜/NLP/計算機(jī)視覺
案例背景
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,光學(xué)字符識別技術(shù)(OCR)被廣泛的運用至各個場景之中,包括自然場景中文字識別、車牌識別、票據(jù)識別等等,是機(jī)器服務(wù)人類的重要場景之一。根據(jù)美國研究機(jī)構(gòu)Grand View Research, Inc的最新報告,預(yù)計到2025年,全球光學(xué)字符識別市場規(guī)模將達(dá)到133.8億美元。
但目前OCR發(fā)展面臨著諸多難題,
(1)模型的效果和處理速度的要求:OCR應(yīng)用常對接海量圖片轉(zhuǎn)文本數(shù)據(jù),要求數(shù)據(jù)能夠得到實時處理,甚至有一些OCR應(yīng)用需要部署在移動端或嵌入式硬件,對OCR模型的大小和預(yù)測速度提出了很高的要求。
(2)自定義從訓(xùn)練到部署全流程的需求:自然環(huán)境復(fù)雜多樣,機(jī)器識別面臨著尺度、光照不足、拍攝模糊等問題。同時業(yè)務(wù)場景不同,也會導(dǎo)致通用的商業(yè)API無法滿足多樣性需求,迫切需要完整的自定義訓(xùn)練能力和支持多樣的部署能力。
收益
(1)最新的前沿OCR技術(shù)進(jìn)展及發(fā)展方向
(2)解析8.6M超輕量中英文OCR模型是如何打造的
(3)從訓(xùn)練到部署的完整解決方案(含真實企業(yè)案例)
(4)傳授GitHub Trending 全球榜第一名登頂經(jīng)驗
解決思路
(1)打造8.6M超輕量模型:通過精選backbone、調(diào)整特征通道數(shù)等手段,在保證效果的前提下,不斷壓縮模型到8.6M,包含1個檢測模型(4.1M)與1個識別模型(4.5M),非常適合于部署于移動端。
(2)打通從訓(xùn)練到部署全流程:模型訓(xùn)練精選2種檢測算法(EAST、DB)、4種文本識別算法(CRNN、Rosseta、STAR-Net、RARE),基本可以覆蓋常見的OCR任務(wù)需求。支持基于Python/C++的預(yù)測推理、支持Serving服務(wù)化部署、支持端側(cè)部署等豐富的部署方式,同時還提供了在線演示、Apk Demo供開發(fā)者嘗試使用。
結(jié)果
PaddleOCR開源項目經(jīng)媒體報道后,引起全球開發(fā)者的熱切關(guān)注和廣泛好評,媒體發(fā)稿第二天,登上GitHub Trending全球榜第一名,并且截至分享者提供材料之時,項目持續(xù)保持在周榜TOP3位置,技術(shù)交流群大量企業(yè)開發(fā)者完成企業(yè)項目落地。