掃一掃添加福昕福利官
OCR
OCR識別技巧有哪些?
1.分辨率的設置是PDF文字識別的重要前提?一般來講,掃描儀提供較多的圖像信息,識別軟件比較容易得出識別結(jié)果?
2.掃描時適當?shù)卣{(diào)整好亮度和對比度值,使掃描文件黑白分明?這對識別率的影響最為關(guān)鍵,掃描亮度和對比度值的設定以觀察掃描后的圖像中漢字的筆畫較細但又不斷開為原則?
3.選好掃描軟件?選一款好的適合自己的OCR軟件是作好文字識別工作的基礎,一般不要使用掃描儀自帶的OEM軟件,OEM的OCR軟件的功能少?效果差,有的甚至沒有中文識別?
OCR
OCR系統(tǒng)的組成
漢字識別軟件OCR的功能是將各種錄入漢字?印刷體或手寫體中每個漢字的圖形或圖像通過計算機辨認出來,并標出漢字類別代碼?因此,漢字識別歸根結(jié)底是一個圖像識別問題?由于漢字信息量很大,具有不同的字形?字體,而且結(jié)構(gòu)復雜,因此漢字識別的過程極其復雜?
由于掃描儀的普及與廣泛應用,OCR軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動軟件即可?因此,OCR軟件主要是由圖像處理模塊?版面劃分模塊?文字識別模塊和文字編輯模塊等4部分組成?
1?圖像處理模塊
圖像處理模塊主要具有文稿掃描?圖像縮放?圖像旋轉(zhuǎn)等功能?通過掃描儀輸入后,文稿形成圖像文件,圖像處理模塊可對圖像進行放大,去除污點和劃痕,如果圖像放置不正,可以手工或自動旋轉(zhuǎn)圖像,目的是為文字識別創(chuàng)造更好的條件,使識別率更高?
2?版面劃分模塊
版面劃分模塊主要包括版面劃分?更改劃分,即對版面的理解?字切分?歸一化等,可選擇自動或手動兩種版面劃分方式?目的是告訴OCR軟件將同一版面的文章?表格等分開,以便于分別處理,并按照怎樣的順序進行識別?
3?文字識別模塊
文字識別模塊是OCR軟件的核心部分,文字識別模塊主要對輸入的漢字進行"閱讀",但不能一目多行,必須逐行切割,對于漢字通常也是一個字一個字地辨認,即單字識別,再進行歸一化?文字識別模塊通過對不同樣本漢字的特征進行提取,完成識別,自動查找可疑字,具有前后聯(lián)想等功能?
4?文字編輯模塊
文字編輯模塊主要對OCR識別后的文字進行修改?編輯,如系統(tǒng)識別認為有誤,則文字會以醒目的紅色或藍色顯示,并提供相似的文字供選擇,選擇編輯器供輸出等?
OCR技術(shù)的出現(xiàn)帶動了各行各業(yè)的發(fā)展,通過OCR技術(shù)的不斷運用推動著人工智能在各領域的發(fā)展?通過OCR的運用可以加快各領域的發(fā)展速度?
版權(quán)聲明:除非特別標注,否則均為本站原創(chuàng)文章,轉(zhuǎn)載時請以鏈接形式注明文章出處。
政企
合作
了解平臺產(chǎn)品
預約產(chǎn)品演示
申請產(chǎn)品試用
定制合作方案
福昕
福利官
掃一掃添加福昕福利官
了解平臺產(chǎn)品
預約產(chǎn)品演示
申請產(chǎn)品試用
定制合作方案
添加福昕福利官
微信掃碼
免費獲取合作方案和報價