今天我?guī)Т蠹乙黄饋砹私庖幌?,ocr提高識別率的方法有哪些,如何計(jì)算OCR的準(zhǔn)確率,
OCR識別率取決于什么這幾個問題的相關(guān)信息。同時大家也可以去福昕全能王尋找相關(guān)的知識。
福昕全能王ocr提高識別率的方法
1、處理原稿掃描圖像,使之清晰可“辨。
在其它因素都滿足的前提下,對一般的印刷稿、打印稿(包括清晰的針打稿)等質(zhì)量較好的文稿進(jìn)行識別,其識別率一般可達(dá)到98%以上。而對報紙、復(fù)印件等不太清晰的文稿進(jìn)行識別,無論哪種OCR都難以達(dá)到較高的識別率。對那些原稿不太清晰的,要注意識別前對圖像加以處理,除去其上的污跡。并注意將偏斜的版面“改斜歸正,通常〇CR軟件均有此功能,且一般都設(shè)有自動糾偏和手動糾偏。;
2、分辨率應(yīng)選擇適宜。
一般選擇300dpi較合適,分辨率選小了會使識別率降低,選得太大了并不能有效提高識別率,還會大幅度加長文件長度,浪費(fèi)處理時間。有的掃描軟件設(shè)備上有一項(xiàng)“
OCR掃描,干脆將分辨率鎖定為300dpi,這是很有道理的。;
3、調(diào)整好亮度值和對比度值。
這條非常關(guān)鍵,對識別率的影響很大。亮度值的調(diào)整是在識別前,先看看掃描得到的圖像中文字質(zhì)量如何,如果文字線條凹凸不平,甚至有斷線,說明亮度值太大了,應(yīng)減小亮度值;當(dāng)文字線條很黑很粗,甚至擠成了黑疙瘩,分不清筆劃時,則說明亮度值太小了,應(yīng)增加亮度值;對比度的調(diào)節(jié)要視原稿確定,筆者常根據(jù)預(yù)掃時圖像清晰度確定。;
4、利用OCR的自學(xué)習(xí)功能。
有時OCR對某些字總是難以識別,比如OCR開始對“的和“二等字總是搞錯,這時可以利用OCR軟件的自學(xué)習(xí)功能,“引導(dǎo)它正確識別一次(有些不同的字體各需一次),它以后就對這些字“熟識了。具體操作極易,上機(jī)看一下菜單即可明白。另外,若原稿全是英文或其中中文很少,最好用附贈的英文OCR軟件。還有,現(xiàn)在已有一些很好的文字校對軟件,其中一般都設(shè)置了OCR校對,利用這些軟件先行處理一下所得文本文件,則可大大減輕人工校對負(fù)擔(dān)。
如何計(jì)算OCR的準(zhǔn)確率
計(jì)算OCR有效性的方法有兩種:一是在字符層面描述的準(zhǔn)確率,二是在單詞層面計(jì)算的準(zhǔn)確率。 然后,當(dāng)談到提高 OCR 精度時,方程式中有兩個活動部分:
1. 原圖像的質(zhì)量
如果原圖像的精度好,人眼可以清楚地看到,則可以獲得最佳的OCR結(jié)果。 但是,如果您不確定是否可以清楚地看到原始來源,則 OCR 結(jié)果很可能會包含錯誤。 原圖像質(zhì)量越高,越容易將字符與其他字符分開,OCR 準(zhǔn)確率也越高。
2. OCR引擎的質(zhì)量
可以使用不同的 OCR 引擎,盡管它們都使用相同的算法,但其中許多都有自己的優(yōu)點(diǎn)和缺點(diǎn)。 比較 OCR 的準(zhǔn)確率很困難,因?yàn)樗饕Q于分配的預(yù)算以及您調(diào)整現(xiàn)有系統(tǒng)的正確 OCR 引擎的方式。 在 OCR 引擎中,有一些程序?qū)嶋H上會嘗試識別圖像中的文本,但它們不如原圖像準(zhǔn)確。
OCR識別率取決于什么
1.圖片的質(zhì)量,一般建議150dpi以上
2.顏色,一般對彩色識別很差,黑白的圖片較高,因此建議ocr的為黑白tif格式
3.最重要的就是字體,如果是
手寫識別率很低。
ocr提高識別率的方法有很多,大家可以去網(wǎng)上尋找相關(guān)的方法,同時大家也可以去嘗試實(shí)踐一下提高ocr提高識別率的方法,這樣可以驗(yàn)證方法的可行性。