ocr在線識(shí)別

ocr技術(shù)介紹

光學(xué)字符識(shí)別(Optical Character Recognition, OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過程?通常,圖像信息通過掃描儀?照相機(jī)?電子傳真軟件等設(shè)備獲取并存儲(chǔ)在圖像文件中,然后OCR軟件讀取?分析圖像文件并通過字符識(shí)別提取出其中的字符串?

OCR中文意思為光學(xué)文字識(shí)別,它通過掃描把所有文稿?書籍等材料進(jìn)行掃描,對(duì)掃描的圖片進(jìn)行分析,獲取字符和版面上信息的一個(gè)過程?因此,OCR技術(shù)為一種比較方便?簡(jiǎn)單的字符錄入方法?OCR軟件包括圖像預(yù)處理模塊?圖像版面分析模塊?字符切分識(shí)別模塊和字符編輯分類模塊4個(gè)部分構(gòu)成?從1929年開始,世界各國(guó)就開始研究OCR技術(shù)?

PDF文件識(shí)別

ocr在線識(shí)別

ocr在線識(shí)別工作流程

一?OCR識(shí)別預(yù)處理:灰度化(如果是彩色圖像)?降噪?二值化?字符切分以及歸一化這些子步驟?經(jīng)過二值化后,圖像只剩下兩種顏色,即黑和白,其中一個(gè)是圖像背景,另一個(gè)顏色就是要識(shí)別的文字了;降噪在這個(gè)階段非常重要,降噪算法的好壞對(duì)特征提取的影響很大?字符切分則是將圖像中的文字分割成單個(gè)文字——識(shí)別的時(shí)候是一個(gè)字一個(gè)字識(shí)別的?如果文字行有傾斜的話往往還要進(jìn)行傾斜校正?歸一化則是將單個(gè)的文字圖像規(guī)整到同樣的尺寸,在同一個(gè)規(guī)格下,才能應(yīng)用統(tǒng)一的算法

二?特征提取和降維:特征是用來識(shí)別文字的關(guān)鍵信息,每個(gè)不同的文字都能通過特征來和其他文字進(jìn)行區(qū)分?對(duì)于數(shù)字和英文字母來說,這個(gè)特征提取是比較容易的,因?yàn)閿?shù)字只有10個(gè),英文字母只有52個(gè),都是小字符集?對(duì)于漢字來說,特征提取比較困難,因?yàn)槭紫葷h字是大字符集,國(guó)標(biāo)中光是最常用的第一級(jí)漢字就有3755個(gè);第二個(gè)漢字結(jié)構(gòu)復(fù)雜,形近字多?在確定了使用何種特征后,視情況而定,還有可能要進(jìn)行特征降維,這種情況就是如果特征的維數(shù)太高(特征一般用一個(gè)向量表示,維數(shù)即該向量的分量數(shù)),分類器的效率會(huì)受到很大的影響,為了提高識(shí)別速率,往往就要進(jìn)行降維,這個(gè)過程也很重要,既要降低維數(shù)吧,又得使得減少維數(shù)后的特征向量還保留了足夠的信息量(以區(qū)分不同的文字)?

三?分類器設(shè)計(jì)?訓(xùn)練和實(shí)際識(shí)別:分類器是用來進(jìn)行識(shí)別的,就是對(duì)于第二步,對(duì)一個(gè)文字圖像,提取出特征給分類器,分類器就對(duì)其進(jìn)行分類,告訴你這個(gè)特征該識(shí)別成哪個(gè)文字?在進(jìn)行實(shí)際識(shí)別前,往往還要對(duì)分類器進(jìn)行訓(xùn)練,這是一個(gè)監(jiān)督學(xué)習(xí)的案例?

四?OCR識(shí)別后處理:后處理是用來對(duì)分類結(jié)果進(jìn)行優(yōu)化的,第一,分類器的分類有時(shí)候不一定是完全正確的,比如對(duì)漢字的識(shí)別,由于漢字中形近字的存在,很容易將一個(gè)字識(shí)別成其形近字?后處理中可以去解決這個(gè)問題,比如通過語(yǔ)言模型來進(jìn)行校正——如果分類器將“在哪里”識(shí)別成“存哪里”,通過語(yǔ)言模型會(huì)發(fā)現(xiàn)“存哪里”是錯(cuò)誤的,然后進(jìn)行校正?第二,OCR識(shí)別圖像往往是有大量文字的,而且這些文字存在排版?字體大小等復(fù)雜情況,后處理中可以嘗試去對(duì)識(shí)別結(jié)果進(jìn)行格式化,比如按照?qǐng)D像中的排版排列?

ocr在線識(shí)別的出現(xiàn)加快了我們智能化辦公的推進(jìn),目前辦公運(yùn)用了很多的ocr在線識(shí)別技術(shù),它提高了我們辦公效率,改變了我們的辦公方式?再推薦一款非常好用的PDF編輯器——福昕PDF編輯器,它是永久免費(fèi)試用的高效PDF編輯器?外行看熱鬧,內(nèi)行看門道,福昕PDF編輯可以自由編輯PDF內(nèi)容,文檔轉(zhuǎn)換,頁(yè)面管理,掃描件/圖片OCR識(shí)別,電子簽名和文檔保護(hù),電子表單數(shù)百項(xiàng)大小功能?對(duì)金融,律師,財(cái)會(huì),招投標(biāo),工程設(shè)計(jì)和施工等行業(yè)來說,更是不可或缺的實(shí)用軟件!

標(biāo)簽:
#OCR識(shí)別軟件怎樣使用
#ocr識(shí)別工具有哪些功能
#PDF文件怎樣識(shí)別
本文地址: http://www.cloudcash.cn/pdfbianji/jiaocheng/4814.html

版權(quán)聲明:除非特別標(biāo)注,否則均為本站原創(chuàng)文章,轉(zhuǎn)載時(shí)請(qǐng)以鏈接形式注明文章出處。

點(diǎn)贊
關(guān)注

標(biāo)簽列表

隨機(jī)推薦

1.拆?PDF的拆開怎么做?攻略在此!

2.怎樣設(shè)置Mac版PDF文件的編輯權(quán)限?

3.如何將Mac版的PDF文件轉(zhuǎn)換成PPT格式?

4.怎樣利用福昕PDF編輯器Mac版將PDF轉(zhuǎn)換為Excel?

5.怎樣使Mac版PDF文件中的所有頁(yè)面都是顛倒排序?

6.如何使用福昕PDF編輯器Mac版在PDF文檔里添加網(wǎng)絡(luò)鏈接?

7.如何使用MAC電腦將PDF轉(zhuǎn)成圖片呢?

8.PDF旋轉(zhuǎn)視圖怎么做?福昕PDF編輯器教程

9.在MAC系統(tǒng)里Mac版PDF應(yīng)該怎樣添加圖片?

10.Mac版的PDF文件是怎樣互換頁(yè)面的呢?

11.MAC系統(tǒng)中的PDF文件該如何轉(zhuǎn)換為jpg圖片呢?

12.PDF添加目錄這么做

相關(guān)文章

最新文章

政企

合作

如果您需要

  • 了解平臺(tái)產(chǎn)品

    了解平臺(tái)產(chǎn)品

  • 預(yù)約產(chǎn)品演示

    預(yù)約產(chǎn)品演示

  • 申請(qǐng)產(chǎn)品試用

    申請(qǐng)產(chǎn)品試用

  • 定制合作方案

    定制合作方案

福昕

福利官

福利官

掃一掃添加福昕福利官

如果您需要

福利官

添加福昕福利官

微信掃碼

免費(fèi)獲取合作方案和報(bào)價(jià)

二維碼

QQ咨詢

800802977

咨詢熱線

0591-28026998

開始輕松編輯PDF文檔

不同的終端設(shè)備/系統(tǒng),擁有相同的文檔處理能力

封开县| 襄垣县| 油尖旺区| 湖南省| 呼和浩特市| 溧水县| 西藏| 外汇| 香格里拉县| 富蕴县| 成安县| 大方县| 五峰| 祁阳县| 大埔县| 卫辉市| 缙云县| 内黄县|