複製鏈接
請複製以下鏈接發送給好友

文字識別軟件

鎖定
文字識別軟件將圖象製作成點陣信息保存於字庫,可以識別掃描圖片上的文字和pdf文檔上面的文字並且把這些文字轉換為可編輯文字的辦公軟件
軟件名稱
文字識別
軟件平台
windows
軟件語言
中文
軟件大小
64.5M
外文名
OCR
原    理
圖象製作成點陣信息保存於字庫

文字識別軟件軟件信息

文字識別軟件 文字識別軟件
1.自動鎖定文字段落,自動計算行高,行間距,字間距,只需要大致給出範圍即可;
2.附帶字庫建造工具,可以任意抓圖,將圖片建造成字庫信息,供插件來調用;
3.字庫建造工具附帶窮舉文字程序,可遍歷操作系統中所有的字體字號,將其轉換為所需要的字庫;
4.支持顏色不純,有所偏差的文字識別及字庫建造;
5.支持數據庫和文本2種類型的字庫;
6.文字識別可支持模糊識別(只針對文本類字庫);

文字識別軟件常用軟件

文字識別軟件文字識別

掃描OCR文字識別軟件,支持全能掃描拍照識別翻譯技術,是圖片轉文字中一款支持文字提取及文字編輯功能的拍圖識字翻譯軟件。

文字識別軟件常見功能

1、上傳圖片識別:迅捷文字識別支持手機相冊圖片直接上傳,轉換成文字;
2、拍照識別
3、圖片生成PDF
4、拍照翻譯
5、票證識別
6、手寫識別

文字識別軟件簡介

基本使用方法:
1、打開尚書七號,選擇打開圖象。(我用的版本可以識別的格式有bmp、tif、jpg)
2、選擇開始識別或按F8。識別結果將顯示在窗口上部,下部顯示版面分析結果。其中紅線為可識別部分,綠線為不可識別。
3、選擇輸出--到指定格式文件,將識別結果保存為需要的格式。
詳細操作
1. 尚書7號OCR軟件是MICROTEK中晶科技公司,向漢王科技購買授權,贈送給用户使用的軟件,該軟件是放在了掃描儀隨機的驅動光盤中,用户可以選擇安裝。
2. 軟件安裝完畢後,用户請點擊桌面左下角“開始”,找到“尚書7號OCR”軟件圖標,並點擊。打開尚書7號OCR的使用界面。
3. 打開尚書7號OCR的“文件”採單下的“選擇掃描儀”,選擇對應掃描儀的驅動“MICROTEK SCANWIZARD 5”的選項。並選擇“確定”。
4. 選擇“文件”菜單下的“掃描”,將打開掃描儀的驅動。下面的界面是掃描儀的“高級控制面板”。  5. 用户請注意選擇SCANWIZARD 5軟件中,左面“設置”窗口中的“圖像類型”,請選擇“RGB色彩”或者“灰階”的類型,並注意掃描儀分辨率是300PPI。
6. 當用户作完“預覽”後,設置需要掃描的範圍,就可以點擊“掃描”按鈕,掃描儀將開始掃描的工作。將掃描好的文件,直接傳遞到尚書7號OCR默認的目錄中(默認的存儲圖像文件的目錄是用户計算機C盤下的SHOCR2002目錄下的IMAGE目錄)。掃描完畢後,請用户關閉掉掃描儀驅動程序SCANWIZARD 5.用户可以看到需要掃描的文件已經傳遞給尚書7號中,默認的文件名是HW001.JPG。
7. 請用户選擇尚書7號軟件中的“編輯”菜單下的“自動傾斜校正”,讓尚書7號軟件對掃描進來的圖像作相應的旋轉,以保證圖像中的文字是水平排列,而非傾斜。因為太過傾斜的文字,將影響到尚書軟件的識別效果。
8. 版面分析完畢後,用户可以看到對應的文字塊,都有對應的識別框被選擇。
9. 用户此時,請注意,對應的識別框,其屬性是否正確。識別框分別有“橫欄”、“豎欄”、“表格”和“圖像”等四種屬性,分別有四種不同顏色的選框來表示。
10 核對無誤後,用户可以使用“識別”菜單下的“開始識別”按鈕。得到結果......
11. 此時實際上已經進入文字校對狀態......
12. 當用户校對完畢後,或者不在尚書7號內作校對,用户可以選擇“輸出”菜單下的“到指定格式文件”.  用户可以看到,識別的結果,有TXT、RTF、HTML、XLS等格式可以選擇。默認的輸出的目錄是用户計算機C盤下的SHOCR2002目錄下的OUTPUT目錄。用户選擇一個對應的文件名,就可以存盤了。為了方便,用户可以選擇“輸出到外部編輯器”的選項,這樣存盤的同時,尚書7號OCR會自動調出對應的編輯軟件,如TXT存盤可以自動調用NOTEPAD軟件,RTF存盤將自動調用WORD軟件,XLS存盤將自動調用EXCEL軟件。  一個簡單的OCR操作就此完成了。

文字識別軟件注意問題

1、圖片質量。批量識別時,首先應確保要識別的圖片質量。如不能識別還需要重新處理,甚至會導致軟件死掉,浪費時間。我本人就曾深受其苦。圖片分辨率應稍高,肉眼看感覺偏大,因為識別工具是有點近視的,文字和底色對比要求不高,通常來説,肉眼能看清楚即可,底色發灰或發黑基本不會影響識別結果。
2、避免有不規則形狀(圖片)出現。識別工具在進行版面分析時,只能採用方形切割,當圖片中存在文字環繞不規則形狀時,則無法將文字和該形狀劃分開,則將出現錯誤或無法識別。此時,較快的辦法是在PS中,吸取該圖片附近的頁面底色,用粗畫筆將該區域塗上,不必講求效果,顏色沒有太大差別即可,重新保存圖片。
3、避免圖象傾斜。尚書七號中也有自動傾斜校正和手動傾斜校正工具,但即使經過校正,識別率還是低很多。如果是拍攝的書本,可能會產生一定弧度,此時保證行的兩端對齊即可。另外在拍攝時應避免高光等會使圖象各部分亮度反差大的情況。

文字識別軟件控制面板

為了得到較好的OCR使用效果,建議用户將掃描儀的驅動SCANWIZARD 5軟件,由初始安裝的標準控制面板,切換到高級控制面板狀態。

文字識別軟件轉換技巧

1、可以將書攤平,一次將兩邊都掃描或拍攝下來,節省時間。處理圖片時不必剪開,這時要用到尚書七號的分欄工具了。直接用鼠標在打開的圖象上拖拽,可出現選框,分成左右兩個分欄,分欄左上角的編號就是識別結果的排列順序。它會將自動按照編號順序將所有分欄的內容連接在一起。
2、手動分欄可解決部分圖象無法識別的問題。在進行識別後,可以看到版面分析結果,有時候由於圖象質量原因,自動分析出的有效版面只是很小的一部分。此時可以按ctrl+del取消版面分析結果,用鼠標拖拽,劃定需要識別的範圍,重新進行識別。當圖片質量問題不大時,這個辦法有效。
有時候(尤其是拍攝所得圖片),文字扭曲嚴重,即使用PS也無法調整好。可嘗試手動分欄,多劃分幾欄,每一欄包含一行或少數幾行文字,這樣對於每個分欄來説,它所包含的範圍內誤差度相對減小,可提高識別率。
3、使用批量識別功能。尚書七號可以一次性識別大量圖片。但在實際應用中,依次識別不宜過多,便於隨時檢查識別結果,發現錯誤及時修正。
4、批量識別圖象時,保存文件也要花費大量時間。事實上,尚書七號在識別文件的同時,會在圖片所在文件夾生成文本文檔,名稱與圖片名稱相同。因此,如果不是特別需要,可以不必再保存輸出結果。  如所識別內容屬於一部分,可以將左側的圖象列表全選(ctrl+A),再選擇“輸出--到指定格式文件”,則當前所有識別內容按照圖片排列順序保存在一個文件中。  我使用的尚書七號不能記憶保存路徑,每次選擇保存時,都會默認打開程序安裝目錄下的“outout”文件夾,不必每次都選擇路徑,可以先保存在這裏,然後一起轉移文件。
5、如果想保留文件中的圖片,在輸出結果時選用RTF格式,再用word打開,可以看到格式完全正確的文字和圖片了。
6、用書本的頁碼給文件命名是明智的選擇。我曾經用內容摘要命名,自以為清晰明瞭,結果在最後修正錯誤字符時悔恨交加。
7、當一個圖象完全無法識別時,可稍稍增加亮度或對比度,有時候只差那麼一點點,它也不給你工作。  8、分欄的幾個類型。當單擊一個分欄時,工具欄中會相應分欄類型的按紐會按下。分欄有橫欄(橫排文字)、豎欄(豎排文字)、圖片、表格等幾個類型,一般情況下可以自動識別類型,但手動分欄時一定要選擇相應的類型,以提高識別率。
以上問題針對拍攝情況而言,掃描的話相信會減少問題,如果能拆書的話,最好還是拆吧。

文字識別軟件文檔識別

1. 過程與上面所介紹,基本一樣,只是用户需要注意存盤格式。
2. 一般,如果用户需要對該文字,進行重新排版工作,請用户選擇TXT存盤,然後再將其內容拷貝到WORD中。
3. 如果用户希望保留稿件的原有格式,並能夠作版面的恢復,請使用RTF格式存盤,該格式將有版面的恢復功能。但是用户只能針對其中的文字,作一些個別字的調整,無法作大範圍的排版方式的修改。

文字識別軟件表格識別

1. 其中,掃描、自動傾斜矯正過程同普通文稿是一樣的。
2. 但是注意“版面分析”後,對其結果進行檢查。應該在表格上,經過版面分析後,有一個蘭色的框,選中了表格部分,如果不是,用户需要修改欄屬性或者考慮手動劃定識別區域。
3. 注意輸出結果的選擇,如果是需要重新排版,用户應該分別用TXT和XLS格式存盤,然後將TXT中的文字和XLS中的表格分別拷貝到WORD,進行排版。