【PDF】紫光文字识别软件 - 资源下载

编辑：

bingyan8

2016-04-23

5 号以上的印刷材料,可适当选择其扫描分辨率为 300dpi,扫描亮度为自动或默认值;

3. 对已有的图像文件,要注意其图像存储格式是否符合 TH-OCR 紫光专业版系统的要求 (非压缩 TIFF 格式、PackBit 或G4 压缩的 TIFF 格式、BMP 格式或 PCX 格式). 进行图像版面处理对扫描所得图像文件根据需要进行处理(旋转、反转、剪裁、倾斜校正等) 和版面分析等,并选择需识别的内码、字体,为识别做好准备. 注意: 对于比较简单的结构,可以使用自动版面分析 ,如果版面较复杂,请手工进行版面分析,只需简单地用鼠标框选各识别区域,并根据原稿的版式选择要进行文字识别的区域的属性,如:横排正文、竖排正文、表格、图形等.如果不选择,则认为是对整篇图像进行识别.在对整篇图像进行识别时,识别区域中不能包含有图形. 从命令菜单选择识别命令或单击工具条的识别按钮 ,完成版面的识别.完成后,双击被识别图像文件之后,再双击识别后的文件名,进人编辑修改状态. 在编辑修改状态,对于正常识别的文字用黑色显示,对于可疑字用系统设置中指定的颜色显示(默认为红色),便于提示修改. 系统提供 Windows 标准的编辑操作和 TH-OCR 紫光专业版系统特有的编辑功能.Windows 标准的编辑操作包括剪切、复制、粘贴和清除等,TH-OCR 紫光专业版系统特有的编辑功能主要包括前向词汇、逆向词汇、相似字、常用符号、和行逆序. 通过双击项目管理窗口的原图形文件和被识别后文件,可以在图像状态和编辑状态间切换. 识别结果输出识别结果经修改编辑后,可根据需要输出. 存盘:从文件菜单选择另存为命令,在另存为对话框中指定文件名后将文本以其它文件名保存. 导出:从文件菜单选择导出命令,在导出为对话框中指定文件名后可将识别后的稿件以包含版面格式的富文本格式 (RTF) 文件、包含版面格式的页面格式(html 格式,可用 IE

5 等应用程序打开)以及纯文本的保存. 打印:建议通过 Word 或IE 等编辑软件进行编辑后打印或按 ,进行打印. 退出在识别过程中系统会生成跟踪文件.为节省硬盘空间,退出系统时,系统会将工作目录中 *.chr、*.sim、*.trc、*.rgn 等跟踪文件自动删除.

3、、表表格格的的识识别别与与导导出出对表格图像的识别参照如下步骤: 版面分析 1. 将表头或独立于表格的文本部分单独框出,并定义为正文属性,框线为兰色. 2. 将完整的表格图像框出,定义成表格属性,框线为粉红色. 3. 依原稿类型定义文字属性为简体多体、繁体多体或其它. 识别对所选区域进行识别,识别完成后请进人编辑界面,可进行文字的编辑修改. 导出由于包含表格,因此识别结果一定要导出为 RTF 或HTML 格式,否则表格线是断开的. 提示:横排正文的框线为蓝色;

竖排正文的框线为红色;

表格的框线为粉色;

图形的框线为绿色,图形框线内的内容是不被识别的.

4、、倾倾斜斜校校正正扫描时,原稿一定要摆放端正,若稍有倾斜可使用倾斜校正功能自动校正,若倾斜角度较大时,则需进行手动的倾斜校正.手动倾斜校正的方法是: 按住 Shift 键的同时按鼠标的右键在图像中拉一条平行于倾斜文字行的直线, 然后放开鼠标的右键,则校正完成.但如果倾斜角度太大(超过 15°),则会由于倾斜校正产生较大的失真和误差,从而影响识别结果.建议重新扫描图像.

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: 江苏社会保险
上一篇: Avira Premium Security Suite

PDF《紫光文字识别软件》