编辑: bingyan8 | 2016-04-23 |
5 号以上的印刷材料,可适当选择 其扫描分辨率为 300dpi,扫描亮度为自动或默认值;
3. 对已有的图像文件,要注意其图像存储格式是否符合 TH-OCR 紫光 专业版 系统的要求 (非压缩 TIFF 格式、PackBit 或G4 压缩的 TIFF 格式、BMP 格式或 PCX 格式). 进行图像版面处理 对扫描所得图像文件根据需要进行处理(旋转、反转、剪裁、倾斜校正等) 和版面分析等,并选择需识别的内码、字体,为识别做好准备. 注意: 对于比较简单的结构,可以使用自动版面分析 ,如果版面较复杂,请手 工进行版面分析,只需简单地用鼠标框选各识别区域,并根据原稿的版式选择 要进行文字识别的区域的属性,如:横排正文 、竖排正文 、表格 、图形等.如果不选择,则认为是对整篇图像进行识别.在对整篇图像进行识别 时,识别区域中不能包含有图形. 从 命令 菜单选择 识别 命令或单击工具条的识别按钮 ,完成版面 的识别.完成后,双击被识别图像文件之后,再双击识别后的文件名,进人编 辑修改状态. 在编辑修改状态,对于正常识别的文字用黑色显示,对于可疑字用系统设 置中指定的颜色显示(默认为红色),便于提示修改. 系统提供 Windows 标准的编辑操作和 TH-OCR 紫光专业版 系统特有的编辑 功能.Windows 标准的编辑操作包括剪切、复制、粘贴和清除等,TH-OCR 紫光 专业版系统特有的编辑功能主要包括前向词汇、逆向词汇、相似字、常用符 号、和行逆序. 通过双击项目管理窗口的原图形文件和被识别后文件,可以在图像状态和 编辑状态间切换. 识别结果输出 识别结果经修改编辑后,可根据需要输出. 存盘:从 文件 菜单选择 另存为 命令,在 另存为 对话框中指 定文件名后将文本以其它文件名保存. 导出:从 文件 菜单选择 导出 命令,在 导出为 对话框中指定 文件名后可将识别后的稿件以包含版面格式的富文本格式 (RTF) 文件、包含 版面格式的页面格式(html 格式,可用 IE
5 等应用程序打开)以及纯文本 的保存. 打印:建议通过 Word 或IE 等编辑软件进行编辑后打印或按 ,进行打 印. 退出 在识别过程中系统会生成跟踪文件.为节省硬盘空间,退出系统时,系统 会将工作目录中 *.chr、*.sim、*.trc、*.rgn 等跟踪文件自动删除.
3
3、 、表 表格 格的 的识 识别 别与 与导 导出 出 对表格图像的识别参照如下步骤: 版面分析 1. 将表头或独立于表格的文本部分单独框出,并定义为 正文 属性,框 线为兰色. 2. 将完整的表格图像框出,定义成 表格 属性,框线为粉红色. 3. 依原稿类型定义文字属性为简体多体、繁体多体或其它. 识别 对所选区域进行识别,识别完成后请进人编辑界面,可进行文字的编辑修 改. 导出 由于包含表格,因此识别结果一定要导出为 RTF 或HTML 格式,否则表格线 是断开的. 提示:横排正文的框线为蓝色;
竖排正文的框线为红色;
表格的框线为粉 色;
图形的框线为绿色,图形框线内的内容是不被识别的.
4
4、 、倾 倾斜 斜校 校正 正 扫描时,原稿一定要摆放端正,若稍有倾斜可使用倾斜校正功能自动校 正,若倾斜角度较大时,则需进行手动的倾斜校正.手动倾斜校正的方法是: 按住 Shift 键的同时按鼠标的右键在图像中拉一条平行于倾斜文字行的直线, 然后放开鼠标的右键,则校正完成.但如果倾斜角度太大(超过 15°),则会 由于倾斜校正产生较大的失真和误差,从而影响识别结果.建议重新扫描图 像.