软件产品
汉王OCR录入工厂
文章更新:海天雷鹰 更新时间:2015年06月11日 分享到:
汉王OCR录入工厂软件系统
北京汉王科技有限公司自1985年起就开始从事OCR技术的研究工作,是国家863计划、国家自然科学基金委员会、中国科学院的支持项目。研究内容涉及到中文、英文、日文、韩文的印刷体识别,中文的手写体识别,手写数字识别,表格识别与还原,版面分析与还原。录入
汉王OCR录入工厂软件系统广泛应用于国家图书馆、档案馆、国家专利局和清华同方、万方数据等数据加工企业,作为他们的有效工具,极大的提高了数据的处理效率。
汉王OCR录入工厂软件系统采用国际领先的OCR识别技术,识别率高、速度快,文字处理速度可达到每人每班20万字。快捷精确的横校、纵校、对比校对,可有效剔除识别错误。能够导出PDF、HTML、RTF、TXT、XLS等多种电子文档格式,可方便地实现全文检索。
汉王OCR录入工厂软件系统采用国际领先的OCR识别技术,识别率高、速度快,文字处理速度可达到每人每班20万字。快捷精确的横校、纵校、对比校对,可有效剔除识别错误。能够导出PDF、HTML、RTF、TXT、XLS等多种电子文档格式,可方便地实现全文检索。
汉王OCR录入工厂软件系统流程图
汉王OCR录入工厂软件系统主要工序及其界面:
1.图书资料整理
为了便于扫描和以后的查询、检索而进行的图书分类、拆装、命名、编号等。
为了便于扫描和以后的查询、检索而进行的图书分类、拆装、命名、编号等。
2.扫描
扫描是纸质文稿图像输入计算机的过程。一般把相关文稿顺序扫描,在扫描质量控制程序自动检测并修正后,自动保存到数据库中。
3.图像处理
为了提高识别率,对图像进行“消蓝去污”的处理,即去掉图像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理质量。
4.版面分析
能自动进行版面理解并定位,判别画框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
5.识别
把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、表格、中英文混排,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。
3.图像处理
为了提高识别率,对图像进行“消蓝去污”的处理,即去掉图像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理质量。
4.版面分析
能自动进行版面理解并定位,判别画框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
5.识别
把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、表格、中英文混排,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。
6.纵向校对
具有很强的查错、纠错能力。纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
具有很强的查错、纠错能力。纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
7.横向校对
这是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不高的文字。
8.版面还原
将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、XML格式的数字文档。
将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、XML格式的数字文档。
9.数据入库
版面还原数字文档的保存。
10.质量控制和员工管理
质量控制是为了保证和控制系统的录入质量而采取的一整套方法与措施。主要是在各工序中加入对员工工作完成情况及差错量的监控和工作量的计算,以求将整体差错量控制在万分之一以内。
版面还原数字文档的保存。
10.质量控制和员工管理
质量控制是为了保证和控制系统的录入质量而采取的一整套方法与措施。主要是在各工序中加入对员工工作完成情况及差错量的监控和工作量的计算,以求将整体差错量控制在万分之一以内。