主流中文OCR软件 2001年 38期 随着办公自动化技术的发展和人们对办公效率要求的不断提高。使用手工录入方式处理文件的办公模式显得越来越不合时宜。基于此原因,人们急需一种更高效的办公模式来代替原有的模式,光学字符识别(OCR)技术也就在这样的背景下应运而生。近年来,随着光学识别技术的不断更新和完善,OCR软件正以其简单易用性和高效的处理文件模式逐渐成为Office一族的新宠。在此背景下,各大OCR生产厂家也加快了OCR产品的更新换代速度,一时间市面上出现了一大批优秀的中文OCR识别软件。可谓百家争鸣、百花齐放。   本文介绍的是基于OCR技术的市场主流光学识别(中文)软件。鉴于各种OCR软件在市场上的占有率以及普及率,本文主要选择了丹青、紫光、汉王、蒙恬和尚书五个主要OCR品牌来具体介绍,其产品及厂家信息见表1(^38060104a^)。旨在为读者选择适合自己的OCR软件提供参考。   #1一、主流中文OCR软件介绍   #2汉王   (1) 公司简介   北京汉王科技公司自1985年起就开始从事OCR技术的研究工作,研究内容涉及到中文、英文、日文、韩文的印刷体识别,中文的手写体识别,手写数字识别,表格识别与还原,版面分析与还原,中文OCR系统。   (2) 新产品特点(汉王OCR新世纪版)   汉王OCR新世纪版是专业文字录入的中文OCR版本,是汉王专业OCR与汉王手写汉字识别系统的集成,特点如下:   ●文稿形式多样:可识别手写文稿、印刷文稿、表格等多种形式的文稿。   ●大字符集:可识别一、二级国标汉字、繁体字、英文、数字等上百种符号;支持宋体、仿宋、楷体、黑体、圆体、魏碑、隶书、行楷等上百种字体。   ●多识别引擎:采用三个识别核心提高识别率,提供快速准确的纯英文识别功能。   ●版面分析:支持自动版面分析,自动分析图像嵌入文本、横排竖排、混排文本、表格文本;自动区分文字、表格、图像的栏目属性。   ●版面还原:支持将识别结果还原成与扫描文稿的版面布局一致的新文本,支持 RTF、PDF、 HTML 等文档格式。   ●高识别率:印刷文稿 98%以上,纯英文 99.9%。   中英文混排 98%,较工整的手写文稿95%以上。   ●识别速度 (PⅡ 266机型):印刷体汉字 120字/秒。   较工整的手写文稿 150字/秒(PⅡ266 机型)。   ●方便修改个别错误:文本编辑区上部有候选字编辑区,笔/鼠标切换按钮,方便你用汉王笔修改个别识别错误。   (3) 产品卖点   彩色识别功能、高精度的表格识别功能、图形格式识别功能。   #2蒙恬   (1) 公司简介   蒙恬科技发展有限公司成立于1991年,是一家专门从事文字的识别研究和产品的对外合作、开发、生产和销售的有限公司。1993年到1994年,蒙恬公司先后与日本CASIO、韩国三星等软件组织及美国的Motorola等公司签约,授权这些公司使用蒙恬的PDA辨识核心。2000年初和广东省科委技术转移中心合作,在北京中关村及广州软件园设立蒙恬R&D研究开发中心,开发和销售全新的蒙恬输入产品。   (2) 新产品特点(认识王V3.1)   蒙恬认识王是一套在Windows环境发展的中文光学辨识系统(OCR),特点如下:   ●手写字辨识:可扫描辨认手写的中文字。   ●繁简体全字集文字辨识:可精确辨识明体、黑体、仿宋、楷书、圆体等多种印刷中文繁体字(13053字),简体字(6763字),香港字(3048字)及英数字符号。   ●繁简合一:可线上切换繁体版、简体版及香港版辨识核心。   ●散墨处理:对于扫描品质不良的文件,即使文字部分断线或散墨不清,亦可正确辨识。   ●多任务架构:采用32位多线程(multi-thread)多任务架构,文件分析、辨识及结果编辑,可同时进行,不必等待。    ●人工智能学习功能:可以提升尔后同一字的辨识率。   ●前后相关词校正:让你可以根据文章前后的语意来做校正。   ●名片王:可扫描辨识中英文名片将名片分类管理,还可输出至Outlook或Excel中。   此外,认识王还具有影像修正、影像输入、表格重现、套表等多种功能。   (3) 产品卖点   原稿的修正功能、辨识智能学习。   #2丹青   (1) 公司简介   立新国际企业集团是生产全方位专业影像软件的权威之一。多年来,立新国际一直专注开发有关影像多媒体、办公室文件辨识系统以及网络影音传输等领域。以全方位产品以及优质的服务,跨入国际市场,并与国际电脑硬件厂商如Adobe、EPSON、JVC、Kodak、NEC、等知名大厂建立了长期的合作关系。在2000年10月份跻身国内1000家大企业。   (2) 新产品特点(丹青4.0黄金版)   丹青中英文文件辨识系统 能快速地将大量文件数据转换成可编辑的文本文件。加速办公室的自动化,帮助一般的公司解决大量中英文印刷文件输入(如剪报 、商业信息、技术文件……)的负担,让使用者能以较低的成本(不需专业的打字员即可操作)在短时间内(每分钟9000字),建立属于自己的情报系统。同时,也可帮助一般使用者快速建立自己的数据库。   丹青中英文文件辨识系统 能辨识的范围包括各式彩色、黑白、表格及非表格文件;能辨识的内容包括 繁体中文、简体中文、英文及阿拉伯数字。辨识后的文本文件所占的内存空间远较未辨识前的影像档案小。在经过校对后即可储存成TXT、RTF、DOC、XLS、SLK、CSV等各种文件格式,并且可以在一般的文字处理软件(如写字板、MS Word、Excel等) 中被开启和编辑。除此之外还可直接传送成电子邮件,或将文件以HTML 格式,通过网络浏览器(如Internet Explorer、Netscape Navigator等)直接打开。   自动辨识功能、原文重现编辑环境、多体辨识、彩色黑白辨识、自动图文分析、学习新字功能、自动校对功能。   (3) 产品卖点   自动辨识功能、编辑专业字库自动校对功能。   #2尚书   (1) 公司简介   尚书OCR文字识别系统由北京汉王科技公司授权上海中晶电脑公司独家使用,软件版权属于北京汉王科技公司。其中尚书六号(最新版)仅支持由上海中晶电脑有限公司生产的支持TWAIN标准的扫描仪。尚书六号是用于专业文字录入的中文OCR版本,识别核心与汉王OCR新世纪版相同。   (2) 新产品特点(尚书六号)   识别字集加大、识别字体种类增多、中英文混排的识别率大大提高、提供彩色、灰度扫描功能,方便用户使用、整体识别率大大提高、提供识别结果的图文并存的彩色版面恢复,支持RTF、HTML的输出。   (3) 产品卖点   彩色识别、更多的输出保存格式、支持表格模式的识别和恢复。   #2紫光   (1) 公司简介   北京清华文通信息技术有限公司是在原国家科委的支持下,为推广应用清华大学电子工程系的科研成果——“863高科技计划”信息领域多字体印刷汉字自动识别技术,于1992年成立的集科研、生产、销售一体化的高新技术企业。新千年到来之际以清华紫光股份有限公司、清华大学企业集团及国家科委高技术发展中心为股东,重组成立——北京清华紫光文通信息技术有限公司,公司总注册资本金2000万元人民币。在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和OCR软件一直是分开卖的。随着扫描仪分辨率的提升,紫光的软件也随之升级,目前最新的版本是TH-OCR2000。TH是TsingHua的缩写,TH-OCR代表清华文通公司开发的OCR软件。   (2) 新产品特点(TH-OCR2000)   TH-OCR2000以清华TH-OCR为基础,更专为每天需要录入大量数据的单位量身制作。特点如下:   ● 高效:具有对超大字符集(达万余字)、超多种字体(近百种)的汉字识别能力;具有对彩色及复杂中文报纸等进行版面分析、版面理解和准确复原的能力,生产效率是传统手工方式的三倍以上。   ● 高质:不需打印校样,一次录入就能达到出版质量,将电子文档的错误率严格控制在万分之一以下。   ● 低成本:建一个10人左右的紫光数据录入工厂,相当于40人左右的传统数据工厂,可节省大量人员费用及管理费用,大大降低了单位数据的生产成本。   (3) 产品卖点   不同印刷品的良好支持、独特的原稿校对查错引擎。   #2紫光   (1) 公司简介   北京清华文通信息技术有限公司是在原国家科委的支持下,为推广应用清华大学电子工程系的科研成果——“863高科技计划”信息领域多字体印刷汉字自动识别技术,于1992年成立的集科研、生产、销售一体化的高新技术企业。新千年到来之际以清华紫光股份有限公司、清华大学企业集团及国家科委高技术发展中心为股东,重组成立——北京清华紫光文通信息技术有限公司,公司总注册资本金2000万元人民币。在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和OCR软件一直是分开卖的。随着扫描仪分辨率的提升,紫光的软件也随之升级,目前最新的版本是TH-OCR2000。TH是TsingHua的缩写,TH-OCR代表清华文通公司开发的OCR软件。   (2) 新产品特点(TH-OCR2000)   TH-OCR2000以清华TH-OCR为基础,更专为每天需要录入大量数据的单位量身制作。特点如下:   ● 高效:具有对超大字符集(达万余字)、超多种字体(近百种)的汉字识别能力;具有对彩色及复杂中文报纸等进行版面分析、版面理解和准确复原的能力,生产效率是传统手工方式的三倍以上。   ● 高质:不需打印校样,一次录入就能达到出版质量,将电子文档的错误率严格控制在万分之一以下。   ● 低成本:建一个10人左右的紫光数据录入工厂,相当于40人左右的传统数据工厂,可节省大量人员费用及管理费用,大大降低了单位数据的生产成本。   (3) 产品卖点   不同印刷品的良好支持、独特的原稿校对查错引擎。   #1二、主流中文OCR软件横向比较   说到主流OCR软件,我们眼前会出现一个个耳熟能详的名字。在它们各自的识别功能上,可谓各有千秋。首先我们不得不提一下清华紫光TH-OCR。由于它得到了清华大学以及国家863计划的技术支持。所以其功能十分强大,市场占有率据说也是最多的。而汉王和尚书由于都是使用的汉王公司的识别核心,所以在功能上基本是一样的,而尚书六号是市场上对表格识别比较好的软件之一。丹青以立新国际企业集团强大的研发优势和友好的操作方式,也赢得了一定的用户。蒙恬的软件整合功能是OCR软件中比较出色的。   各种主流OCR软件在具体的识别功能上,虽然存在差异,但从局部功能来看,是有一定相通性的。比如横竖版的自动识别、文件自动或者手动分析、简体多体识别、表格识别、多文件识别扫描、文字后期处理(分割、合并)、版式还原等功能,是OCR软件中都有的,所表现出来的只有功能处理质量方面的差异。下面列出了各种主流OCR软件最新版本的一些技术细节信息(表2)(^38060104b^),供大家参考,所有数据来自厂家资料,笔者进行了核实。   #1三、中文OCR的市场状况   由于入世的影响,扫描仪销售的传统格局被打破,各大扫描仪生产厂商纷纷改变了自己的经营策略,配套的或者说是捆绑销售的OCR识别软件成为扫描仪市场上的一大卖点。捆绑销售使这些往日昂贵的OCR软件进入了寻常百姓家,在这里列出了现在市场上主流扫描仪捆绑销售OCR软件的状况(表3)(^38060104c^),供大家选购扫描仪以及捆绑销售的OCR软件之用。   需要注意的是:出自公司利益的考虑,捆绑销售的OCR软件均把软件的内核进行加密,使软件只能与特定的扫描仪配套使用。例如:在紫光与尚书中不能直接调用ACER扫描仪的扫描程序,能直接调用ACER的只有丹青。对此我们也并非无计可施,只需先用扫描仪把文字扫成公共识别图片格式(如TIF格式)并保存,再用OCR软件导入图片识别就可以了。