相识,从这里开始──中文OCR软件学习速成 2001年 38期 在前面的文章中,我已经为大家简单介绍了一些主流的OCR软件。我想大家对OCR软件已经有了一个感性的认识。在这一章,我将着重为大家介绍OCR软件的使用方法及使用中注意事项。这里我选取了丹青OCR作具体介绍。至于其他的主流OCR软件,因为其功能和操作都基本相似,所以在这里不再作介绍。   这里主要讲解六个方面的内容:   1.丹青OCR的安装   2.丹青OCR的工作界面   3.丹青OCR工作流程   4.丹青OCR文字识别实例   5.丹青OCR小窍门   希望读者通过阅读,初步掌握OCR软件的使用方法。   #1一、丹青OCR的安装   丹青OCR软件是立新国际开发的新一代光学字符识别软件,最新版本为4.0黄金版。   在第三部分中我们已经介绍了丹青OCR的软硬件工作环境。本次实例所用到的是随ACER扫描仪捆绑的丹青OCR4.0黄金版。其运行平台见下表:   在扫描之前,我们要对丹青OCR软件进行安装。我们只须一路点击“下一步”,就可完成丹青OCR的安装。安装结束后,在桌面上会出现一个丹青OCR的快捷方式。双击此快捷方式即可启动丹青OCR软件。   #1二、丹青OCR的工作界面   启动丹青OCR软件之后,我们会看到它的工作界面(^38060105a^)。菜单栏分类列出所有可供你使用的命令,如打开、保存、编辑或辨识文件等等。   在菜单栏之下是快捷工具栏。快捷工具栏上的图标可以让你快速地执行各种常用菜单命令;每个工具栏下方都有一个下拉式的命令菜单,可为你提供更多的选择。   在工具栏的下面分为左右两个窗口,左边的窗口是缩略图窗口和文件页控制区。缩略图窗口将已打开的文件以缩略图方式显示,可供你直接选取。你也可以利用下方的文件页控制区的按键,移动至你想要的页面。这也正是丹青OCR软件的多任务功能的表现之一。缩略图窗口和文件页控制区的右边是工作区。你可在工作区中执行图片处理的工作,例如转正倾斜的图片,清除杂点,切除不需辨识的部分,或是做更精确的版面分析,使得辨识结果更令人满意。   在工作区的右上角是查看工具栏和编辑工具箱。查看工具栏可让你缩小或放大图片的显示比例,并可选择原稿图片模式、全页图文模式及文稿编辑模式。你可以利用所提供的编辑工具,处理辨识过程中各个阶段的文件,例如编辑扫描进来的图片、更改文件的区块设定、校正辨识后的文稿等等。编辑工具箱也会随着辨识阶段的不同为你提供不同的编辑工具。这些工具的具体用途我在后面的实例里将会介绍。   在工作区的下方还有一个状态栏,状态栏显示目前光标所在位置的X座标和Y座标、光标所在物件的相关信息,以及目前所选择的辨识字集。   #1三、丹青OCR工作流程   基于光学字符识别工作原理,我把OCR软件的工作流程大致分成了4大部分,它们分别是原稿处理,辨识文件,文稿校对,结果输出。在4个大部分中又包含了若干个小的分支。OCR软件处理工作流程(^38060105b^)。     #1四、OCR文字识别实例   #21.原稿处理   1)原稿的选择   选择好作为被识别对象的原稿,是进行文字识别以及获得较高识别率的前提条件。我们选择原稿的时候,首先要注意原稿要平整,最好原稿上没有污渍。其次,我们所选择的原稿上的字体最好是OCR软件字库能够识别的字体,这样可以保证较高识别率。最后我们还应该注意扫描仪的清洁问题,不要让扫描仪上的污点影响原稿的质量。   2)原稿的扫描   基于原稿选择应该注意的一些因素,我选择了一份印刷体文本作为原稿。接下来我们要做的是对原稿进行扫描,使之成为图像文件。首先我们可以在OCR软件中调入扫描仪的驱动程序,执行这一步骤的前提是OCR软件必须识别出扫描仪。我们可以通过“文件→扫描仪”设定来查看一下(^38060105c^)。我们可以看到我所选用的丹青OCR已经成功地识别出扫描仪。   在确认了扫描仪的兼容性后,我们要通过快捷键“扫描”或者通过“文件→扫描文件”或用快捷键F10来调入扫描仪的驱动程序。   在扫描原稿之前,我们应该对扫描仪的参数作一些最基本设定。扫描仪类型默认为平板扫描仪,图像类型选择黑白模式,扫描模式选高质量,分辨率选300dpi,缩放选100%(^38060105d^)。一般不用选择滤镜,除非你有特殊要求。参数设置中一定要注意选择好分辨率,这是提高原稿质量以及最后文字识别率的保证。当然这也不是说我们选择的分辨率越大越好,我们可以根据不同质量的原稿,选择不同的分辨率。比如:黑白图像的识别我们一般选择300dpi,彩色图像的识别我们一般选择150dpi就够了。   扫描参数设定好后,我们先预扫一下,通过预扫结果来选择扫描识别的工作区。选择好工作区后,我们就可以对原稿进行扫描。因为我们是从OCR软件中调用的扫描程序,所以当我们扫描完原稿后,只须关闭扫描程序,扫描结果就会自动送入OCR软件的文件任务区(^38060105e^)。这样我们对于原稿的扫描任务也就结束了。   3)原稿的处理   对于扫描好的原稿文件,我们可以在识别之前进行一些处理工作,比如说去掉多余的污点,把亮度调高一点,或者调一下阈值。这些工作你可以用一些专业的绘图软件完成,比如Photoshop。如果你嫌这样太麻烦,你也可以在扫描程序中完成这些工作,现在大多扫描仪的扫描程序都带有一些图像处理工具(^38060105f^)。此外,OCR软件中也有相关的工具可以使用,比如橡皮工具和铅笔工具。丹青中所带的橡皮和铅笔工具还有许多不同的选项可供选择。(^38060105g^)   比如在扫描的原稿文件中,有一些多余的线条(一个五角星和手写的10∶10的字样)。我们就可以通过OCR自带的橡皮工具对原稿来进行修正,图7是修正后的原稿。我们可以看到修正后的原稿上的多余线条已经被擦掉。(^38060105h^)   #22.辨识文件   1)原稿输入   在上文中我曾经提到,从OCR软件中调用扫描程序,在原稿扫描完成后,只需关闭扫描程序,扫描的结果就会自动输入到文件任务区。也可以配合键盘上的“Shift”或“Ctrl”键,选择多份文件同时打开。此外,我们也可以通过Photoshop或者其他的专业绘图软件来调用扫描程序,原稿扫描完成后,再把扫描结果存放为OCR软件可以识别的图形文件格式。OCR软件可以通过“文件→打开”来调用这些原稿图片,同样也可以做到使原稿图片输入到文件任务区。这样做的优点是可以在Photoshop中对原稿图片进行一些预处理。   2)二次校正   我之所以把这个步骤叫做二次校正,是因为在处理原稿的时候已经经过了一次校正。与一次校正的区别在于:二次校正所用到的工具全部是由OCR软件本身自带的,校正的质量和精度更高一些。   这里所说的二次校正包括清除杂点及补漏白、切除功能、反白功能和倾斜校正功能。清除杂点及补漏白是指若图片上有杂点(尤其是在文字区块附近,与文字大小相近的杂点),可利用编辑工具箱上的“橡皮擦”工具将其去除;若图片上有漏白的部分,也可以用“绘笔”工具补上,以提高正确率。而切除功能是指若输入的图片不须全部辨识,你可利用编辑工具箱上的“选择图片区域”工具选取欲保留的区域,再选择“编辑→切除”,将不必要的部分切除。再有就是反白功能,它是指由于丹青系统无法辨识黑底白字的图片,可利用“编辑→反白”的功能,将图片转换成白底黑字之后,再进行辨识。   我们最常用到的是倾斜校正功能。倾斜校正是把原稿图片倾斜的部分校正过来。但不知为什么丹青没有提供此功能。不过丹青提供的原稿旋转功能,也可以达到同样的效果。丹青的原稿旋转包括顺逆时针的各种角度的旋转,我们通过“编辑→旋转”打开此功能(^38060105i^)。若图片倾斜角度小于3度,此为正常辨识可接受的范围,你不须调整图片角度。而如果图片倾斜角度为90度,则可利用“编辑→旋转→顺(逆)时针旋转90度”的命令,将图片转正。我们通过倾斜校正可以进一步提高原稿的质量,以便最后得到满意的识别结果。   3)辨前设定   在执行文字辨识之前,你可以先做好一些辨识前的准备工作,如选择辨识字集、选取辨识区域、设定版面格式、执行版面分析、指定校对词库等,使丹青系统在辨识时更快速而准确。此外,丹青也提供自动辨识文件的功能,从输入以至辨识等各项流程皆能自动执行,让你轻松地获得想要的辨识结果(这是丹青OCR的一大特色,一键搞定)。   先说说选择辨识字集,你可以选择“格式→设定辨识字集”,指定适合的辨识字集作为丹青系统辨识时的依据此功能仅在丹青黄金版4.0的零售版本中提供。   若你要辨识整份文件,在执行辨识之前并不需要设定辨识区域。若你只想辨识部分文件,则可先设定该部分为辨识区域,点选该区之后再执行版面分析、辨识等工作。若你要辨识数个辨识区域内的文字,可先分别设定各个欲辨识区域,此后再执行辨识,系统将会辨识所有设定的辨识区域。   版面设定主要在于设定欲辨识文件的属性,包括文件的横/竖排、单/多栏、所使用的语言及表格相关的设定等等。选择“格式→版面设定”命令之后,依照文件的内容选择所需要的设定。   执行版面分析的目的在于将图形与文字图片区域分离,分割出待辨识的区块,并决定辨识区块的顺序,以便系统辨识。你可以让系统自动执行版面分析,或自己设定区块及辨识顺序;除此之外,你也可在执行版面分析之后,分别设定各个区块的属性并将版面保存起来,当需要辨识相同版面的文件时,便可直接调用。   比如扫描原稿所得到的原稿图片,我们把辨识字符集设定为简体常用字集。因为在扫描原稿文件时,已经选择了辨识区域,所以在这里辨识区域默认为全部。注意选择好版面设定中的相关参数(^38060105j^),这里我所选择的参数全部为默认值。你也可以根据相关的识别文件信息来进行手动的版面设定。   版面设定完成后,我们接下来要做版面分析。分析结果(^38060105k^)所示。从版面分析的结果来看,自动的版面分析把预识别文件按字体分为上下两个部分。到此,相关的辨前设定就完成了。   4)文件识别   在完成输入图片、设定辨识字体、设定辨识区域及设定辨识顺序等步骤之后,系统便可以根据你的设定开始辨识文件。按一下工具栏上的“辨识”图标,文字的识别工作正式开始了。当然,你也可以通过应用快速辨识模板来进行文字识别,不过首先你要选择“分析/辨识→快速辨识模板设定”来设定一下模板参数(^38060105l^)。这样生成的模板用来高效率地识别大量的格式相似的文档。若你经常辨识某类文件,设定快速辨识模板将可为你省却一一设定的工作,并能快速地呈现辨识后的结果。   #23.结果校正   1)放弃识别   当完成辨识工作后,系统会自动进入“全页显示窗口”或“文稿校对窗口”,让你校对辨识后的文本文件。你可以选择“文件→系统设定”,在“系统设定”对话框中指定辨识后所出现的画面显示模式,或者点击工作区右上方的模式切换按钮切换到需要的模式(^38060105m^)。当然,若你在辨识后想放弃辨识结果并重新设定,请选择“分析/辨识→放弃本页辨识”或“分析/辨识→放弃全部辨识” 将辨识结果消除。   2)文稿校对   经过识别的原稿文件由于其本身的清晰度和其他因素不可能全部正确。所以我们要通过原稿校对来校正一下识别过程中有错误的地方。   若你要在“全页显示窗口”中校对文稿,按一下编辑工具箱上的“疑问字浏览”工具,文稿中的疑问字会以蓝底黄字的字样显示。使用“疑问字浏览”工具在第一个疑问字上点一下,并在出现的“候选字”窗口中选择正确的字。你所选择的字将会替换指定的疑问字。若在“候选字窗口”中找不到你要的替代字,你也可以使用一般的键盘输入法将文字输入。然后按下键盘上的“Shift”及“F3”键,将光标移到下一个疑问字元。   若你要在“文稿编辑窗口”中校对文稿,可以在文件浏览图中直接点选欲校对的区块,或是在文件区块列表中指定区块,该段的辨识结果将出现于工作窗口内,且文稿中的疑问字会以蓝色字样显示。用鼠标点一下工作窗口内系统辨识错误的字,在“文字图片窗口”中,也同时会用红线框出其对应的原字元图片。   3)二次辨识   某些图片可能无法使系统做出正确的分割,并因而造成辨识上的错误。比如说“的”字,有些时候系统会辨识成“白”和“勺”两个字。这就需要你使用“擦除杂点”、“分/合字再辨识”、“分/合行再辨识” 与“分/合区块再辨识”的功能,重新进行辨识。   去除图片上的杂点可以提高系统辨识的正确率。当系统已进入文稿校对窗口后,你可以使用“橡皮擦”工具擦除文字图片窗口中红框内的字。   增补图片上的漏白部分也可以提高系统辨识的正确率。当系统已进入文稿校对窗口后,你可以使用“绘笔”工具增补文字图片窗口中红框内的字。   除了去杂点和补白工具外,丹青OCR还为再识别提供了其它的工具。比如将相邻两个或数个辨识错的字元分开或合并并予以重新辨识。将因两行相连而辨识错的文字分开并予以重新辨识。将被错误分割成两行的文字合并并予以重新辨识。当你发现某区块的版面分析错误,如文字的横竖排列错误或是中英文设定错误时,你可以针对该区块再次辨识。还有可合并被错误分割的区块,再次辨识;可分割被错误合并的区块,再次辨识。   因为本次识别是比较成功的,识别简体汉字的正确率达到了100%(^38060105n^),所以也不需要再次识别了。   4)字库校对   校对词库里包含你常用的词汇;在辨识的过程中系统将依你所选择的校对词库执行辨识。因此,依据需要设定不同种类的词库,在辨识不同种类的文件时,将更节省你在辨识及校对过程中所花费的时间。   在使用字库校对之前选择“分析/辨识→词库设定”来进行字库的设定(^38060105o^)。   在设定词库后,我们就可以应用词库来进行稿件校正。选择“分析/辨识→词库设定”,指定你要的校对词库,按“确定”即可。在同一个文件的识别中,你可更换不同的词库,重新执行校对,使辨识结果更令人满意。   5)学习新字   当在校对文稿时,若系统经常辨错某些文字,你可以使用“学习新字”的功能,将常辨识错的字元输入到学习资料库中,留待以后辨识时使用。你也可依文件的性质,设定各种不同的学习字库。   你可以按如下步骤来学习新字。选择“分析/辨识→学习新字”命令,屏幕上会出现一个“新字学习”的对话框(^38060105p^)。在对话框的上方为被选取字的图片字(也就是在“文字图片窗口”中被红框选取者),在“输入新字”文本框中输入正确的字,按下“学习”键,将新字输入到学习字库中,并置换工作区内的错误字。   #24.文件输出   1)输出格式   若你想保留这些在辨识前经扫描仪或其他方式输入的图片,可将它保存成BMP、TIFF、PCX、JPEG等图片格式,方便以后再辨识利用。   具体方法如下:选择“文件→保存本页→保存本页原稿图片”命令。在“保存原稿图片”对话框中指定路径、文件名及文件格式,此后按“确定”即可(^38060105q^)。   此外,你也可以以不同的格式输出识别结果。丹青系统提供多种文件格式,可保存辨识后的图文及表格。你可依据需要选择保存本页或保存整份文件,可以保存成TXT、DOC、RTF、XLS、SLK、CSV等文件格式,在写字板、Word、Excel等文字处理器中编辑。此外,你还可以将文件存成HTML格式,通过网络浏览器(如Internet Explorer、Netscape Navigator等)直接打开。   具体方法如下:若你要保存本页,选择“文件→保存本页→保存本页辨识结果”;若你要保存整份文件,选择“文件→保存文件辨识结果”。屏幕上将出现“保存辨识结果”对话框。指定路径、输入文件名,并选择你要的存档类型。   还有一点值得一提,若你经常需要使用某一种版面格式,可将此版面格式保存成版面文件(*.TPL),应用于辨识前的图片。   具体方法如下:选择“文件→保存版面”命令,屏幕上将出现保存版面对话框。若你要应用某个保存的版面格式,请选择“格式→打开版面”命令,在对话框中选择要应用的版面格式,按下“打开文件”按键即可。   2)输出编辑   这是最后一步,把你已经保存过的识别结果在文字编辑软件中打开(比如Word97)。对识别结果的格式进行编辑。   还需要注意的是,有一些特殊符号是无法正确识别的。比如本次识别结果中的所有顿号“、”都被识别成“·”,在Word里你可以利用强大的符号输入功能来完善识别结果。最终使识别结果达到你的要求。   #1五、丹青OCR小窍门   #21.去硬回车   以前我经常在把识别结果调入Word中的时候产生一些硬回车,当然我们可以利用Word的查找和替换功能来去掉多余的硬回车。不过能不能在OCR软件中就去掉这些讨厌的回车呢?回答是肯定的,具体做法是:在保存识别结果的时候把硬回车设定为软回车就行了。   #22.“自动”的使用   启动丹青OCR软件之后,你只需点击一下“自动”快捷键,就会调出“自动”界面。我们先选择扫描或者打开文件,进行原稿的输入(^38060105r^)。接下来我们只须一直点击下一步,在适当的时候作一些参数设定,就可以完成识别工作。   在这里还要指出一点,虽然“自动”功能很强大,但是识别的结果却不如手动的好。不过在你有很好的版面模板的前提下,如果使用了“自动”功能,就会进一步提高工作效率,从而实现高效办公。   编后:本期专题到这里就结束了,相信各位对OCR的原理及使用都有了一个全面的认识。在这里还想再强调一下的就是:辨识文字是一个复杂的过程,其中有很多因素都会对最终结果造成一定的影响,有不少经验、技巧还需要在实际操作中去发现、掌握,才能做到“滴水不漏,箭无虚发”!