扫描OCR之经验

郑优军 
2001年 1期

    扫描仪不仅仅能原版复制图像，如果将它同OCR软件结合起来，你会惊讶地发现，工作原来是如此轻松。下面就是我在扫描OCR中总结出来的经验，很管用的。
　　    1.选好软件。当然先选一款好的OCR软件，一般不要使用扫描仪自带的OEM软件，OEM的OCR软件的功能少、效果差，有的甚至没有中文识别，经过比较，我选用了清华TH-OCR MF7.50专业版文本自动识别输入系统。再选一个图像软件，OCR软件不是有扫描接口吗？为什么还找图像软件？第一，OCR软件不能识别所有的扫描仪；第二，也是最关键的，利用图像软件的扫描接口扫描出来的图像便于处理；一般选用PHOTOSHOP。
　　    2.原稿的准备。为了获得最高的识别率，原稿要平整，不能有皱纹，有内容的地方最好没有污渍。将原稿放置玻璃板上时，原稿的边缘要与玻璃板的边缘平行，不能歪斜。玻璃板要保持干净，避免出现杂物。
　　    3.扫描参数设置。对于用来OCR的图像，我的经验是：图像类型选择黑白，扫描模式选高质量，分辨率选300DPI，缩放选100%，滤镜根据原稿选择。
　　    4.选取扫描区域。设置好参数后，先预览一下，然后开始选取扫描区域。不要将要用的文章一股脑儿选在一个区域内，因为现在的文章排版为了追求更好的视觉效果，使用图文混排的较多，扫成一幅图像会影响OCR识别。因此，要根据实际情况将版面分成N个区域，怎么划分区域呢？每一区域内的文字字体、字号最好一致，没有图形、图像，每一行的宽度一致，遇到长短不一，再细分，一般一次最多可扫描10个选区。不要嫌这个过程太烦，那可是提高识别率的有效手段。
　　    5.存盘。扫描出来的图像存盘还有讲究？其实也没什么，存为TIF格式就行。
　　    6.OCR软件操作（不同软件可能有区别）。打开已扫描好的图像文件，先将图像旋转，直至横排正文。然后进行图像倾斜校正、版面分析，版面分析后要将不是‘横排正文’的版块设置成‘横排正文’，还有，版面分析后，最好再将各板块倾斜校正一下。最后进行识别工作。
　　    7.编辑。识别后出现编辑窗口，这时打开汉字输入法，不要理会识别系统对可疑字的相似字提示（那样会浪费时间），直接参照修改参照行（又称浮动跟踪窗口，浮动在编辑窗口之内当前行之上或之下，显示了当前行的原始图象信息）进行修改。修改完，OCR工作也就结束了。
　　    8.字体的区别。经过多次OCR工作，我发现软件对不同字体的识别效果会有所不同，其中对楷体的识别效果最好，仿宋和宋体次之，圆体（特别是细圆体）的识别效果最差。
　　    9.报纸的扫描识别。由于报纸很薄且大部分纸质不高，导致扫描仪上盖板不能完全压住报纸（有缝隙），所以一般情况下报纸的扫描识别效果没有杂志的效果好。我的解决办法是在报纸上压一至两本16K的杂志，效果还不错。
　　
　　 
 