声数码汉字输入法及其发明人唐懋宽先生 吴越 1994-11-25 为纪念邓小平同志“电脑的普及要从娃娃抓起”题词十周年,1994年2~3月,由《电脑报》北京通联总站、全国学生越轨预防与研究专业委员会、北京宣武区教育学院分院和北京星式电子技术研究所联合举办的“星式杯”少年计算机汉字输入比赛在北京进行。参加比赛的,共有北京市三个区的中小学生一百五十多人。输入方法,可以自由选择。 经过预赛、决赛,历时一个月,特等奖被北京市西城区广宁伯街小学四年级刘怡同学所获得。她以看打每分钟120字和听打每分钟100字的优异成绩,获得了四个年级组的全场冠军。 她所使用的汉字输入法,是声数码。 其实,声数码汉字输入法在比赛中获得第一名,这可不是第一次了。早在一九八六年三月,在“全国首届汉字编码键盘输入评测会”上,声数码的输入速度一直鳌头独占,获得了与会者“神速”的赞叹,最后被认定为唯一的国家级A类音码方案。一九九一年六月,在“全国中文信息学会成立十周年展览会”上,声数码又创造了每分钟输入320字的非正式高速记录,完全可以用来代替速记记录讲话。在九二年海峡两岸计算机中文输入大赛中,声数码录入人员荣获了四枚金牌、三枚银牌、三枚铜牌,并创造了正确输入每分钟259.7个汉字的正式的世界记录。 是“种瓜得瓜”呢?还是“歪打正着”? 声数码汉字键盘输入法,是山东烟台福山师范学校教师唐懋宽先生在一九八四年六月研制成功的。声数码并不是音码和数码的结合体,而是音码的一种,其特色是经过大数量的字频、词频统计,把两千多个常用汉字分为三类:最常用字用一码输入,常用字用两码输入,次常用字用三码输入,必要的时候再加上声调的区别,这样,就可以离散百分之八十三的常用汉字,给高速盲打奠定了可行的基础。因此,“声数码”的“数”字,似乎可以解释成跟“频度”有关。 唐懋宽出生在一个普通的农民家庭,五十年代毕业于山东师范大学生物系。山东的煎饼卷大葱,造成了他梗直、憨厚、坚韧不拔的优良品格:一旦他决定了要做的事情,那是十头牛也拉不回来的。早在大学读书的时候,他就为汉字的落后难学、不便于机械化处理和现代化通信苦苦地思考、探索过解决的办法。 从国际化、机械化、易学易用着眼,汉字现代化信息处理的最佳方案当然应该在汉语拼音方案的基础上进行。但是汉语普通话一共只有411个音节(加声调可分一千三百多个音节),而汉字总数多达五六万甚至七八万,现代通用汉字也在一万五千个左右。如何运用这少量的音节表达丰富多采的汉字,的确是一个需要认真对待的问题。六十年代初,唐懋宽用手工操作对《毛泽东选集》进行了用字频率统计,发现四卷书只用了2051个汉字,由此唐先生得到了启发:将汉字按照最常用、常用、次常用、不常用进行分类、优选、组合,一定可以顺利地解决汉字机械化处理中难以解决的同音字问题。 唐先生决定深入一步继续研究。从此,全家人的业余时间,就几乎全被既繁琐又枯燥的汉字使用频率统计所占据了。 没有想到的是:唐先生的这一研究,目的并不是为了发明一种汉字编码,结果却发明了一种优秀的汉字编码。这是“种瓜得瓜”呢?还是“歪打正着”? 声数码的产生,并不“神速” 六十年代,计算机只有巨型的,个人机还没有出现__即便有,也不是工资微薄的中学老师所敢问津。唐先生所进行的字频统计工作,无例外地当然只能用最原始的手工抄写或剪刀浆糊翦贴来完成。经过大数量的字频统计,他把两千个常用汉字分为最常用、常用、次常用和不常用这样四类,归并的结果,发现前三类常用字共1700个,占常用汉字总数的83%,剩余的17%,有15%可以用组词的办法解决。这样,真正需要直接选择的字,只剩下2%了。 完成了字频统计之后,唐先生一家又继续进行词频的统计。 汉字一共有多少个,有各家字典及前人的研究可以作为依据;至于汉语一共有多少个词,这可是谁也说不清楚的问题,更不要说词语的使用频率了。 词频的统计,比字频统计更加复杂,更加困难。首先一条:“词”的概念界定很不清楚,有的学者甚至提出“汉字词无定类”的说法;其次,词语的使用频率,各行各业各不相同,一个极不常用的语词,某一行业的人却可能极为常用。因此,只有经过大数量和大面积的统计,求得的概率,才能更接近正确。 我国八十年代出版的《汉语大字典》,收入汉字五万七千多个,据说动员了四百多名编辑人员,花费了十多年的(工作)时间,方才完成。唐先生一家才几个人,要想利用业余时间完成这种大数量、大面积的词频统计,真是谈何容易! 也许是“挖山不止”的“愚公精神”鼓舞了唐先生一家,二十多年来,一家人日复一日地根据各种报刊杂志抄写成卡片,分类排序,终于完成了将近十万条词的词频统计工作,所积累的卡片,一共有两千万张,装了整整二十多条麻袋! 时间终于进入了八十年代。美国IBM公司推出了PC机,在中国,汉字如何输入电脑,也提到了日程上来。唐先生毕竟是从事“信息学”研究的,得知这一信息以后,立刻拿出几十年来的全部积蓄,买了一台三十多公斤重的老式计算机,开始从事汉字编码的研究。这时候,他的头发已经花白,而家里除了一架既当写字台、又当吃饭桌的卧斗式缝纫机之外,简直一无所有。 由于唐先生有比较扎实的准备工作,他的汉字编码进行得比较顺利。一九八四年春天,一个以汉语拼音为基础的、有频率统计作为选字选词依据的、因输入汉字极快而被誉为“神速码”的声数码汉字键盘输入方案,终于产生了。 可以这样说:“神速码”的产生,不但并不神速,二十年时间的摸索探究,简直是历尽艰辛,一言难尽! A类方案,“不一样就是不一样噢!” 尽管汉字键盘输入方案已经有几百上千种之多,但是作为全国唯一的A类音码方案,自有其与众不同的独到之处。简而言之,声数码的最大特点,第一是容易学,凡是学过汉语拼音的人,除了键位之外,需要记忆的规则并不多;第二是词语量丰富,十万条词,几乎囊括了当代汉语口头的、书面的所有通用词语,最适宜于作家、编辑、记者、教师等非专业录入人员学习使用;第三是由北京星式电子技术研究所依据声数码特点开发出近百种从幼儿教育开始到小学、中学直到高考的各科练习题库和模拟试题库软件,不但成龙配套,自成体系,而且与教委教学大纲同步,逐年更新,是中小学生最好的家庭教师;第四是打字速度可以提高,能够自然过渡到专业录入人员水平;第五是简繁体汉字通用,为海峡两岸文化的交流和统一奠定了基础。 A类方案,名不虚传,“不一样就是不一样噢!” 更上一层楼 唐懋宽先生虽然已经在汉字键盘输入领域取得了可喜的成绩,但他仍不满足。一方面,要求自己的成果精益求精,继续研究,继续完善;另一方面,他还有志于从事电脑自然语音校读的深入探索,要让电脑自然流畅地发出标准的汉语语音来,希图在多媒体和电脑休闲方面给社会提供更多的贡献。有朝一日,人们将能听到电脑为您用标准的普通话朗读中国文学的里程碑《红楼梦》,让林黛玉的《葬花词》感动得您热泪盈框。 祝愿如今已经白发苍苍的唐懋宽先生更一层楼,在新的领域中取得更大的成绩!