汉字编码何处去? 本报记者 黎和生 1995-08-04 一、方案过多不利于计算机的迅速普及 1986年,全国便有四五百个编码方案,现在已经翻番,编码是不是越多越好? 现在全国已有上千种编码,所有的设计者都说自己的编码最好,学术界还在主张百花齐放。汉字编码方案不能百花齐放!因为,编码使用即文字的使用,这个主张会使汉字的“书同文”面临支离破碎的危险。 国标二级汉字库总共只有6367个汉字,平均每六个半字有一个方案。“汉字编码是汉字的辅助形式,是中国文字的第二种形式”(表形码发明人张爱文教授语)。许多人厌烦这种不断的“发明”,讥之为“编码污染”。 方案过多不仅造成巨大经济,人力的损失,也会因不流而无法进入教育市场,进而影响计算机的迅速普及。 上千个方案有上千种输入法。每一种输入法都在寻找机会装载入各种流行汉字系统中,多少人力资源在无谓地浪费? 为了提高销售量,电脑厂商也想方设法装有多种输入法,让用户自由选择。全国又有多少软硬件空间在浪费? 电脑使用的最大市场是知识界和教育界。教育系统要求一个符合汉字规律和规范的编码。中小学教育系统是编码应用的最终目标;教育的编码需要是最巨大的和最终点的市场导向。这个局面说明当前的学术界需要科学的编码基础理论研究。因为这个基础研究薄弱,教育行政部门因无法作出有效的选择而犹豫;这种姿态又助长了“百花齐放”。因此,有人责备:“一种无理的、需要死记硬背的编码竟统治了学术界那么长的时间,只能是学术界愚昧和耻辱的证明。”问题在于我们的学术界素来缺乏论是争非的精神。 二、“好的编码还未出来”的论点值得商量 有人认为“好的编码还未出来”,所以还要继续“百花齐放”。然而,什么编码是最好的,没有人也没有哪个权威机构说出个一二三来。持有这种主张的人,只能以“各有千秋”看待各种编码。他们没有看到编码设计在相互继承、逐步发展。 学术界想在百花齐放之后集中专家攻关,搞出一个集各家所长的方案来。1987年,12个高级研究所就做过一次实践,研制出一个45_3汉字输入方案,其结果如何,不得而知。 任何一个方案,都是一个系统,长处和短处共生,缺点和优点并存,取长补短的想法过于天真。在各个严密的相同的系统中,谁都无法取各个系统之长,构成另一个最佳的系统。 汉字编码要走出战国时代。 总结近几年汉字编码事业的经验教训,我们认为,汉字编码研究,不应单纯把“发明”出一种输入速度快、代码容易记忆的汉字输入法作为目标。事实上,汉字编码是汉字的一次变革,是一次汉字适应现代计算机文明的变革,它同汉语拼音方案不一样,汉字编码是中国文字的第二种形式。 在“百花齐放”的编码时代,前赴后继的编码斗士们还有意无意忽略了汉字编码方案与汉字键盘输入法这两个不同的概念。搞电脑的人都知道,键盘输入只是众多输入形式中的一种,诸如笔输入、声控输入、光电输入等输入法,输入汉字的准确率现在已经接近实用水平。成千上万的编码者们,在“好的编码还未出来”旗帜的召引下,如果其中的大部分仅仅是在做着重复的键盘编码工作,某种程度上说,不啻是一种巨大的人才浪费。 另外,在现代市场经济条件下,编码质量的好与坏,很大程度上并不是由市场决定的,编码方案说到底是一个学术成果,好坏应由学术界来界定,推广应由国家职能部门来执行。至于在这个学术成果上结出的不同产品,那才理所当然该由市场来决定。为此,我们呼呼国家有关机构,如国家语委、国家教委等部门,与编码学术界的一些有识之士合作,尽快遴选出一种或几种适合教育、专业录入、信息共享的汉字编码方案来,结束这种万码奔腾的不利局面。 三、遴选好的编码方案并不意味结束编码研究 计算机的发展日新月异,几乎比其它任何学科变化都快。因此,适应计算机发展的汉字编码方案也要不断发展,这就需要研究。 几千年来,我们的汉字在不断演变中,越来越适应人们的需要。汉字的这种演变是有规律的,探求汉字编码方案的未来之路,也要基于研究出一种汉字编码的演变规律来进行。 我们都不是编码研究者,至多是属于关注汉字编码事业的那一部分人之一。所以,这个演变规律,我们不敢乱下结论。 __越陷越深的编码者 一、设计者都觉得自己的编码最好 设计编码,就象上了一部越开越快的车,上车容易下车难,有人说这是“烂田翻石臼,越陷越深!” 电脑中文应用的初期,设计出一个编码方案,被捧为重大发明,可以拿到专利权,又可以当专家、教授。经济利益和荣誉感,激发起研制编码的热情。 所有的编码设计者都觉得只有自己的编码最好,为什么?设计者给汉字编代码,上万个汉字,翻来覆去,已经弄得很熟,就会觉得自己的方案易学易记;对照别人的方案,因为陌生,就会觉得难学难记。“孩子是自己的好”,乃人之常情。 编码只是把汉字编为代码。纯属“纸上谈兵”。输入法是编码的电脑应用,只有输入法才能占领市场。有了输入法,修修改改,用得更熟。对别人的方案,由于不熟,就会竖挑鼻子横挑眼,都不如自己的好。市场上又树着一杆已经获得巨大效益的、难学难记的编码大旗。相比之下,越觉得自己的好。 二、发编码财是一个虚幻的梦 编码虽多,但真正占领市场获得经济利益的不多。几乎所有的编码者经营都很不理想,有的人还负债累累。 编码要有软件程序,才能在电脑上使用,这就是输入法。大多数设计者不懂得软件编制,要花钱请别人做。软件在电脑上使用,有多种功能要求。这些要求要在使用的过程中慢慢地摸索出来,逐步提高。这个过程,投下去的钱更多。例如早期的一些编码,都只能打单字,后来觉得词组必须增加,有利提高输入速度;再后来觉得利用高频字打简码也很重要;又想到了重码的处理__高频先上;嗣后在高频先上的基础上增加记忆功能。为了有利输入,早期的输入软件功能,是一步一个脚印,一步一叠钞票搞出来的。后期的编码,就没有这个负担。 绝大多数的设计者都很寒酸,也不是天生的经营家。在五笔字型输入法完全开放、无偿复制的情况下,许多设计者还在给自己的输入法重重加密。设计者不知道经济收入与扩大用户是相互矛盾的。想有收入,就得有偿销售输入法;想扩大用户,就得无偿让别人使用。拼辛苦、花代价搞出来的输入法,无偿让人使用,有的人想不通。想不通,就没有用户。 用户与市场也是一个问题的两个方面。电脑厂商与软件公司要看用户要求,才愿意腾出空间装载众多编码输入法。汉字系统没有汉字输入法,用户使用就不方便。因此,它们之间相辅相成,相互佐使。 新编码要有名气,就要投入宣传。编码不仅不能赚钱,还要大量资金投入,靠编码发财只不过是一个灿烂的梦幻。 三、痛苦的教训 有的人以为王码赚到了大钱,自己的编码比他的好,当然也一定能够得利。他们不知道编码之所以能赚钱,很大程度上不是因为编码的好坏,而是时机加经营能力的结果。 单纯的编码方案,没有做成软件(即汉字输入法)纯属“纸上谈兵”,没有人理会,不能产生经济效益。 单纯的汉字输入法,如不依附汉字工作系统(即编辑、排版系统),也不能单独在电脑上使用。可以这么说,输入法的软件程序,只是整个汉字工作系统中的一个小配件,其经济价值在整个汉字系统中,所占的比例很低。如果编码设计者没有强大的经济后盾,无法拿出一个完整的汉字输入系统,也就不能上市场竞争。假设已经开发出这个系统,也不能保证就会取得竞争的胜利。因此,有的设计者自己办公司,自己开发产品。这就好比设计了 一枚新型的螺丝,却要去经营、生产和推销一辆车一样,比例极小,风险很大。因编码开公司的人都知道:编码不赚钱。借钱搞编码,借钱投资搞输入法、搞宣传推广的,现在都满身债务。 可以这么认为:编码经营是一个烂泥塘,踩进去之后,就难能后退,越陷越深。这个结论对不对,编码的经营者们可以谈一谈 __越陷越深的编码者 一、设计者都觉得自己的编码最好 设计编码,就象上了一部越开越快的车,上车容易下车难,有人说这是“烂田翻石臼,越陷越深!” 电脑中文应用的初期,设计出一个编码方案,被捧为重大发明,可以拿到专利权,又可以当专家、教授。经济利益和荣誉感,激发起研制编码的热情。 所有的编码设计者都觉得只有自己的编码最好,为什么?设计者给汉字编代码,上万个汉字,翻来覆去,已经弄得很熟,就会觉得自己的方案易学易记;对照别人的方案,因为陌生,就会觉得难学难记。“孩子是自己的好”,乃人之常情。 编码只是把汉字编为代码。纯属“纸上谈兵”。输入法是编码的电脑应用,只有输入法才能占领市场。有了输入法,修修改改,用得更熟。对别人的方案,由于不熟,就会竖挑鼻子横挑眼,都不如自己的好。市场上又树着一杆已经获得巨大效益的、难学难记的编码大旗。相比之下,越觉得自己的好。 二、发编码财是一个虚幻的梦 编码虽多,但真正占领市场获得经济利益的不多。几乎所有的编码者经营都很不理想,有的人还负债累累。 编码要有软件程序,才能在电脑上使用,这就是输入法。大多数设计者不懂得软件编制,要花钱请别人做。软件在电脑上使用,有多种功能要求。这些要求要在使用的过程中慢慢地摸索出来,逐步提高。这个过程,投下去的钱更多。例如早期的一些编码,都只能打单字,后来觉得词组必须增加,有利提高输入速度;再后来觉得利用高频字打简码也很重要;又想到了重码的处理__高频先上;嗣后在高频先上的基础上增加记忆功能。为了有利输入,早期的输入软件功能,是一步一个脚印,一步一叠钞票搞出来的。后期的编码,就没有这个负担。 绝大多数的设计者都很寒酸,也不是天生的经营家。在五笔字型输入法完全开放、无偿复制的情况下,许多设计者还在给自己的输入法重重加密。设计者不知道经济收入与扩大用户是相互矛盾的。想有收入,就得有偿销售输入法;想扩大用户,就得无偿让别人使用。拼辛苦、花代价搞出来的输入法,无偿让人使用,有的人想不通。想不通,就没有用户。 用户与市场也是一个问题的两个方面。电脑厂商与软件公司要看用户要求,才愿意腾出空间装载众多编码输入法。汉字系统没有汉字输入法,用户使用就不方便。因此,它们之间相辅相成,相互佐使。 新编码要有名气,就要投入宣传。编码不仅不能赚钱,还要大量资金投入,靠编码发财只不过是一个灿烂的梦幻。 三、痛苦的教训 有的人以为王码赚到了大钱,自己的编码比他的好,当然也一定能够得利。他们不知道编码之所以能赚钱,很大程度上不是因为编码的好坏,而是时机加经营能力的结果。 单纯的编码方案,没有做成软件(即汉字输入法)纯属“纸上谈兵”,没有人理会,不能产生经济效益。 单纯的汉字输入法,如不依附汉字工作系统(即编辑、排版系统),也不能单独在电脑上使用。可以这么说,输入法的软件程序,只是整个汉字工作系统中的一个小配件,其经济价值在整个汉字系统中,所占的比例很低。如果编码设计者没有强大的经济后盾,无法拿出一个完整的汉字输入系统,也就不能上市场竞争。假设已经开发出这个系统,也不能保证就会取得竞争的胜利。因此,有的设计者自己办公司,自己开发产品。这就好比设计了 一枚新型的螺丝,却要去经营、生产和推销一辆车一样,比例极小,风险很大。因编码开公司的人都知道:编码不赚钱。借钱搞编码,借钱投资搞输入法、搞宣传推广的,现在都满身债务。 可以这么认为:编码经营是一个烂泥塘,踩进去之后,就难能后退,越陷越深。这个结论对不对,编码的经营者们可以谈一谈 __谁来规范码家军 一、编码专利是与非 在五笔字型的专利纠纷中,有一则耐人寻味的报道,北京市中级人民法院在判决东南汉卡是否侵犯五笔字型专利权时,曾请了一个专家咨询组,专家咨询组研究结果,认为被告不构成侵权,但中院最后判决认为侵权。 法院要请专家,说明法院心中无数;法院不采纳专家意见,说明专家的意见也不权威。 一项专利发明在法律上本该是界定明晰的,但却“婆说婆有理,公说公有理”,这引起了一些人对汉字编码是否该受到专利保护的异议。 汉字编码专委会主任毕沼和等一批专家,近来年在多个场合提议:汉字编码最好的保护方式是著作权保护或其相应输入法受版权保护。北京信息工程学院教授、汉字编码专委会是阵一凡指出,自1985年兴起的汉字编码专利申请中,不同程度地含有汉字文化民族遗产和公用技术,模糊或扩大形形色色的编码权利保护,实质上是使祖先赋予子孙的权利为专利权人不正当占有了,妨碍汉字输入技术的进一步发展。 我们倾向于这一种观点,因为这种观点不但仍然保护了“发明人”的利益,同时避免某一种或几种编码在汉字输入技术上的垄断。 需要指出的是,即使汉字编码以学术成果的形式为著作权所保护,这种保护也要严格界定、严格审查。现在全国的编码有一千多种,得到“专利权”就有160种左右,就是这些专利编码,其中相互重复的也很多。编码专利泛滥,更加大了编码或其输入法的保护混乱。 二、谁来规范码家军 编码的应用也就是文字的使用,编码的多种使用不利于“书同文”。编码是信息的载评,编码使用的混乱严重影响中国人进入信息时代的步代。因此,中国应该走出编码的战国时代。 走出战国时代异容易,因为没有“模扫六合”的“秦始皇”。 上千个编码各唱各的调,各吹各的号,终久不是办法,如何才能统一?我们以为不妨从以下两个方面开展工作。 1.迅速开展汉字编码的规律性研究,开清汉字编码的目的、方向和方法。弄清汉字编码的相互继承和逐步发展的关系;弄清汉字编码的保护归属与范围。 2.全面考查现有编码,以符合汉字现代化的标准方面,选出几种适合行业或不同层次用户使用的编码代表,加以扶持和研究。这就象国家教委施行的“211工程”一样,要把有限的人力、物力、财力用在“刀刃”上。 这丙方面的工作由国家语委和国家教委牵头来做似较合适。 国家语委是主管文字规范和标准的机关。汉字编码是汉字因计算机应用的需要而进行的设计工作,这种设计的方法和结果,符不符合国家的规范和标准是国家语委的责权范围。国家教委是国家的教育管理行的政机关,汉字编码方案是否符合教育规律,是否利于现代化人才的培养,国家教委是最有发言权的。 码家军的统一,其实是一种对编码的规范。这种统一,不是一种编码对众多编码的取代,而是一种标准或原则对编码研究方向的科学界定。 最好的编码是不用编码,如同最好的国家是国家消亡同一道理。过去的已经过去,编码研究有得有失,失也是得。现在是计算机开始普及家庭的新时代,让我们为汉字编码事业的最终辉煌共同努力