彝文信息处理与沙马拉毅的原创性
摘要:本文介绍了彝文信息处理的成果概况,沙马拉毅在彝文信息处理的学术与技术方面的原创性质,并与相关信息处理成果作了比较,显示出具有非常重要的价值。
关键词:彝文;信息处理;沙马拉毅;原创性;价值
中国的彝族有764万余人(2000),分布在四川、云南、贵州、广西四省、区。彝语属汉藏语系藏缅语族彝语支,分为北部、东部、南部、东西部、西部、中部六个方言。六个方言有一定差别,但有许多共同特点。彝文是一种历史悠久的文字,并有丰富的彝文经典。彝文经典《帝王世纪》载:彝族29代世祖武老撮时代的祭司宓阿叠创造了彝文;《西南彝志》记载:聪明无比的伊阿伍创造了彝文[1]。1978年10月11日,贵州威宁中水区考古发掘陶器188件,其中51件有刻划符号,据王正贤等《贵州威宁出土古代刻划陶文研究》认为,这些陶文属于彝族的古代刻划符号,陶文的上限在战国中期以前[2]。马学良等《彝族文化史》说:“战国时的巴蜀文字有可能与彝族文字存在着历史上的联系。[3]”钱玉趾《古蜀人的语言和文字》认为:蜀族与彝族有亲缘关系;四川出土的新都铭文戈、郫县张家碾铭文戈及峨眉符溪铭文戈,都是战国时代兵器,其上铭文与彝文“有惊人的相似性”,“明显属于同一种文字系统[4]。”以上引文说明,彝族先民在战国时代已经使用自己的文字。
1974年,四川省组织专家对彝文进行了规范整理,制订了《彝文规范方案》,1980年国务院正式批准了此方案。四川的《彝文规范方案》以彝语北部方言的圣乍语为基础方言,以喜德语音为标准音,规定一字一音,819个字加次高音符号的字以及一个替音符号,共1165个字符。经规范的彝文是表音的音节文字[5]。
沈括《梦溪笔谈》记载:宋代的毕昇庆历年间(1014~1048)发明在胶泥片上刻字,一字一印,用火烧硬后便成活字;他还研究木质活字排版,终于发明了活字排版印刷。美国芝加哥大学博士钱存训《印刷发明前的中国书和文字记录》说:“印刷术是人们公认为文明之母”,“中国人……活字版的发明,亦远在欧洲谷登堡(Johann Gutenberg,约1397~1468)之前400年[6]。”明代中叶,中国江苏常州一带出现过铅活字印书。1436年,朝鲜曾以铅活字排印《通鉴纲目》。现代通用的金属活字,是参照德国的谷登堡制造的金属活字改进而成。由于彝族的迁徙、地处西南山区等原因,彝文印刷没有经历泥质或木质活字印刷阶段,在20世纪70年代中期,时任四川民族出版社社长的何承纪肩扛铜材,艰苦地辗转数地,最后找到北京的民族印刷厂,委托制成了彝文铅字,才使彝文直接进入了金属活字印刷阶段[7]。
1946年,世界上第一台电子计算机埃尼阿克(ENIAC)问世,为世界进入信息时代创造了条件。20世纪80年代,中国的汉字信息处理技术得到迅猛发展,计算机输入、输出汉字及排版、印刷获得普遍应用。“告别铅与火、走进光与电的时代”的伟大壮举,是许多人共同完成的。彝文信息处理技术也在迅猛发展,20世纪80年代,计算机输入、输出彝文及排版印刷也胜利实现。使彝文“告别铅与火,迈进光与电的时代”的伟大创举,是沙马拉毅完成的。
一、沙马拉毅的彝文信息处理研制成果概况
计算机的通用键盘,设有26个拉丁字母键,10个阿伯数字键和一些符号键、功能键等。输入英文等拼音文字只需要直接敲击相应的字母键即可。汉字由笔画构成,它们与由拉丁字母拼成的英文等文字是截然不同的符号系统,不能直接输入计算机。为了能够输入计算机,汉字字符与彝文字符需要转化成拉丁字母或阿拉伯数字等符号系统。也就是需要“码化”,先行编码。阿拉伯数字的符号数量少(10个),为了“码化”的唯一性(无重码),每个字符用的码化符号数必然增多;加之不能充分发挥双手击键的优势,输入速度必然低下,所以,一般不用阿拉伯数字编码,而用拉丁字母符号系编码[8]。
彝文信息处理,首先是将彝文字符“码化”,也就是将其转化为拉丁字母代码,其次是将彝文字符制成字模,置于相应的字库中,最后设计计算机软件程序,确保能够准确,快捷地输入、显示、输出彝文符,并且能方便地修改、编排和打印出彝文文本。其中,彝文字符编码是最基本最关键的部分,编码的优劣决定彝文信息处理的优劣。沙马拉毅的彝文信息处理研制成果可分为两部分:一是彝文字符的编码;二是计算机彝文软件程序的设计制作。
沙马拉毅以规范彝文为准进行编码。规范彝文是一种音节文字。音节文字是属于表音文字中的一种文字,它用字母(字符)表示整个音节,如日本的假名文字,印度的梵文等。伊斯特林《文字的产生和发展》说:音节文字更确切地反映语言,特别是它的语音……优点……学习读书写字更容易些……缺点就是……不同符号的数量在35~40个到200~300个之间(不包括合体字母) [9]。”规范彝文有819个彝字及1个替音字(替代字符)。彝语又是一种有声调的语言,规范彝文有:高平调(t)、次高调(x)、中平调(省符)、低降调(p)。在彝文中,三个声调都由相应的字符表示;次高调是由专用的次高调符号“ˆ”加在中平调字符上方表达,这样形成的次高调字符有344个。因此,在彝文信息处理中,需要处理的不同字符共有1165个。这个字符数量与伊斯特林所说音节文字的字符数量要多出数倍。英、德、法、俄、西班牙文等许多拼音文字都没有声调,且字符数量很少。彝文的声调特点与字符数量的繁多,给彝文信息处理增加了复杂性与极大的困难。
沙马拉毅将1165个字符定为彝文信息处理字符集,并为每个字符确定了区位。占用的区位是10~15区和88~94的1~94位。也就是说,他为1165个字符编制了一套区位码,每一个字符对应一个区位码。彝文的机内码有1165个字符,机内码码长2个字节,共16位二进制,表达简捷清楚,能与西文字符区别开来,具有彝文与西文屏幕兼容编辑的功能。
彝文的输入码也就是彝文的外码。输入彝文字符的区位码,也可以完成彝文字符的显示输出。但是,区位码仅仅为了给彝文字符区定位,与彝文文字符的音、形、义都没有关联,是一种无理编码,难记、难用,不适合用来输入彝文。为了准确、方便、快捷地输入、输出彝文,沙马拉毅设计一套彝文拼音编码和一套彝文字形编码。彝文拼音编码有两种,一是全拼码,一是简拼码。彝文全拼码,具有唯一性、可读性;最短码2个字母,最长码5个字母。彝文简拼码以全拼码为基础,将全拼码中的双字母韵母选用合宜的单字母替代,以减少击键次数,增加输入速度。简拼码最短2个字母,最长4个字母。在双手击键输入的情况下,可以“左右左右”地很有节奏完成输入,非常附合人体工学的特点。超过4个字母(有5个或6个字母),就没有上述优点,而且要多占内存空间。所以,在计算机的汉字或彝文输入中,两字或两字以上的多字词(包括词组)的输入,都是击4键完成。
彝文字形编码是将彝文字符按书写顺序拆分为一定的笔画单元,再用字母(或数字)替代,敲击相应的字母键(或数字键)即可完成输入。科学合理地将彝文字符拆分为合适的笔画单元、确定笔画单元的数量以及在键盘键位的最佳布局,是一项十分复杂十分困难的课题。它直接影响到输入速度的快捷、正确率的优良与学用的方便。
汉字被称为象形表意文字,由笔画构成;在合体字中,又由偏旁部首构成。在现代汉字与中文信息处理研究中,又提出了汉字部件的概念,并作了大量广泛深入的研究。据研究,在7785个汉字范围,部件“口”参与组字1195个,是组字能力最强、频度最高的部件,陈一凡等《汉字键盘输入技术与理论基础》[10]列出了648个汉字部件表及每个部件的组字频度。这是确定汉字拆分、信息处理编码的基础。可惜它对彝文的拆分与编码没有参照价值。彝文字符的拆分与编码也需要从复杂而繁重的基础工作做起。沙马拉毅艰苦细致地完成了基础工作,出色地解决了彝文字符的拆分、笔画单元的确定以及键盘键位的布局等难题。彝文字形编码从1165个字符中选取57个笔画单元,科学合理地分布在26个字母键上(57个笔画单元及布键图从略)。取码规则是按书写顺序取笔画单元编码,超过4个码元(笔画单元),按第一、二、三、末个笔画单元编码,击键输入。彝文单字的全拼码、简拼码、字形码的实例如下(其中双字母韵母替代关系为:UO-Q,UR-K,IE-C,YR-F)[11]:
彝文字 | 全拼码 | 简拼码 | 字形码 |
| DDUOP | DDQP | TD |
| DDURX | DDKX | UIX |
| JJIEP | JJCP | UTIT |
| ZHYRX | ZHFX | IERX |
彝文拼音输入码与字形输入码,都设置了高频简码,对于使用频度很高的字符,都可以一健(加空格键)输入。为了提高输速,沙马拉毅为上述拼音码与字形码都编制了词汇输入码6264个。其中二字词码3625个,三字词码1072个,四字词码1567个,五字及五字以上词码167个。中国中文信息学会曾为汉字信息处理编制了5000词表。以上所述彝文信息处理用词的数量要多出一千多词。字形码词码的取码规则是:二字、三字、四字词,取每个字的主笔画单元编码;四字以上词,取第一、二、三、末主笔画单元编码。拼音码词码的取码规则是:二字词,取每个字的声母编码;三字词,取每个字声母的第一字母编码;四字以上词,取第一、二、三、末字声母的第一字母编码。
如: (ZGZY) , (ZHRG)。
从以上介绍可以看出,二字词或二字以上的多字词,最多击4次键即可输入,如击4次键可输入7个彝字,这就大大提高了输速。以彝字与汉字为单位计算,在相同条件下,输入彝文的速度比输入汉文要快。
在一个系统中,有拼音码又有字形码,非常优越。会彝文拼音的人可以很快学会输入,不会或不熟悉彝文拼音的人,可以学习使用简便易学的字形码,也能方便地输入彝文。实践证明,这是一套科学、规范、易学、易用、准确而快速的输入系统。
关于彝文软件程序的设计制作。人们要在计算机上输入一个字符,就要敲击一个键,然后在屏幕上显示、输出、打印等,这要让计算机执行一系列指令,也就是说需要设计一套程序。利用计算机进行文字信息处理,设计的软件程序应具备字符的输入、编辑、输出功能,还应具备查找、替换、显示、屏幕格式编排、复制、打印、存储和文本移动等功能。这就需要设计制作一个文字处理的软件系统。
彝文信息处理,有1165个字符(单字符)需要处理,还有20多个高频字符及6000多个词需要处理。而且,编码有3种:彝文拼音全码、拼音简码及字形码。它们都需要设计一个程序,置存于同一个操作系统中,并且要非常协调地兼容而互不冲突。此外,还要考虑与西文,汉文兼容输入,能输入处理各类符号,如阿拉伯数字、数学符号、物理化学符号等。要设计制作这样的软件系统是非常复杂非常困难的。先后设计制作的软件系统有:
1、PGYW彝文系统;
2、微型计算机彝文处理系统YWCL;
3、计算机激光彝文/汉文编辑排版系统;
4、计算机彝文/汉文/西文系统;
5、CMPT—Ⅱ大键盘彝文系统;
6、华光Ⅱ型彝文、汉字、西文计算机激光照排系统;
7、北大方正彝文激光照排系统;
8、YWPS彝文桌面办公系统;
9、UCYW彝文系统;
10、YW UIN 2000彝文系统;
11、计算机彝文字幕系统YWZM。
上述系统中最基本最有用的程序是沙马拉毅设计制作的。像“北大方正彝文激光照排系统”等,则是与相关单位合作,移植沙马拉毅的原程序开发而成。作为发明人,沙马拉毅申请的发明专利《计算机彝文输入方法及其键盘》,由国家知识房权局审查授予了专利权(专利号:ZL00112801.9)。现在,国内有7个单位经沙马拉毅许可,获得了专利技术使用权。
沙马拉毅作为主要研制者、起草者形成的国家标准有:
1、《信息交换用彝文编码字符集》;
2、《信息交换用彝文15×16点阵字模集及数据集》;
3、《信息交换用彝文24×24点阵字模集及数据集》。
沙马拉毅作为主要研制者形成的彝文信息处理国际标准有:《通用多八位彝文编码字符集》[12]。
沙马拉毅由于彝文信息处理等成果,获得多项部级省级奖励。1992年10月1日,国务院为沙马拉毅颁发了正政府特殊津贴《证书》,表彰他为“发展我国社会科学事业做出的突出贡献”。
二、沙马拉毅彝文信息处理理成果的相关比较
有比较才有鉴别,有比较才能分出高低、精粗与优劣。沙马拉毅的彝文信息处理成果具有重要价值,可以从比较中显出。以下将作相关比较。
1、与“五笔字型”汉字输入技术等的比较
“五笔字型”汉字输入技术推出时间早,应范围广,社会影响大,它与王永民的名字紧密相连,王永民曾因此获得全国劳动模范的称号。王永民著《五笔字型计算机汉字输入技术》[13]的《写在前面》说:“几年来,我们……将我们一九八O年的六十二键‘汉字层次分解编码方案’改进为‘三十六键六笔字型编码方案’;最后,又在一九八三年元月,完成了《‘五笔字型’汉字编码方案》。一九八三年十月至今,又完成了优化方案的新版本……郑易里先生曾四次亲临南阳指导我们的研究工作。我们的‘汉字层次分解编码方案’即参考了郑老关于汉字研究的科学理论。郑老创造的‘一笔查字法’和《从人查字到机器查字》等著作,为我们研究和建立字形编码方案提供了关于汉字研究的重要参考。我们由衷地感谢郑老给我们的教益……河南省委、河南省科委、南阳地区科委对该项研究工作的关心和大力支持,是该项工作不断取得进展的根本保证。参加‘五笔字型’汉字编码方案优化工作的还有:张道政、徐世营、常胜敏等同志。”从以上叙述看,此项研究有著名学者的理论和著作做“重要参考”,著名学者四次亲临指导,似乎还是团体性的研究(通常有主研人)。
1984年第3期《文字改革》杂志(中国文字改革委员会主办)刊出《五笔字型汉字编码方案简介略评》,文章肯定其优点的同时,指出三条缺点:“1、代号分三种(笔画、构件、字型),体式分三类(单体、合体、多体),频度分三层(高频、次高、一般),层次太多。2、代号要依笔顺,但是上面69个构件的例子中(指苏轼《明月几时有》词)”有38个不合规则,占55%之多。例外太多。3、认准字型、写准笔顺、分准类型、记准例外,仍旧有同码字要选择。笔画要换成数字,数字要结成码位,码位不足要补充识别码,基本构件有150个之多。简码有625个之多。头脑里一字百转,复杂难记。据说学习班经过一个月的训练每分钟可打30~50字,这个速度并不理想” 。
1997年底,国家语委、新闻出版署联合发布《现代汉语通用字笔顺规范》及《信息处理用GB13000.1字符集汉字部件规范》(1998年5月1日生效)。以上规范是针对键盘输入中汉字拆分和部件选用的混乱现象制订的。“五笔字型”约有200个部件(称“字根”),其中有些不规范部件。在依书写笔顺取码方面,不规范现象更多。如在“末笔画”的认定方面,将国、团一类字末画不认定为横;将进、远一类字的末画不认定为捺;将我、成、钱等一类字末画不认定为点,都是不合规范的处理。违背了上述规范的编码,不能公开推广应用。为此,王永民推出了据称符合规范的“98规范王码”。云南大学张在云的长文《评一九九八规范王码》[14]说:98规范王码“在理论上存在严重失误……对许多汉字的拆分和编码尚有这样那样的缺点和错误,距离国家语言文字规范和中小学语文教学的要求还相差甚远……不能作为国家计算机等级考试码,不能进入中小学使用。”钱玉趾《“五笔字型”现象的困惑》[15]说:“五笔字型”是不合规范的,已经完成使命,变成历史。98规范王码的字根增加近50个,尽可能地向国家规范靠拢,但是仍有较大差距……多数人不愿使用98规范王码,而仍用五笔字型。”实际情况是,不管是“五笔字型”还是“98规范王码”,都没有用于国家计算机等级考试,没有用于中小学课堂教学。
在汉字字形编码系列中,郑易里、郑珑(父女)推出的郑码,1990年通过了中国中文信息学会专家技术鉴定。由陈代于等研制推出的大众码,1986年全国评测为A类(排首位),在国内有较大的影响(“五笔字型”参与评测未入A类) [16]。此外,还有陈爱文设计的表形码,以及其他一些较优的汉字输入技术,都有各自的特点和应用价值。但是,由于汉字的规范拆分与计算机输入的快速及易学易用之间的有机结合存在困难,以及其他一些原因,上述汉字形输入技术没能大范围延续推广应用。
沙马拉毅的彝文输入技术,因为科学、规范、易学而快速,在国家机关、团体、企业、出版社、印刷厂、学校等单位,得到了广泛应用。
2、与汉字拼音类输入技术的比较
汉字拼音类输入技术,有扶良文的金奖智能码软件系统、郭淑贞“声韵声声”码输入技术、周志农的自然码汉字输入系统、唐懋宽的声数码输入技术,以及由陈力为指导张普负责、李慧勤承担软件总设计研制的PJS/TLS汉字输入系统,于1990通过机电部主持的“七五”攻关项目验收鉴定[17]。还有“未来码”,据陈一凡等《汉字键盘输入技术与理论基础》载:“‘未来码’是1987通过成都军区和四川省科协联会鉴定的汉字键盘输入系统,该系统由四川省科技咨询服务中心和成都军区司令部指挥自动化工作站联合研制,编码的主设计人为钱玉趾。[18]”此外,还有一些较优的汉字拼音类输入技术。
汉字拼音类输入法中,只用声韵编码的输入法易学易用,但同音字多,选择输入多,输入速度慢。用声韵调编码,或者再加区分同音字的符号码元,能产生满意的快速输入,但学用起来相对困难些。加上方言的影响等因素,汉字拼音类编码输入技术的推广应用都不太理想。
1958年制订的《汉语拼音方案》规定的声调符号是线条式符号,标在主要元音的上方。这在键盘输入中不适用。因此,有人不标声调;有人用声韵之后,再将一个字拆成两半加区分代码;有人用1、2、3、4或字母表示声调,上述方法没有国家特定的规范或标准作依据,故难以为公众接受。《汉语拼音方案》及其他汉语语言文字规范也没有为同音字词的定形分化作出规定,拼音编码中为区分同音字词设置的种种形态,也难以为公众接受。
沙马拉毅研制的彝文拼音类形输入法,在声韵调方面,与《彝文规范方案》高度一致,两者完全融为一体,而且是一字一音,一字一码。既科学、规范,又易学、快速,所以,获得了广大用户的喜爱,获得了高度评价。
3、与相关彝文输入技术的比较
20世纪80年代,汉字编码输入技术的研制形成热潮,人称是“万码”奔腾的局面。据中国中文信息学会统计,收到呈报的编码输入方案有1000个以上。彝文编码输入技术研究者也有许多。云南、贵州、广西、四川、北京等地都有研究者。北京的中央民族学院、民族出版社等都是实力雄厚的单位,作过深入细致的研究,取得过较好的进展和成绩。形成了激烈的竞争局面。但沙马拉毅的彝文编码输入技术做得更为出色,取得了竞争的优势。其他的彝文编码输入技术的研制逐渐淡出或消停了。
沙马拉毅的彝文编码输入技术在国内一枝独秀,在国外却遇到了竞争者。由国家有关部门提出(立项),以沙马拉毅彝文输入技术为基础,由沙马拉毅主要起草的《信息交换用彝文编码字符集》、《信息交换彝文15×16点阵字模集及数据集》、《信息交换彝文24×24点阵字模集及数据集》,先后形成了中华人民共和国国家标准。由国家技术监督局等4个单位下达任务,由沙马拉毅为主研制的《通用多八位彝文编码字符集》国际标准方案,于1994年3月提交国际标准化组织ISO JEC1/SC2/WG2会议(在土其召开),有中、美、英、加等23个国家和相关成员共40多位专家参会。中国、英国、美国、德国和爱尔兰都提交了各自的彝文方案,竞争异常激烈,谁都想以本国方案成为国际标准。这意味着巨大的荣耀与财富。经几番交锋与论证,美国、德国、英国的代表相继宣布退出。爱尔兰的迈克尔仍在坚持竞争。迈克尔的方案以819个彝文字码为准,他认为中国方案的1165个字码过于繁杂,不宜作国际标准。沙马拉毅全面论证据理反驳。可能是由于国际上精通彝文信息处理的专家太少,因此,一时难于判定。会议宣布下一次会议再预审定。
《彝文规范方案》确定的彝文字符是819个,但彝文是有声调的语言,四个声调中,次高调用符号“ˆ”加在中平调字符的上方表示。次高调的字符有344个,次高调符号本身算一个字符,再加一个替音字符( ),总数则是1165个,这是满足彝文信息处理的字符总数,缺少一个都是一种残缺。
中国的《汉语拼音方案》采用26个拉丁字母,但增加一个ü。汉语是有声调的语言,线形的声调符号标在主要元音的上方,在信息处理中,6个元音带声调符号后就形成24个符号形态(ā、á、ǎ、à等),外加一个字符ê,加起来又是26个(从区位0801至0826)。26拉丁字母(大小写计52个字符),再加26个汉语拼音字符,这是能满足汉语拼音信息处理的字符总数。仅用26个拉丁字母(包括大小写52个字符)是不能进行汉语拼音信息处理的。同理,仅用819个字码是不能进行彝文信息处理的。爱尔兰的迈克尔似乎不懂这个道理。
新加坡会议之后,1996年5月,国际信息标准组织在伦敦举行会议,迈克尔不再坚持他的819个字符,但他提出中国方案中57个笔画单元不妥,应是53个。嗣后,经过1998年4月美国西雅图会议、1998年10月英国伦敦会议、1999年9月丹麦哥本哈根会议,经数次审定、三次投票,中国方案《通用多八位彝文编码字符集》终于获得通过成为国际标准[19]。沙马拉毅取得了完全胜利。
4、与日本假名文字输入技术的比较
规范彝文是音节文字,日本假名文字也是音节文字。日本在公元3世纪采用中国汉字记写语言,公元8世纪创造了假名。现代的日本文字是糅合汉字、假名、阿拉伯数字和罗马字等多种文字符号混用的独特文字。日本假名有两套:一套片假名,一套平假名,各46个。加上清音、浊音、半浊音、拗音、长音、促音、拨音等假名符号,共有169个。1个假名多数要用2个罗马字母(拉丁字母)表示。
如果用罗马字作码元输入假名,多数要击2键(加击空格键)在日文语词处理机上通常用“假名——汉字变换法”输入假名、输入汉字。周有光《使用“中文电脑打字机”经验谈》说:“1980年以后,假名——汉字转换法”占领了整个日本市场。[20]”在日本,169个假名符号被分配在通用键盘的48个键位上,除占用26个字母键外,还占用了10个数字键和12个其他符号键。如果要输入数字或动用另12个符号键的原功能,就必须“切换”,会使操作不便、输速降低。
击键输入字符的速度与击键键位的多少密切相关。据日本实务用字研究协会发表的日本打字员的平均速度为:26个键位,每分钟击键450次;50个键位,每分钟击键250次。后者键位数多,平均输速只相当前者的55.6%,48个键位的输速,约相当26个键位输速的60%,这是低很多的输速。1983年,日本规格协会出版的《情报交换用汉字符号系》,用于文字信息处理。其中有汉字6355个(包括第一水准汉字2965个,第二水准汉字3390个)。输入汉字也用分配在48个键位上的假名,其输速也受到很大限制,这是不用置疑的。钱玉趾《日本电脑输入汉字的艰难》[21]说:“我曾找到一位应骋在四川大学教授日语的日籍教师,请他在他的电脑上输入一些日语字、词、句……日本朋友说他的输速是‘慢慢的’”。
沙马拉毅的彝文信息处理技术中的编码输入法,做到了汉字、西文、彝文兼容较入。输入汉字、输入彝文都只用26个字母键,因此有很好的输入速度。要做到这一点,需要解决许多高深的学术与技术难题。例如,要从将1165个彝文字符编制代码配置在26个键位上,做到科学、合理,兼容而互不冲突是很难的。再如,彝文字符中的笔画单元“O”,使用频度很高,如果置于一个键位上,必然影响离散性,增加重码率,降低输速。沙马拉毅巧妙地采用“位置原则”,将在字符中处于上外(整体)左中右下不同位置的“O”,置于不同键位(分别置于Y、O、A 、G、L、V上),从而达到了上佳效果,使输入技术做到了科学、合理、易学而快速。
5、与有关国家标准的比较
以沙马拉毅的彝文信息处理技术为基础,由沙马拉毅为主起草形成的上述三项国家标准和一项国际标准,其核心是《彝文规范方案》为准,选用1165个字符,57个笔画单元编码输入,科学规范、易学、快速,经广大用户长期应用的实践证明,上述标准是完善的优越的。
现在看1980年颁布的国家标准《信息交换用汉字编码字符集—基本集》(GB2312—80),此标准对7445个图形字符作了二进制编码。这些图形符号中有6763个汉字、202个一般符号、22个数字,以及拉丁字母、希腊字母、俄文字母、日本假名和汉语拼音符号等。据说此标准由电子部一个研究所组织编制,在6763个(一、二级)汉字中,有40多字的使用频度很低,完全可以不予选入;在历史、宗教、哲学、文学、艺术与科技领域,有一些应该收入标准的字却没有收入,新华社由于业务的需要而使用一种7000余汉字的字符集。
还有汉语拼音符号的问题。GB2312—80国家标准规定有6个主要元音带有声调的符号,都是小写字母,没有大写字母。因此,大写字母的汉语拼音的标调就无法处理。对韵母ü的带声调字符,虽确定了区位,但不能输出、打印。另外,在《现代汉语词典》中;汉语拼音还有一个韵母ê(“矣欠”的注音),并有4个声调,国家标准也把它遗漏了。由于上述问题的存在,在处理汉语拼音文稿时出现了困难,有的汉语拼音报刊还得用铅字排版印刷。
较多专家学者认为,GB2312—8国家标准应重新修订。但由于这项修订要投入大量人力、物力、财力,因此一直没有付诸实施。以沙马拉毅的彝文编码输入技术为基础,由沙马拉毅为主起草形成的三项国家标准和一项国际标准,是完善的、优越的,无需改动和修订。
6、前瞻性与可持续发展的比较
语言文字的信息处理,范围较广,内容丰富。关于“中文信息处理”,就是利用计算机对汉语的的书面形式和口头形式进行信息处理。汉字信息处理是中文信息处理的基础部分,它的主要内容是汉字的编码、输入、输出,汉字的识别,汉字的字频统计等。除此之外,中文信息处理还要研究语言处理,汉语词的自动切分和处理,汉语句子的自动分析和生成,以及汉语语义的自动分析和加工等。这些是语言文字的高层次的处理。具体地说,如机器翻译、人机对话。机器翻译,首先要识别语言的形态,还要辨识句子的语义,更重要的是必须有对各种知识背景的理解等。人机对话,又称自然语言理解,就是要让计算机理解人类的自然语言,听懂自然语言的含义;对人类的叙述与提问,能用自然语言回答[22]。
已有的汉字信息处理技术的汉字编码中的字形编码,是将汉字拆分为笔画或部件,按书写顺序(或位置原则、或旋转方向)编码。这类编码没有可读性,与字音没有关联;与字词意义、词性的关联也很少。如有一种较流行的编码的实例如:科(TUFH)、海(ITXU)、铁(QRWY)[23],都无法胜任汉语句子的自动分析、生成和语义的自动分析与加工,更谈不上机器翻译与人机对话了。它们只能用于汉字的输入、输出,把电脑当作了打字机使用。
在汉字编码中,标明声调的拼音类编码,其字码虽具有了可读性,但都没有词性、词类、词义等信息特征,也不适合语言文字信息处理的高层次处理,仅仅能够满足目前文字输入输出的需要,缺乏可续续发展的基础。
沙马拉毅的彝文信息处理技术中的拼音类编码,1165个字符者有相对应的编码,而且声韵调俱全,含有语音和词义的因素,又有很好的唯一性,为彝文信息处理的高层次处理打下了坚实的基础。这当然与《彝文规范方案》提供了良好的平台有关。更为重要的是,沙马拉毅在彝文信息处理中,已确定了“信息处理彝文语分词规则”,无论使用拼音码输入还是字形码输入,他都要求“遵循彝语分词规则”,沙马拉毅在《计算机彝文信息处理》中规定的“分词原则”共有8条,非常具体,明确,而且有实例。如规定“二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位”。此外,他还对名词、动词、形容词、代词、数词、副词等如何切分都作了具体规定[24],所有这些高明举措,为当前彝文的输入、输出创造了方便、快速和高准确率的效果,又为将来彝文的高层次信息处理奠定了基础。
沙马拉毅《计算机彝文信息处理研究论述》[25]说:“计算机信息处理,已经不限于字符的简单编辑加工,还包括词语处理、句子和篇章分析;已经不限于句法,还包括词义和语义;不限于字形,还涉及字音、字义;不限于字符的录入存贮,还包括识别、理解、转换或翻译……彝文信息处理,现在只是做了基础性的工作,还有许多应用性的项目需要做,如机器翻译系统、汉—彝语言对照词库、彝语语库、彝语各方言对照、各计算机网络系统等,这些项目都需要尽早完成。”以上所述项目,沙马拉毅正在分步地进行。因为他前期的彝文信息处理的成果具有前瞻性与可持发展的特征,彝文信息处理的高层次研究的前景是非常乐观的。
三、简要的结语
彝文信息处理的字词处理,包括输入、输出、编辑,打印等,由沙马拉毅完成,使彝文终结了铅与火的历史进入了光与电的时代。汉字信息处理和其他少数民族文字处理领域,通常的情况是,研究编码的人只搞编码,研究计算机程序的人只搞程序,而且,搞编码的人通常也不兼搞拼音码和字形码。彝文信息处理的编码(包括拼音码与字形码)以及计算机程序设计都由沙马拉毅一人完成,这是非常罕见的。不仅如此,目前彝文信息处理可以打印出8种不同字体,这8种不同字体都是沙马拉毅设计书写而成的。更为重要的是,关于彝文信息处理的三项国家标准及一项国际标准,都与沙马拉毅的创新密不可分。以上所述是国内外没有第二人能做出如此令人感佩的成绩。
冯志伟《中文信息处理与语 言研究》说:“中文信息处理是一门新兴的综合性技术学科,它是语言学、计算机科学、自动化技术相结合的产物,中文信息处理的发展,有赖于这几个方面的专家的通力合作。[26]” 沙马拉毅由西南民族学院民族语言文学专业毕业,先后又去中科院四川计算机研究所及中国计算机服务中心学习。他把语言学知识与计算机科学知识有机地结合在一起,为完成上述研究成果打下了坚实的基础。
沙马拉毅研制的的彝文输入法成功移植于“北大方正激光照排系统”,1992年4月,在北京科学会堂举行“北大方正彝文激光照排系统”省部级签定会,王选教授在会上郑重地说:我们的照排系统“采用的是沙马拉毅输入法”。“沙马拉毅输入法”从此定名并闻名于世。王选《科研成功应具备的要素》[27]说:“数字大师陈省身把他的成功归结为四个正确:在正确的时间,选择了正确的方向,去到了正确的地方,找到了正确的老师。”彝文信息处理是一门全新的技术学科,在中国、在全世界,都没有老师。沙马拉毅是从头开始研究,他的成果可谓前无古人,具有划时代的原创性。
以沙马拉毅的研究成果为基础,并以个为主起草形成了三个国家标准和一个国际标准。上述标准与输入法是完善的、优越的。就目前而言,标准没有偏差与遗漏需要修订;输入法没有缺陷需要改动。也就是说,以“沙马拉毅输入法”为核心的彝文信息处理技术,已经定型,已经成为一个终结的形态。因此可以说:没有后来者(彝文信息处理的高层次研究是另外的事)。汉字信息处理技术,还没有定型,还没有终结,还不断有新的编码技术出现。
中国彝族有760余万人口,分别比丹麦、挪威、芬兰等国家的人口要多。沙马拉毅的彝文信息处理技术,造福于具有众多人口的民族,其重要价值得学术界重视。
这里是彝族文化网络博物馆,海量的数据,鲜明的彝族文化特色,是向世界展示彝族文化的窗口,感谢您访问彝族 人 网站。注释:
[1] [3] [5]马学良等.彝族文化史[M].上海人民出版社,1989.135.138.149.
[2] 王正贤等.贵州威宁出土古代刻划陶文研究[J].贵州民族研究,1989(4).
[4] 屈小强等主编.三是堆文化[M].四川人民出版社,1933.444.
[6] 钱存训.印刷发明前的中国书和文字记录 [M].印刷工业出版社,1988.1.
[7] 意西泽仁.来自雪域的出版家[A].出版工作者的楷模[C].知识出版社,1997.
[8](法)皮埃尔·吉罗.符号学概论[M].四川人民出版社,1988.
[9](苏)尹斯特林.文字的产生与发展[M].北京大学出版社1987.179.
[10] [16] [17] [18] 陈一凡.胡宣华.汉字键盘输入技术与理论基础[M].清华大学出版社等,1944、107、68、100.
[11] [24] 沙马拉毅.计算机彝文信息处理[M].四川民族出版社,2000.269.56.
[12] [25] 沙马拉毅.计算机彝文信息处理研究述论[A].彝族文化研究论集[C].四川民族出版社,2002.155.156.164.
[13] 王永民.五笔字型计算机汉字输入技术[M].河南科学技术出版社,1985.
[14] 张在云.评一九九八规范王码[J].古今艺文(台湾)第二十主卷四期(2000).
[15] 钱玉趾.“五笔字型”现象的困惑[N].光明日报,2001.12.26;探真古今诗文[M].四川民族出版社,2004.284.
[19] 罗忠政.为民族尊严和知识产权而战——青年教授沙马拉毅和他的“沙氏彝文输入方案”[N].四川青年报.2000.5.3.
[20] 周有光.中文“电脑打字机”经验谈[A].新语文的建设[C].语文出版社,1922.271.
[21] 钱玉趾.日本电脑输入汉字的艰难[J].文改之声.1994.9;探真古今诗文[M].四川民族出版社,2004.289.
[22][26] 冯志伟.中文信息处理与汉语研究[M].商务印书馆,1992.
[23] 王永民.五笔字型(电脑技术电视讲座教材)[M].中国科学技术出版社,1993.308.
[27] 王选.科研成功应具备的要素[N].光明日报,2005.7.7.(5).
作者简介:
钱玉趾,四川省科学技术协会高级工程师,中国语文现代化学会理事,中国中文信息学会会员,主要研究方向为中文信息处理技术,巴蜀历史文化文字与彝族历史文化文字。
董天罡,四川大学计算机学院高级讲师,主要研究方向为民航空中管制与汉字信息处理。
原载:《西南民族大学学报(人文社会科学版)》2007年第4期。
提示:本文由作者授权彝族人网发布。