沙马拉毅:彝文信息化技术要掌握在中国人手里
让古老文字告别铅与火,走进光与电的时代,是文字现代化、信息化的必然过程,被认为具有划时代的意义。公众熟知的王选,因发明汉字计算机激光照排技术,被誉为“当代毕昇”,推动了中国出版印刷行业的革命。
在彝文信息化的进程中,也有这么一位勇敢无畏的开创者,他就是彝族第一位博士生导师沙马拉毅。他发明“沙马拉毅输入法”,推动了彝文信息处理有关国家标准及国际标准的建立。而今,他仍然奔忙不息,致力于推动彝文的规范化,使彝文信息处理技术不断向前发展。
▲沙马拉毅近照。 雷建摄
1 让彝文赶上信息时代
回首来时路,沙马拉毅说,是一种责任感和使命感,推着自己与彝文信息处理结下不解之缘。
▲上世纪80年代,沙马拉毅(右三)在教学。沙马拉毅供图
上世纪80年代初,沙马拉毅在图书馆看到一篇文章,介绍我国的一种民族文字,被英国人拿去研制出编码后输入到计算机里,又把处理好的民族文字信息重新拿回中国测试与使用。这一事件让沙马拉毅寝食难安。彼时,他刚从西南民族学院(现西南民族大学)毕业留校任教不久。
沙马拉毅想到了自己的母语。彝族人口众多,分布区域大,彝语使用者超过800万人。1975年,《彝文规范方案》试行,1980年由国务院批准正式推行。“我是彝族知识分子,为什么不能自己研究彝文信息化的问题呢?”他想。当时,国内诸多学者也在讨论,中国应该重视民族语言文字的计算机处理,不能让这一技术掌握在外国人手中。这样的反思与争论激发了沙马拉毅,从此,他义无反顾地投入彝文信息处理的研究中。
彝语方言多,彝族文字数量多,形体、繁简不同,要实现信息化可谓困难重重。“我是学文科的,不懂计算机。那时候,我们没有计算机课程。”沙马拉毅骑着自行车跑遍了成都的书店,把与计算机有关的书籍都买了回来,总计37本。那段时间,沙马拉毅天天看书、天天琢磨。两三个月后,他就开始边看书边整理彝族文字。
文字的信息处理包含输入和输出两方面,关键是要设计一套能方便对应每个字符的编码方案。彝文也一样,要为1165个字符找到一整套简洁的编码方案,这些编码要形成一系列的计算机指令;在输出时,要有彝文字库,计算机的输出指令对应着不同的彝文字形信息。
沙马拉毅独自面对的,无疑是一项浩大的工程。
他花高价买来一台苹果计算机,这台机器仅具备计算能力。沙马拉毅搭上所有的业余时间,开启了艰辛的探索之旅。
为解决彝文的编码问题,需要对每一个彝文字符进行数值换算。实际上就相当于在一个数字化的点阵中,计算出哪些点应该有脉冲信号,哪些没有脉冲信号。因脉冲信号分布不同,一个独特的字符就会显现出来。
于是,沙马拉毅找来数学演算坐标纸,把字描在坐标纸上,再计算出字符的对应数值。这一看似简单的工作其实相当复杂,需要进行大量的计算。他足足耗费了超过3大麻袋的坐标纸。为节约坐标纸,沙马拉毅想到先用火柴棍在坐标纸上摆成彝文,然后再输入坐标,这样,一张坐标纸可以多次使用。
1982年底,沙马拉毅开发出彝文计算机处理系统。应用这个系统,千百年来书写在树皮、草纸上的彝族文字显示在计算机屏幕上。此时,这些彝文还不能打印输出来,沙马拉毅的工作仅完成了一小半。
1984年,在内蒙古召开了“全国首次少数民族语言文字信息计算机处理学术讨论会”,沙马拉毅作为代表参加了会议。5天的日程中,他一刻也没有耽误,不断向专家学者讨教有关硬件、软件、信息处理等各方面的问题。讨论会传递出一个信息,尽管民族文字信息处理尚处于起步阶段,但全社会十分关注,这给了沙马拉毅无穷的动力。
为真正补上计算机这一课,沙马拉毅专门赴四川省计算机应用研究所进行了正规的培训。从门外汉到信息处理领域的专家,沙马拉毅完成了不可思议的转变,后来撰写出版了《计算机彝文信息处理》一书,对彝文信息处理进行了系统的总结。
在不断努力下,1984年,沙马拉毅研制出“微型计算机彝文处理系统YWCL”,获四川省科技进步奖。1985年,彝文的计算机显示和打印宣告成功。
让彝文实现计算机显示和打印输出,这是彝文信息化的第一步。对于沙马拉毅而言,他还要带着彝文进入光电时代。这不仅是他个人的追求,也是时代的倒逼。
上世纪80年代,伴随汉字激光照排系统的大量应用,新闻出版行业迅速摒弃了铅字印刷,字模厂纷纷停业。与此同时,民族文字印刷因字模厂的关闭而陷入困境。沙马拉毅清晰地记得,1986年,学校印刷厂为印刷彝文,要四处艰难地寻找字模。一年之后,几乎所有的字模厂都退出了历史舞台。
要解决彝文印刷的问题,就要像汉字一样开发出彝文激光照排系统。其中一项具体而繁重的工作,就是制作点阵字模。一开始就要制作15×16的点阵彝文字模,一种字体要1165个,而白体、黑体等4种字体要制作4660个。制作一个点阵字模就像绣一朵花,一个字符的笔画高低、偏左或者偏右、笔画字符大小,都影响最终的显示效果。他对每个字符都精心计算、不断改进,最终研制出彝文编辑排版系统。
1986年4月,沙马拉毅迎来了高光时刻。当时的电子工业部和国家民委组织专家共同鉴定了沙马拉毅研究出的“计算机激光彝文/汉文编辑排版系统”。王选在鉴定会上将沙马拉毅发明的输入法命名为“沙马拉毅输入法”。专家们评价,彝文激光照排系统的研究成功,为我国民族语言文字的计算机处理奠定了牢固的基础,非常具有借鉴意义。王选将第一本汉字激光照排系统排版出版的书籍签名赠送给沙马拉毅,还说:“你的彝文也可以这样印刷了。”
当年,沙马拉毅的解决方案参加了全国计算机展览,彝文输入法被评为三等奖。那一年,沙马拉毅年仅32岁。
2 专利免费向公众开放
沙马拉毅的彝文编码输入方案可谓匠心独运。他将彝文全拼编码输入法、简拼编码输入法、笔画编码输入法、词汇输入法巧妙结合,为1165个彝文字符的每一个字符编制了3种输入码。不仅如此,沙马拉毅的彝文信息处理技术中的编码输入法,可以与汉字、英文等兼容输入。
▲上世纪90年代,沙马拉毅(左三)参加国际会议。 沙马拉毅供图
正是由于这些优点,相关专家和机构非常看重沙马拉毅的彝文信息处理成果,决定以沙马拉毅的成果为基础,制定国家标准。
第一项国家标准是《信息交换用彝文编码字符集》 。
第二项国家标准是《信息交换用彝文字符15×16点阵字模集及数据集》。
这两项标准共收规范彝文819个,带次高调符号彝文345个,加一个替音符号,共计1165个字符。标准经云南、贵州、广西、四川等地的彝文专家及各界代表广泛讨论后通过,为彝文的规范化开启了先河。其中的点阵字符集适用于彝文信息处理系统中的显示设备,字形实用、美观。
1994年,原国家电子工业部下达任务,要沙马拉毅作为主要起草人,起草《信息交换用彝文字符24×24点阵字模集及数据集》。
3项国家标准由沙马拉毅作为主要起草人,其易学、快速是根本原因。经实践证明,他发明的彝文输入法科学、规范。
同样从事文字信息技术研究的专家钱玉趾认为,沙马拉毅的彝文信息处理技术中的拼音类编码,1165个字符都有相对应的编码,而且声、韵、调俱全,含有语音和词义的因素,又有很好的唯一性。
“沙马拉毅在彝文信息处理中,已经确定了‘信息处理彝语分词规则’。”钱玉趾说,分词规则使彝文的输入、输出达到了方便、快速和高准确率的成效,为彝文的高层次信息处理奠定了基础。
沙马拉毅在论文《计算机彝文信息处理研究述论》中说:“计算机信息处理,已经不限于字符的简单编辑加工,还包括词语处理、句子和篇章分析;已经不限于词法,还包括词义和语义;已经不限于字形,还涉及字音、字义;已经不限于字符的录入存储,还包括识别、理解、转换或翻译……彝文信息处理,现在只是做了基础性的工作,还有许多应用性的项目需要去做。”
正是有这样的格局与思考,沙马拉毅的研究从一开始就立足于彝文的现代化,为彝文找到与世界沟通的路径。
1992年,国家有关部门需要更为精准的民族语文激光照排系统。沙马拉毅到北京寻求与北大方正公司合作,结果办公室的人员并不理睬。沙马拉毅急了,对工作人员说:“我的输入法是王选教授命名的,并认为值得推广!”工作人员将信将疑,向王选当面询问。参加了沙马拉毅科研成果鉴定会的王选对他记忆犹新,回答:“有这件事!同意联合开发。”
于是,沙马拉毅在北京的一间地下室里,按照北大方正公司提出的技术要求,夜以继日地修改、编制彝文编码方案和彝文字模稿,饿了渴了就吃面包喝汽水。经过两个多月的反复修改及上机试验,最终开发出北大方正彝文激光照排系统。该系统建立了白体、宋体、黑体等矢量精密字库,而键盘未作任何改动,成为当前国家机关、报社、出版社、印刷厂等主要使用的彝文计算机系统。这一系统让彝文真正告别了铅与火,迈进了光与电的时代,使古老的彝文浴火重生。
为保护知识产权,1999年,沙马拉毅以《计算机彝文字输入方法及其键盘》为名,申请了国家专利。国家知识产权局历经4年多的严格审查后授予专利。
手握专利权,沙马拉毅却对深圳等地慕名前来洽谈购买专利的人说:“我的专利不卖,向社会公众免费开放!”
3 掌握彝文信息化的主动权
1993年底,沙马拉毅按照国际标准的要求,开始拟定《通用多八位彝文编码字符集》国际信息处理标准方案。
当时正值春节即将来临。沙马拉毅安排家人回西昌老家,而自己则去菜市场买了一大袋面条、牛肉末和一堆白菜,把自己关在家里攻关,困了打个盹,饿了煮碗牛肉末面条。
沙马拉毅确定了信息交换用的1165个彝文字符和彝文部首作为国际信息标准。同时,规定了彝文字序、彝文字及其部首的名称。这相当于在国际上给彝文正式地全面命名。
1994年4月,该方案经审定后,作为国家提案提交给国际信息组织第25次会议。
一年后,国际信息组织第25次会议召开。受国家有关部门指派,沙马拉毅等6人组成的中国代表团奔赴土耳其首都安哥拉,宣读了提案。沙马拉毅向与会代表全面介绍了我国彝文使用的情况。经过讨论,会议决定接纳中国的方案,并决定下次会议继续讨论。但不曾想,这样的讨论其实暗流涌动。
就在这次国际信息组织的会议上,爱尔兰代表迈克尔提交了一份经过认真准备的、自认为比较完善的彝文方案。迈克尔的方案确定的彝文信息处理的字符是819个、彝文的笔划单元是53个。在沙马拉毅看来,迈克尔的方案根本不适合彝文信息处理,即使定成国际标准,也没有什么实用价值。但迈克尔劲头十足,他的发言振振有词,迷惑了许多听众。他在会议期间还到处游说,让一些评委变得左右摇摆,主持人也难以抉择。会议开了一次又一次,直到1996年的国际信息组织伦敦会议仍无结果。
中国代表团开会研究对策,认为要有世界眼光,不能就事论事,要重点说明印欧语系与汉藏语系语言的不同特点与文字信息处理的关系,会议发言要有逻辑力量,用英语叙述也要流畅。这样的任务自然落到了沙马拉毅身上。
沙马拉毅做好了充分准备。他想到的最好办法就是用实例举例说明。彝语和汉语一样,是有声调的语言,次高调不专门设字,在中平调的字上加上次高调后就不同了。加符号变为次高调的字有345个,另外还有一个替音符号,因此彝文应该有1165个字符。如果忽略了345个次高调字和1个替音字符,彝文的信息处理就无法进行。
迈克尔不懂得其中的道理,坚持只选用819个字符。沙马拉毅整理了书刊上使用的带有次高调、替音“帽子”的字符资料,大概有4万多字,让质疑者无可反驳。
1997年5月,美国西雅图。国际信息组织的学术会议听取了沙马拉毅的陈述,认为他的方案有理有据。但迈克尔提出要将自己的方案投票表决,企图阻止中国方案前行。会议的评委经过慎重研究,搁置了迈克尔方案的投票表决。1998年4月,国际信息组织的学术会议在丹麦召开,代表们充分听取了沙马拉毅的陈述,并现场提问和答疑,中国方案获得全票通过。
中国方案正式录入2000年版的国际信息标准,作为彝文国际信息标准颁布实施。近6年时间,6个回合的较量,中国迎来了最后的胜利。要知道,在中国文字信息处理领域,能够成为国际标准的信息处理方案并不多。
在此期间,比尔·盖茨因承办过一次国际信息组织会议,安排所有参会者参观微软公司,因而与沙马拉毅有了见面交流的机会。他熟悉的中国人的名字大多不超过3个字,沙马拉毅的名字令他好奇。沙马拉毅告诉他,中国人的名字不仅有4个字的,还有更多字的,建议微软软件中关于姓名一栏,应该允许填写更多的汉字字符。
比尔·盖茨当即安排技术人员在后续的版本中进行修改。这位商业奇才敏锐地感觉到沙马拉毅的商业价值,向沙马拉毅开出每月8000美元的高薪,而当时沙马拉毅的月薪只有1200多元人民币。令比尔·盖茨意想不到的是,沙马拉毅的回答很干脆:“中国的计算机信息处理技术发展很快,我愿意在中国研发……”他始终铭记一个信念,人生最重要的价值在于奉献。他把这份执念贯穿于自己的科研和教学中,影响着自己的每一位学生。
彝文的中国方案成为国际信息标准后,彝文在网络上的应用也就没有任何障碍。微软系统、安卓系统、苹果手机等,后来都用此方案处理彝文。
4 致力于彝文规范化
通过30多年的研究与实践,沙马拉毅创立的彝文信息处理成果已经被社会广泛应用。与汉字等语言文字信息化进程中研究者万马奔腾、成果层出不穷不同,彝文的信息化进程中,沙马拉毅缺少同行者,甚至可谓有些孤独。一个重要因素在于,研究者不仅要熟悉日新月异的计算机技术、有持之以恒的学习能力,还要对有3000年历史的彝文有着精准的把握。
沙马拉毅的专业是汉语言文学和少数民族语言文学,作为彝族学者,成长于四川凉山彝族聚居区,他具备坚实的语言基础。他以超强的毅力,快速跟进计算机信息技术,从而做到将彝文信息化。在沙马拉毅看来,这条路只有起点,且路途遥远。即便现在,他仍然工作不止,心心念念的是彝文的规范化与现代化,不停思索的是民族语言信息化的人才培养。
伴随着移动终端的迅速兴起,沙马拉毅组织团队,率先开发出手机彝文,使用彝文的老百姓只要打开手机,就可以直接使用。
因为有了沙马拉毅这样标杆性的人物,西南民族大学创立了文字信息处理的本科专业,后来又以此为基础,申报了民族文字信息处理的硕士点及博士点。本科专业相继培养了108名毕业生,硕士专业已毕业47人。他们毕业后,多数成为民族文字信息化的中坚力量。
彝语有六大方言,其差异主要表现在词汇上,语音也有所区别,各地的文字也有较多的异文别体。沙马拉毅一直认为,彝文的现代化与信息化,首先离不开彝文的规范化。因此,沙马拉毅将自己的大部分精力用在彝文的规范化工作上。
2009年5月,云、贵、川、桂四地启动彝文规范工作,成立四省区进一步规范彝文领导小组,沙马拉毅任副组长之一,还担任专家组组长。不久,他又担任了全国彝语术语标准化工作委员会主任。
在沙马拉毅的努力下,进一步规范彝文领导小组开展了从古彝文中筛选通用彝文的工作。从云、贵、川、桂的彝文古籍中筛选出5589个彝文字词作为通用文字,然后进行宣传、普及、推广通用彝文的工作。
沙马拉毅作为规范彝文的主要普及推广人员,已组织贵州编写了6册小学教材,出版了5册。最近几年,国家民委双语人才培训基地已经在云、贵、川、桂举办彝汉双文等培训班,培训学员1600多人次。
沙马拉毅说,下一步打算编写规范的通用彝文字典、词典,继续推进通用彝文的计算机编码处理。彝文信息处理现在是单字输入,沙马拉毅正带领自己的团队研究联想输入、词汇输入。他还和科大讯飞公司联合搞彝语语音智能化研究,已经在四川省乐山市成立了彝语智能化研究院。
对于沙马拉毅而言,创新创造没有止境,科学研究没有终点。他仍然饱含激情,奔忙在民族语言文字发展进步的大路上。
2001年,正是互联网兴起的年代,彝-人-网团队便确立了构建彝族文化数据库的宏远目标,初心不改,坚持走下去。原载:中国民族报;特约撰稿 李晓东。
文字来源:国家民委;监制 孙雅莉;统筹 周芳;制作 彭凤平。