彝学研究 Yi Study

当前位置: 首页 > 彝学研究 > 彝学观点与学术争鸣

沙马拉毅:彝文信息处理技术三十年发展历程与展望

作者:沙马拉毅 发布时间:2020-10-31 原出处:《中文信息学报》2011年第6期

注:本文发表时作者任西南民族大学副校长、教授、博士生导师,国务院学位委员会学科评审组成员,中国中文信息学会理事,中国民族语言学会副会长,主要研究方向为民族文字信息处理。

摘要】通过30年的研究与实践,彝文信息处理的研究成果已经广泛应用于新闻出版、教学科研、国家机关等各个领域,应用于全国党代会、全国人民代表大会、全国政协会议等全国性的大会 ,使古老彝文告别了铅与火的时代,进入了光与电的时代,有力推进了彝族社会现代化信息时代的进程。在彝族社会发展历程中,具有划时代意义。
关键词】彝族文字;信息处理;30年成就
基金项目】国家自然科学基金资助项目(69573026);国家社会科学基金资助项目(06XYYY021,06XYY022)

这里是彝族文化网络博物馆,海量的数据,鲜明的彝族文化特色,是向世界展示彝族文化的窗口,感谢您访问彝族 人 网站。

彝族是我国民族大家庭中人口较多的一员,据2010年统 计,共有 800多万人口,分布在云南、四川、贵州、广西四省区。彝族是一个跨国界民族,越南有近万人,泰国、缅甸、老挝、柬埔寨等国家都分布有彝族。

彝族有自己的语言文字,彝文古籍卷帙浩繁,彝文有三千年以上历史。彝语属汉藏语系藏缅语族彝语支,分为六大方言区,1980年在征求各方意见的基础上,国务院以[1980]70号文件批准推行《彝文规范方案》:规定了以彝语北部方言的圣乍语为基础方言,以喜德语音为标准音,规定一字一音,819个字加次高音符号的字以及一个替音符号,共1165个字符;书写一律从左到右横排;还确定使用国际通用的阿拉伯数字和彝文原有的数字。

2011年3月,根据四省区彝学会和滇、川、黔、桂彝文古籍整理出版协作会的要求,在原有国务院批准实行的规范彝文基础上,增加了六个音节、83个字,统一制订了注音符号。共有 1251个音节,5589个通用规范彝文字。涵盖了彝语六大方言区的全部音节和常用字。使彝文信息处理工作从原来的规范彝文进入了全国通用规范彝文阶段。

从30年的实践证明来看,彝文规范方案推行后,培养了一大批彝语文专业人才,彝语文也得到了广泛使用,有力促进了彝族地区经济、文化等社会各项事业的发展。

从20世纪70年代起,在周恩来总理的关怀下,由当时的四机部、中国科学院、国家出版局等部门发起了“汉字信息处理技术工程”,语言文字信息管理工作开始提上国家语言文字工作日程。我国是一个多民族多语种的国家,有53个少数民族都有自己的语言,将近30个少数民族使用30余种民族文字。因此,在研究汉字信息处理时,我国一直都很重视各少数民族语言文字的计算机信息处理工程,国家对少数民族语言文字处理系统的开发也给予了极大的关注。

彝文信息处理工程也正是这股语言信息处理浪潮中启动和发展壮大起来的。

彝文信息处理是指用计算机对彝文进行转换、传输、存储、分析等加工的科学,是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相关联的边缘交叉性科学。

彝文信息处理的研究工作其实早在1982 年就拉开了序幕,近30年过去了,彝文信息处理工作走过了曲折的道路,经历了漫长的发展历程。

一、计算机彝文系统研制概况

中文所包括的文字不仅仅是汉字,它包括蒙、维、彝、朝等中国所有文字,还包括我国古代的甲骨文、金文、小篆等文字。因此,在研究中文信息处理时,我国一直都很重视各少数民族语言文字的计算机信息处理工程。彝文信息处理早在1982年就开始了。

(一)《PGYW彝文计算机》

1982年,我们在苹果计算机上开发了彝文软件,虽然不能打印出彝文,但能在屏幕上显示出彝文,字形较美观。

(二)《微型计算机彝文处理系统 YWCL》

1984年6月,我们在PIED PIPER微机上进行了彝文处理的研制。建立了彝文字库,可用BASIC或FORTRAN语言调用,可编写彝文文件进行编辑和修改工作,经过移植也可以在其他类型的微机上应用。此项成果开发成功后,于1984年10月27日通过了四川省级专家技术鉴定,1985年获四川省科技进步奖。

(三)《计算机激光彝文/汉文编辑排版系统》

这是列入国家经济发展规划1985~1987年的重点技术开发项目。1986年4月通过了电子工业部和国家民族事务委员会在北京科学会堂共同主持的两部委专家技术鉴定。该系统采用了和汉字系统兼容的策略,基本上没有改变原主系统的硬件配置,其主要指标和汉字系统基本相同。该系统的排版功能是保留了汉字系统的书宋、仿宋、黑体、楷体和小标宋五种字体以及多种数字、字母和符号。并增加了含次高调在内的1165个彝文字,彝文字的字宽和字高之比为11∶6,共有14种字号,可排长、扁两种彝文字体。照排速度为5号字每秒60个字,分辨率为每毫米292线。可以编排16开和32开的普通彝文书刊以及彝文汉字混合编排,标点符号行末行自动禁排,还能够自动编排页码、安放书眉等。该系统的编辑功能是:增删、进行修改、分段、段落合并等。可以复制,将文章合并,或将一篇文章分成若干章节,可以利用长城 0520及兼容机上的WORD-STAR等文字编辑及处理功能。该系统是我国首次运用激光照排技术进行少数民族文字处理的编辑排版系统。在鉴定会上,彝文编码输入方案被两院院士王选称为“沙马拉毅输入法”。1986年5月在北京“全国‘六五’期间科学技术攻关项目展览会”上荣获国务院电子振兴办公室颁发的优秀科技成果奖。 彝族人-网诞生于北京,已经20年了。初心不改,在浮躁的网络时代,留一片净土,为彝族留下更多闪光的文化。

(四)《计算机彝文/汉文/西文系统》

1985~1986年,我们在长城0520A型计算机上进行了彝文/汉文/西文系统的研制,采用软件插件兼容的策略,坚持不增加硬件成本,在保留原汉字系统的基础上,根据彝语音及彝语音符号的特点,设计了具有唯一性的彝文编码方案,增加了彝文音素输入法和区位输入法。建立了系统公用字库,从而使该系统拥有丰富的中西软件资源。该系统在保留了原系统功能的同时,增加了彝文处理功能。系统包括彝文编码方案、彝文字库、输入输出的彝文显示、打印等一套程序。最突出的特点是:彝、汉、西文可以随机混合编排打印。可横排也可竖排,也可以打印长体和扁体彝文,有从A~P的几十种字号的彝文。该系统还可以与计算机激光照排系统联机使用。

(五)《北大方正彝文激光照排系统》

1992年,为迎接党的十四大召开,上级有关领导要求党的十四大会议文件各种翻译文件和汉文文件一样都要用激光照排统一规格统一印刷。为向党的十四大献礼,我们日夜奋战、修改、编制了彝文编码方案和彝文字模稿,与北京大学方正集团新技术开发公司联合在方正系统上开发了“北大方正彝文激光照排系统”。该系统建立了白体、宋体、黑体等彝文矢量精密字库。字体美观,符合书籍、报刊印刷要求。键盘未作任何改动。该系统有区位码、彝拼码两种输入法,有书版和报版,是当前报社、出版社、印刷厂、国家机关、学校教学科研用的主要彝文计算机系统。该系统只作激光精密字库的发排使用。因24点阵的打印字库未修改完,字型不美观,不适合针打文件,只能做小样校对。

(六) 《YWPS彝文桌而办公系统》

1995年,西南民族学院计算机中心研制成功了YWPS彝文桌而办公系统。该系统与WPS金山系统完全兼容,有彝文拼音输入法、彝文笔画输入法,用48点阵的打印字模,字形美观,适于办公自动化使用。 彝族人-网诞生于北京,已经20年了。初心不改,在浮躁的网络时代,留一片净土,为彝族留下更多闪光的文化。

(七) 《YWUC彝文系统》

计算机《YWUS彝文系统》是在希望汉字系统UCDOS6. 0下开发出来的,该系统具有希望汉字系统的所有功能,并提供了彝文拼音输入法、彝文笔画输入法。

(八) 《YWWIN彝文系统》

《YWWIN彝文系统》是在中文WINDOWS95下开发的。彝文WINDOWS95提供了彝文全拼(彝全拼)输入法、彝文简拼(彝拼)输入法、彝文笔画(彝笔)输入法、彝语词汇(彝词)输入法。

(九)《计算机彝文字幕系统YWZM》

《计算机彝文字幕系统YWZM》是集彝文、汉文、英文为一体,具有图像、文字编辑、创作、播放等广播级字幕系统。彝汉字幕系统采用加拿大进口图像卡作为硬件平台,用32位保护模式进行编程,因而系统稳定性好、速度快、编辑十分方便、视频指标高。

彝汉字幕系统采用界而菜单人机对话方式,界而菜单有文本编辑、字幕创作、字幕播出、卡拉OK制作、艺术绘画、新闻唱词、视频调整、系统退出等功能,彝汉字幕系统中有彝文白体、宋体两种字体,汉字字体40多种,英文字体几十种,有四十多种播出方式。彝汉字幕系统适用于电视录像字幕、新闻字幕彝汉文卡拉OK制作等。

二、彝文信息处理有关国家标准

《信息交换用彝文编码字符集》、《信息交换用彝文15 X 16点阵字模集及数据库》1988-1989年,由四川省民委、国家电子工业部共同提出。主要起草人:沙马拉毅;发布时间:1992年;发布机关:国家技术监督局。

(一)《信息交换用彝文编码字符集》(GB 13134-91)

本标准于1989年制定完成,收彝文规范字819个,带次高调符号彝文345个,一个替音符号C(wu),共计1165个彝文字符,编码于16区一28区,其他图形符688个,编码于1区一9区。1165个彝文字符采用彝文字母表以音序排列,便于输入和查找。

1989年7月,云南、贵州、广西、四川、北京的有关计算机专家和彝语文专家及有关省市区领导90余人,云集凉山彝族自治州首府西昌邛海宾馆,历时三天对二项彝文信息处理国家标准方案进行了热烈讨论,最后一致同意将1165个规范彝文国家标准方案上报国家机关颁布。

1992年该项标准由国家标准出版社出版、国家技术监督局颁布实施。

(二)《信息交换用15 X 16彝文点阵字模集及数据集》(GB 13135-91)

这是与《信息交换用彝文编码字符集》同时制定并审定通过,同时发布实施的。主要起草人为沙马拉毅。该标准规定了信息交换彝文图形字符的15x16点阵字模及其数据。它主要适用于彝文信息处理系统中的显示设备,也可适用于点阵印刷设备和其他有关设备。本标准提供彝文字形1165个,其他图形符号688个。这些字符横向为15点,纵向为16点。字形实用、美观,完全适用于屏幕显示等。

(三)《信息交换用彝文24 X 24点阵字模及数据集》

该标准规定了信息交换彝文图形字符的24 X24点阵字模及其数据。它主要适用于彝文信息处理系统中的显示设备,也可适用于点阵印刷设备和其他有关设备。本标准提供彝文字形1165个,其他图形符号688个。这些字符横向为24点,纵向为24点。字形实用、美观,完全适用于屏幕显示等。

三、彝文信息处理国际标准

《通用多八位彝文编码字符集》

该标准由国家技术监督局、国家电子工业部、国家语委及国家民委下达任务。四川民族事务委员会、四川省民语委、西南民族学院负责研制。主要研制人员为沙马拉毅。

《通用多八位彝文编码字符集》国际信息标准方案于1994年4月作为中国提案提交国际信息组织ISO/IEC JTCI/SC2/WU2第25次会议。1994年4月受电子部和国家技术监督局及国家民委的派遣,由周永军、沙马拉毅等六人组成中国代表团赴土耳其出席第25次WG2会议。会上,中国代表团宣读了“关于彝文进入ISO10646BMP基本平而”的提案,参加会议的有中国、美国、日本、新加坡、韩国、土耳其、加拿大、芬兰、德国、希腊、越南等32个国家的专家。在会上,中国代表团全而介绍了我国彝文使用的情况,包括彝族人口、文字使用的各级学校、机关、文教、新闻出版等。经过讨论,WG2会议同意接纳中国的彝文提案,并提交下次WG2第26次会议讨论。会后,英国专家休·诺斯和爱尔兰专家麦克对中国彝文方案提出了不同看法。他们认为从资料和宣传中得知规范彝文只有819个,而中国提案中则有1165个字,这会增大BMP平而占用空间的,所以他们也各自提出了彝文国际标准方案。1994-1998年间,经过中国代表的反驳和再三说服提出1165个彝文字符的原因,终于说服了外国专家对彝文的不同意见。通过三轮的国家投票。终于在1998年丹麦会议上审定通过,并录入2000年版的国际信息标准集,作为彝文国际信息标准颁布实施。 2001年,正是互联网兴起的年代,彝-人-网团队便确立了构建彝族文化数据库的宏远目标,初心不改,坚持走下去。

四、彝文手机的研发

2003年,西南民族大学研究的彝文输入法及其键盘布局获得国家专利。在此基础上,西南民族大学民族文字信息处理研究所组成了彝文手机输入法和彝文字库的研究课题组,课题组广泛采集彝文手写字样共31625个不同的手写字样,创建了24点阵的彝文点阵字库,翻译了13000多条彝文手机术语;设计出了彝文显示字模,彝文拼音和笔画输入模式,彝文手写样式,彝文电子图书等,为彝文手机软件的进一步开发打下了坚实的基础。

2009年5月,西南民族大学和北京网道公司联合开发成功了彝文手机。该手机是我国首款民族文字的手机。共推出6款彝文手机,包括5款GSM手机和1款CDMA手机。具有全彝文界而,编辑、收发彝文短信、彩信,彝文拼音输入和手写输入,彝族风格图片、铃声和彝文电子书等特色功能。该产品实现了对包括文字输入在内的全部手机功能进行的系统整合,使彝族地区手机用户可以在手机上使用熟悉的文字和习惯进行手机操作和信息交流。

研制成功的彝文手机,被国内外各大媒体誉为“彝语文发展进程中的里程碑”,使历史悠久的彝族传统文化与移动通信技术相结合,为彝语言文字向科技化、信息化迈进开辟了一条新路,为彝区经济的发展注入新的活力。

五、国家专利

1999年,计算机彝文拼音输入码和彝文笔画码基本定型。我们就将1165个彝文字符、43个声母和10个韵母的拉丁字母输入码、笔画输入码及其在计算机键盘的布局申报了国家专利。经过四年的审查审定,于2003年获得了国家专利证书。专利号:ZL00 1 12801. 9,证书号:第117415号。

六、彝文信息处理技术的展望

从现有的中文信息处理理论和方法以及彝语言资源数据库的现状,规范彝文信息处理以后要做的研究课题相当多,例如,文字识别、语音识别、机器翻译及其他民族语言对照词库、跨平台的操作以及计算机彝文网络系统等,还要开发基于彝语言资源库的多种应用系统,如果这些项目都实现了,规范彝文信息处理将会有更辉煌的发展与前景。

随着彝族地区经济文化的发展,规范彝文信息处理技术的应用上必将得到更大范围的发展。我们有理由相信规范彝文信息处理会像其他学科一样,需要经过众多学者长久的、坚持不懈的探索和实践。我们期待着语言学(包括计算语言学)、语音学、信息科学、智能科学、计算机科学、哲学等各个领域的专家密切合作,在规范彝文信息处理中实现“规则与统计共舞,语言随计算齐飞”。

1998年,在滇、川、黔、桂四省(区)彝族古籍整理协作会第六次会议上通过了“将国务院批准的四川规范彝文作为我国彝族统一文字的会议纪要”。至此,计算机彝文信息处理事业得到了迅猛发展。2000年后彝文信息处理技术的各项成果如春笋般涌现,从开始只能对单字的处理到现在的词汇处理,从文书编辑到电子彝文出版系统,己经形成了一套完整的彝文信息处理技术体系。2001年由四川民族出版社出版了专著《计算机彝文信息处理》;2005年研制出四川省教育厅的“中小学汉彝对照电子词典”完成了国家民委课题“彝文文献全文数据库研究与开发”均填补了国内相关方而的空白;2006年西南民族大学与北大方正合作开发的UNICODE彝文系统问世,计算机彝文字体从开始的两种发展到现在的白体、黑体、细黑体、宋体、仿宋体、综艺体、圆头体、手写体等8种字体;2007年西南民族大学与北大方正合作研发的彝文书版研发成功;2008年完成了“彝语六大方言语料库”的建设;2008年研制建立了“彝汉双语平行语料库和术语库”2009年研制出的“彝语语料库”;2009年西南民族大学与中国社会科学院民族学与人类学所合作完成了国家教育部重点项目“彝语声学参数数据库”,开创了彝语实验语音学研究的先河,也为西南少数民族语言实验语音学研究工作的开展进行了有意义的探索。2009年11月,全国彝语术语标准化工作委员会在西南民族大学成立,这是我国彝语文信息化处理研究工作的一件大事,对进一步推动滇、川、黔、桂四省区彝语文全而规范化、标准化、信息化进程,促进彝语文信息化建设的健康发展具有重要的现实意义和深远的历史意义。

七、结语

通过30年的社会实践,彝文信息处理的研究成果己经己广泛应用于新闻出版、教学科研、国家机关等各领域,以及全国党代会、全国人民代表大会、全国政协会议等全国性的大会,加快了彝语文工作的现代化和信息化建设的步伐,推进了彝族社会进入现代化信息时代的进程。

在今天,Internet把世界各地的计算机联接了起来,共享信息和技术是必然的趋势和需要,因此各地区、各民族之间的各种语言信息资源的互相交流变得越来越重要。规范彝文信息处理方而的开发应用,不仅标志着规范彝语文的社会功能在这一领域的不断扩展,而且为彝语言文字的繁荣和发展,为彝语言文字的现代化开辟了广阔前景,强劲地推动了彝族地区政治、经济、文化的全而发展,具有划时代意义。

这里是彝族文化网络博物馆,海量的数据,鲜明的彝族文化特色,是向世界展示彝族文化的窗口,感谢您访问彝族 人 网站。

参考文献

[1] 沙马拉毅.计算机彝文信息处理研究述论[J].西南民族大学学报,2002(04):6-9.
[2] 钱玉趾,董正罡.彝文信息处理与沙马拉毅的原创性[J].西南民族大学学报,2007(04):49-55.
[3] 沙马拉毅.计算机彝文信息处理[M].四川民族出版社,2000.
[4] Keogh J. JZME.开发大全[M].潘颖,土磊译,清华大学出版社,2001.
[5] 李金发.试论计算机彝文字符编码的转化[J].云南民族大学学报,2008(01):82-86.
[6] 钱玉趾.规范彝文编码方案[J].中文信息,1990(03).

原载:《中文信息学报》2011年第6期
文字来源:彝学微信公众号;主编:巫达;推文编辑:吉差小明
申明:本文从公开互联网平台转载,并经彝族人网重新编排,旨在公益宣传彝族文化。版权归属原作者和媒体所有,如涉及版权事宜请与我们联系进行删改。