计算机彝文信息处理研究
摘要:1989年,云南、四川、贵州、广西、北京等省、市、自治区的有关领导、权威专家云集西昌,一致通过了 1980年国务院批准实施的规范彝文作为我国彝文信息处理标准, 1992年,国家技术监督局颁布实施了多项规范彝文信息处理国家标准,从而使彝文信息处理工作得到了顺利发展。 1998年,在滇、川、黔、桂四省 (区 )彝族古籍整理协作会第六次会议上,来自四省区和北京的权威专家及有关领导云集成都,一致通过了“将国务院批准的四川规范彝文作为我国彝族统一文字的会议纪要”。 至此,计算机彝文信息处理事业得到了迅猛发展。 YWBDDOS北大方正彝文激光照排系统、 YW PS彝文系统、 YW IN2000彝文系统、 YW彝文字幕系统等计算机彝文系统相继问世,并获得了省部级的各种奖励。 古老的彝文,正向着世界、向着信息化、现代化、网络化、朝着五彩缤纷的信息时代大步迈进。
关键词:计算机;彝文;信息处理
计算机的应用由早期的以数值处理为主,发展到目前的以非数值性数据处理为主,这是计算机在应用领域中的一个重大突破。 它大大拓宽了计算机的应用范围,促进了计算机应用不断发展。 然而,随着计算机应用的发展,也向计算机科学技术提出了许多问题和要求。 当今社会是信息社会,人们在日常生活中有大量的信息需要存储、传递和处理,如果都用人工 (手工 )来完成这些工作,则要花费大量的劳动。 而且由于信息的庞大和人脑工作的特点,往往不能获得非常满意的结果。 用计算机实现对这些信息的处理已经势在必行。
我国是一个多民族多语种的国家。 55个少数民族中,除回、满等使用汉语外,其他 53个少数民族都有自己的语言,将近 30个少数民族使用 30余种民族文字。民族文字使用人口按全部少数民族的 25% 计算的话,就有 2000万人以上。 少数民族语言是少数民族的重要交际工具。
科技的发展和计算机的普遍应用,使人们的社会活动空间迅速扩大,而人际距离却大大缩小,各国、各民族的交流往来更加方便。我国民族地区与国内外的贸易和科技文化交流日益增多、日益深入。 特别重要的交流是通过计算机先进软件系统来获取信息、学习和掌握国内外先进的科学技术。
中国少数民族文字信息处理于80年代已获得喜人的发展,为世界多文种计算机信息处理提供了有益的素材和经验。 中国是一个多民族的大家庭,各民族使用着众多的语言和文字,所用文字涉及世界五大文字圈中的所有类型。中国在各民族地区实行民族平等的双语或多语政策,这为中国少数民族文字信息处理的现代化提供了基本的政治条件。民族地区计算机应用同样要求有民族文字处理能力,特别是与汉字、英文兼容的处理能力。办公文书的编写、书刊的排版、为影视屏幕迭加民族文字字幕、民族古籍及语言文字资料的研究整理是一些迫切需要的领域。 80年代初起,我国民族文字的计算机信息处理系统相继问世。 与汉英兼容的蒙文、藏文、朝鲜文、彝文等计算机操作系统广泛应用于教学、科研、出版印刷等行业。少数民族文字信息处理有关标准也相继制定。
计算机信息处理,已经不限于字符的简单编辑加工,还包括词语处理、句子和篇章分析; 已经不限于词法,还包括词义和语义;不限于字形,还涉及字音、字义;不限于字符的录入存贮,还包括识别、理解、转换或翻译。这种不同方向不同层次的发展提出了一系列理论问题和技术问题,这种进展也严肃而又较少主观性的审视已有的理论认识和模式,开始了种种新的探索。
彝文信息处理早在 1982年就开始了。 十几年过去了,彝文信息处理工作走过了曲折的道路,经历了漫长的发展历程。首先,遇到的就是彝文的规范问题,几经周折,终于在 1989年 7月,经云、贵、川、广等彝语文权威专家和有关领导共 90多人,经过 3天激烈的讨论,最后达成一致意见,将 1980年国务院批准实行的四川规范彝文作为我国的彝族文字进入计算机彝文信息处理,并在 1992年由国家技术标准局颁布实施了多项信息交换用彝文信息处理国家标准。 1998年 4月,在成都召开了滇、川、黔、贵四省区彝族古籍整理协作会第六次会议,来自四省 (区 )和北京等地的领导及彝语文权威专家近百人一致赞成将国务院批准的四川规范彝文作为我国统一的彝族文字,经过进一步的补充、完善后逐步推广。会上一致通过形成了“关于将国务院批准的规范彝文作为彝族统一文字的会议纪要”,并将纪要上报有关部门备案。
至此,彝文信息处理工作有了进一步明确的方向,使计算机彝文信息处理研究工作能顺利开展,取得了多项成果,并逐步在教育、新闻出版、科研、党政机关推广应用。 为彝文信息化、网络化打下了牢实的基础。
一、计算机彝文系统研制概述
彝文信息处理工程是在随着日益飞速发展、五彩缤纷、万马奔腾的汉字信息处理浪潮中启动的。 汉字处理技术是在国外西文信息系统基础上改造发展的。彝文信息处理技术是在借鉴汉字信息处理技术基础上加以创造而发展的。 汉字改造西文系统,使西文计算机系统汉字化的处理技术,给彝文信息处理奠定了牢实的基础。早在 1982年,计算机彝文信息处理就开始实施,至今先后已有十多种彝文计算机系统问世。
1、《 PGYW彝文计算机》
1982年,我们在苹果计算机上开发了彝文,虽然不能打印出彝文,但能在屏幕上显示出彝文,字形较美观。
2、《微型计算机彝文处理系统 YW CL》
1984年 6 月,我们在 PIED PIPER微机上进行了彝文处理的研制。 建立了彝文字库,可用 BASIC 或FORT RAN 语言调用,可编写彝文文件进行编辑和修改工作,经过移植也可在其他类型的微机上应用。 此项成果开发成功后,于 1984年 10月 27日通过了省级专家技术鉴定, 1985年获四川省科技进步奖。
3、《计算机激光彝文 /汉文编辑排版系统》
这是列入国家经济发展规划委员 85~87年的重点技术开发项目。 1986年 4月通过了电子工业部和国家民族事务委员会共同主持的部级专家技术鉴定。该系统采用了和汉字系统兼容的策略,基本上没有改变原主系统的硬件配置,其主要指标和汉字系统基本相同。 该系统的排版功能是保留了汉字系统的书宋、仿宋、黑体、楷体和小标宋五种字体以及多种数字、字母和符号。 并增加了含次高调字在调的 1165个彝文字,彝文字宽和字高之比为 11∶ 6,共有 14种文号,可排长、扁两种彝文字体。照排速度为 5号字每秒钟 60个字,分辨率为每毫米 29. 2线。 可以编排 16开和 32开的普通彝文书刊以及彝文汉字混合编排,标点符号行末行自动禁排,还能够自动编排页码、安放书眉等。该系统的编辑功能是:增删、进行修改、分段、段落合并等。可以复制文章,将若干文章合并,或将一篇文章分成若干章节,可以利用长城0520及其兼容机上的 Wo rdstar等文字编辑及处理功能。该系统是我国首次运用激光照排技术进行少数民族文字处理的编辑排版系统。 在鉴定会上,彝文编码输入方案被命名为“沙马拉毅输入法”。 1986年 5月在北京“全国`六五’ 期间科学技术攻关项目展览会”上荣获国务院电子振兴办公室颁发的优秀科技成果奖。
4、《计算机彝文 /汉字 /西文系统》
1985~1986年,我们在长城 0520 A型计算机上进行了彝文 /汉字 /西文系统的研制,采用软件插接兼容的策略,坚持不增加硬件成本,在保留原汉字系统的基础上,根据彝语语音及彝语注音符号的特点,设计了具有唯一性的彝文编码方案,增加了彝文音素输入法和区位输入法,建立了系统共用字库,从而使该系统拥有丰富的中西文软件资源。 该系统在保留了原系统功能的同时,增加了彝文处理功能。系统包括彝文编码方案,彝文字库,输入输出和彝文显示、彝文打印等一套程序。最突出的特点是:彝、汉、西文可以随机混合编排、打印。可横排也可竖排。 可以打印长体和扁体彝文,有从 A- P的几十种字号的彝文。该系统还可与计算机激光照排系统联机使用。
5、《 CM PT- Ⅱ 大键盘彝文系统》
1985年,中国计算机技术服务公司、华北终端设备公司和北京民族印刷厂合作,开发成功了大键盘彝文系统。该系统采用了笔触式整字输入方式。曾用于六届四次全国人大文件印刷。
6、《华光Ⅱ 型彝文、汉字、西文计算机激光照排系统》
1986年,中国计算机服务公司和北京民族印刷厂合作,在华光Ⅱ 型上开发成功了彝文激光照排系统,该系统能自动处理彝文书刊的照排并具有语法检查功能,能自动成页、能自动处理各种版面、能分栏排书刊、处理各种表格。 具有彝文长、扁二种字形,但字形不美观。
7、《北大方正彝文激光照排系统》
1992年,为迎接党的十四大召开,上级有关领导要求党的十四大会议文件各种翻译文件都要用激光照排机统一印刷。 为向党的十四大献礼,我们日夜奋战,修改、编制了彝文编码方案和彝文字模稿,与北京大学方正集团新技术开发公司联合在方正系统上开发出了“北大方正彝文激光照排系统”。 该系统建立了白体、宋体、黑体等彝文失量精密字库。字体美观,符合书籍、报刊印刷要求。键盘未作任何改动。该系统有区位码、彝拼码两种输入法,有书版和报版,是当前报社、出版社、印刷厂、国家机关、学校教学科研用的主要彝文计算机系统。 该系统只作激光精密字库的发排使用。 因 24点阵的打印字库未作修改,字型不美观,不适合针打文件。只能作小样校对用。
8、《 YWPS彝文桌面办公系统》
1995年,西南民族学院计算中心研制成功了 YWPS彝文桌面办公系统。该系统与 W PS金山系统完全兼容,有彝文拼音输入法、彝文笔划输入法,用 48点阵的打印字模,字形美观,适合于办公自动化使用。
9、《 UCYW彝文系统》
计算机《 UCYW彝文系统》是在希望汉字系统 UCDOS6. 0下开发出来的,该系统具有希望汉字系统的所有功能。 提供了彝文拼音输入法、笔划输入法。
10、《YWWIN彝文系统》
《 YWWIN2000彝文系统》是在中文 Window s98平台下开发的。彝文 Window s2000提供了彝文全拼 (彝全拼 )输入法,彝文简拼 (彝拼 )输入法,彝文笔划 (彝笔 )输入法,彝语词汇 (彝词 )输入法等。
11、《计算机彝文字幕系统 YWZM》
《 YWZM 计算机彝文字幕系统》是集彝文、汉文、英文为一体,具有图像、文字编辑、创作、播放等功能的广播级字幕系统。彝汉字幕系统采用加拿大进口图像卡作为硬件平台,用 32位保护模式进行编程,因而该系统稳定性好、速度快、编辑十分方便,视频指标高。 彝汉字幕系统采用界面菜单人机对话方式,界面菜单有文本编辑,字幕创作、字幕播出、卡拉 OK制作、艺术绘画、新闻唱词、视频调整、系统退出等功能,彝汉字幕系统中有彝文白体、黑体、宋体等字体,汉文字体 40多种,英文字体几十种,有 40多种播入播出方式。彝汉字幕系统适用于电视录相字幕、新闻字幕,彝汉文卡拉 OK制作等。
二、彝文信息处理标准
(一 ) 中华人民共和国国家标准
1、《信息交换用彝文编码字符集》
XINXI JIAO HU AN YONG YIW EN BIANM A ZIFU JI
( YI CODED CHARACTER SET FOR INFORM ATION IN TERCHANGE)
2、《信息交换用彝文 15× 16点阵字模集及数据集》
XINXI JIAO HU AN YON G YIWEN 15 X 16 DIANZHEN ZIMO JI JI SHUJU JI
( 15 X 16 DOT M ATRIX FON T SE T AND DATASET OF YI C HARACTERS FOR INFO RM ATION IN TER CHANGE)
1988年由四川省民委、民语委、国家电子工业部共同提出。
负责起草单位:四川省民族事务委员会、中央民族语文翻译局彝文室、中国计算机服务公司。
主要起草人:沙马拉毅
1992年该项标准由国家标准出版社出版、国家技术监督局颁布实施。
《信息交换用彝文编码字符集》 ( G86032),该标准根据 1980年国务院颁布实施的规范彝文制定的。共收规范彝文字 819个,带次高调符号彝文 345个,加一个替音符号,共计 1165 个彝文字符,编码于 16 区 - 28区,其他图形符 688个,编码于 1区- 9区。 1165个彝文字符采用彝文字母表以音序排列。
本标准于 1989年制定完成,1989年 7月,云南、贵州、广西、四川、北京的有关计算机专家和彝语文专家及有关省市领导共 90余人,云集凉山彝族自治州首府西昌邛海宾馆,历时三天对该两项彝文信息处理国家标准方案进行了热烈讨论,最后一致同意将规范彝文信息处理国家标准方案上报国家机关审批颁布实施。
《信息交换用 15× 16彝文点阵字模集及数据集》,这是与《信息交换用彝文编码字符集》同时制定并同时审订通过,同时发布实施的。
主要起草人:沙马拉毅
该标准规定了信息交换彝文图形字符的 15× 16点阵字模及其数据。它主要适用于彝文信息处理系统中的显示设备,也可用于点阵印刷设备和其他有关设备。 本标准共提供彝文字形 1165个,其他图形符号 688个。这些字符横向为 15点,纵向为 16点。 字形实用、美观,完全适用于屏幕显示等。
3、《信息交换用彝文 24× 24点阵字模集及数据集》
XINXI JIAOHUAN YONG YIWEN 24X 24 DIANZHEN ZIMO JI JI SHU JU JI
( 24 X 24 DOT M ATRIX FON T SET AND DATA SET O F YI CHARACTERS FO R INFORM ATION IN TER CHANGE)
1994年 - 1995年,由国家电子工业部下达任务。
负责起草单位:西南民族学院、四川省民族事务委员会、四川省民语委。
主要起草人:沙马拉毅
1997年由国家技术监督局发布。
该标准规定了信息交换用彝文图形字符的 24× 24点阵字模及其数据。 即每个字符横向是 24点,纵向 24点。它适用于彝文信息处理系统中的点阵式印刷设备和显示设备,也适用于其他有关设备。 该标准提供彝文1165个,编码于 16区 - 28区,及其他字符 688个,编码
于 1区 - 9区。
《信息交换彝文编码字符集》和《信息交换用彝文15× 16点阵字模集及数据集》二项国家标准荣获 1994年四川省人民政府优秀成果三等将和国家电子部优秀成果三等奖。
(二 ) 彝文信息处理国际标准
该标准由国家技术监督局、国家电子部、国家语委及国家民委下达任务。 四川省民族事务委员会、省民语委、西南民族学院负责研制。
主要研制人员:沙马拉毅
《信息交换用彝文编码字符集》国际标准方案是按照国际上有关要求,根据国家标准《信息交换用彝文编码字符集》制定的。
该标准规定了信息交换用的 1165个彝文字符和彝文部首作为国际信息标准。 规定了彝文字序、彝文字及其部首的名称。
1993年 12月完成, 1994年 4月,该方案作为中国提案提交国际信息组织 ISO /IEC JTC1 / SC 2 /WG2第25次会议。
1994年 4月,受电子部和国家技术监督局及国家民委的派遣,由沙马拉毅等六人组成中国代表团赴土耳其出席第 25次 WG2国际信息标准会议。
会上,中国代表团宣读了“关于彝文进入ISO10646BM P基本平面”的提案,参加会议的有中国、美国、日本、新加坡、韩国、英国、土耳其、加拿大、芬兰、德国、希腊、越南等 30多个国家的专家。在会上,中国代表全面介绍了我国彝语文使用的情况,包括彝族人口、使用彝文的各级学校、机关、文教、新闻出版等。 经过讨论, WG2会议同意接纳中国的彝文提案,并提交下次WG2会议讨论。
1997年 3月,在新加坡召开的第 32次 W G2会议上决定,中国将提交彝文及其部首的国际标准方案,并准备高质量文本交下次 W G2会议表决1997年 6月 30日至 7月 13日,受国家技术监督局、电子部和国家语委派遣,由国家语委副主任傅永和、电子部计算机与微电子发展研究中心主任张轴材、电子部标准化研究所研究员毛勇刚、西南民族学院沙马拉毅教授组成的中国代表团一行 4人出席了在希腊召开的ISOIE C JTC1 /SC2 /W G2第 33次会议、G3及第 7次SC2会议。 中国、美国、英国、加拿大、丹麦、日本、韩国、罗马尼亚、冰岛、波兰、埃及、芬兰、德国、以色列、匈牙利、挪威、土耳其、亚美尼亚、斯里兰卡、越南等 23个国家 的 专 家 及 Unico de 集 团、 ISO /TC46 / SC2、 CEN /TC34、 JTC1 /SC18 /WG9、 ITU- SG8、 GSE、 ISPTC173、GSE、 SC22 /WG20及 SG22等 9个联络成员的共计 40位各国专家出席了会议。 由 HP的 Mike Ksa r(美国人 )主持 W G2会议;由 Shiba no (日本人 )主持 W G3及 SC2会议。
中国代表团向会议提交了彝文和彝文部首 (主笔 )国际标准方案的高质量文本。
通过讨论,会议作出决定, WG2 接受 N1608中的1165个彝文字符的字形及名称,并将其安排在 BM P基本平面的 A000至 A4BC位置中, WG2决定接受 57个彝文部首的字形及名称,并将其安排在 BM P的 A490至 A4C8位置中 ( M33、 18号决议 )。
1997- 1999年 10月,分别在美国、英国和日本、丹麦等国对彝文及其部首进行了专题讨论,经过三轮的国家级投票,彝文及其部首终于被批准成为国际标准。 并收入了国际信息标准集 2000年版。
至此,彝文走向了世界,为国际彝文信息交流、彝文信息网络的实现、彝文信息化时代的到来奠定了坚实的基础。
三、彝文信息处理的前景展望
我国的汉字信息处理技术的高速迅猛发展,有力地推动了彝文信息处理技术的不断发展,外文和汉字信息处理中的很多技术,在彝文信息处理技术的开发研究中可以借鉴和参考,有的还可以直接利用。这样,给彝文信息处理创造了条件,大大加快了彝文信息处理技术的进展。 近年来,国家对我国少数民族语言文字的信息处理事业给予极大的关心和支持,就彝文信息处理来说,得到了国家自然科学基金的大力资助,开发出了YWIN2000等高标准的彝文系统,使彝文信息处理技术达到了当前国内水平。
彝文信息处理,现在只是做了基础性的工作,还有许多应用性的项目需要做,如机器翻译系统、汉、彝语言对照词库、彝语语库、彝语各方言对照、各种计算机网络系统等,这些项目都需要尽早完成。
在完成了规范彝文信息处理的基础工作后,科研人员已经正在转入古彝文的计算机信息处理研究工作。计算机古彝文信息处理包括:云南、贵州、四川等地民间流传的和各地初步规范化了的彝文,用于彝文古籍整理、出版和古彝文研究。
我们相信,在四川、云南、贵州、广西等省、市、自治区有关领导的关心、支持下,在云、贵、川等彝学会和滇、川、黔、桂彝文古籍整理协作会的正确导向和有力帮助下,在国家和各级政府的大力支持下,经过科研人员的契而不舍、艰苦努力,彝文信息处理事业一定能早日进入迅猛发展的信息时代。
这里是彝族文化网络博物馆,海量的数据,鲜明的彝族文化特色,是向世界展示彝族文化的窗口,感谢您访问彝族 人 网站。原载:《西南民族学院学报·哲学社会科学版》2000年8月。
作者简介:沙马拉毅,男,彝族。本文发表时候,作者系西南民族学院教务处处长、教授。
提示:本文由作者授权彝族人网转载。