彝文输入法形码编码的研究与实现
摘要:提出一种基于字形分类的彝文形码编码的输入法方案,将所有的彝文文字按其字形特点如:有无曲线,有无封闭,有无点等进行分类,首位分为不同的8大类,根据字型的曲线和封闭等的具体情况再进一步分类,同时将一些特殊的彝文文字采用单一码0表示,从而降低了重码率.基于Windows开发平台,运用imegen.exe输入法生成器实现彝文输入法,测试结果表明该彝文输入法平均击键率低,重码率适当。
关键词:彝文;字型分类;输入法;编码
彝文合体字少,不似汉字采取形声结构来多产字[1-6],而是采用字体结构易位、增添笔划等方法来多产字.结构易位有上下易位、左右易位;增添笔划则指在已具独立形、音、义的独体字不同部位增添不同的笔划,形成另具形、音、义的字.彝文再一特点是异写繁多,每字的异写少则二三个,多则四五十个.目前彝文的输入法方式大体可分为2类:即根据读音来输入和根据字型来输入,也就是我们常说的音码与形码输入法.
彝文的音码输入法是目前使用最多的方法,其缺点也显而易见.使用彝文音码输入法,必须是懂彝文的人,局限性很大.然而彝文形码输入法的研究在国内外仍旧是空白.综合分析彝文字型的主要特点,分类编码,极大地扩大了适用范围,无论使用者懂不懂彝文,都可以根据文字的形码规则进行拆分输入,相比音码输入法而言,适用人群更为广泛,普遍.
1 彝文输入法字型编码
本文所研究的彝文输入法,是一种仅仅使用10个数字键0到9,最多击键3次便可以轻松输入彝文的大众化输入法.即便在用户纯粹不懂得彝文的情况下,只需根据字型拆分规则就能进行彝文字符的计算机输入,使用非常方便.它较好地解决了彝文字符输入过程中的高效性与实用性的问题.此输入法可广泛应用于小型设备,电脑等.
1.1 编码方案
第1位为大体分类,后2位是在此基础上根据字形的特点(如:有无曲线,有无封闭等)具体细化分类.其编码规则:针对彝文文字的整体特征,根据彝文字型是否有曲线,是否有封闭,是否有点进行分类.分为8类:用1至8作为代码,即1代表无曲线,无封闭,无点;2代表无曲线,无封闭,有点;3代表无曲线,有封闭,无点;4代表无曲线,有封闭,有点;5代表有曲线,无封闭,无点;6代表有曲线,无封闭,有点;7代表有曲线,有封闭,无点;8代表有曲线,有封闭,有点.
第2位编码规则:在有无曲线的基础上,针对笔画特征进行分类.无曲线9种分类,用代码1至9表示,即1代表仅含横竖笔画;2代表横斜笔画,横笔画数大于斜笔画数;3代表仅横斜,横笔画数小于斜笔画数;4代表仅横斜,横笔画数等于斜笔画数;5代表仅竖斜;6代表横竖斜,有交叉且仅左斜;7代表有横竖斜,有交叉且有其它斜;8代表横竖斜,无交叉且仅有左斜;9代表横竖斜,无交叉且有其它斜.有曲6种分类:即1代表仅有上或下曲有交叉;2代表仅有上或下曲且无交叉;3代表仅有左或右曲且有交叉;4代表仅有左或右曲且无交叉;5代表其他的曲且有交叉;6代表其他的曲且无交叉.
第3位编码规则:在有无封闭的基础上,针对封闭的构成分类,无封闭有曲线时,根据曲线开口方向分类,无封闭无曲线时,笔画交叉个数来进行分类.封闭提供6种分类:即1代表仅曲线构成的封闭,封闭内无笔画;2代表仅曲构成封闭,封闭内有笔画;3代表直线加曲构成封闭,封闭内无笔画;4代表直线加曲构成封闭,封闭内有笔画;5代表直线构成封闭,封闭内无笔画;6代表直线构成封闭,封闭内有笔画.有曲且无封闭提供4种分类:即1代表仅有左曲;2代表仅有右曲;3代表有左右曲;4代表其它曲线类型.无曲无封闭文字的编码为:用代码0表示无交叉,有1处交叉用1表示,依此类推,交叉个数就是其最后1位代码.
综上所述,便得到一种清晰明确的编码方案,如图1所示。
另外点不作为笔画.凡文字上部带弧线的,编码先以0开头,去掉上部弧线,之后再编码2位即可,0代码表示仅由1种笔画构成的文字,点和曲线除外.
根据上述编码方案,输入1个彝文字符最多只需输入3位数字代码,每位代码有明确的归类。
经过统计,重码率如表1所示。
从图1可以看出6.99%的重码率小于10,即输入编码后只需在屏幕上选字即可.另外88.76%的字也只需翻6页之内,其余的4.25%超过6页.由此可见,此方案是可行的.
表1 重码统计表
重码的范围是指相同的编码的文字的统计.比如:1~10指的是,相同的编码的文字有1~10个内的.重码的字数是指含有相同编码文字的个数.重码率是指,含有相同编码的文字在总体中所占的比率.平均击键率如表2所示.
表2 击键统计表
击键率是指输入1个文字敲击键盘的次数在总体敲击键盘次数中所占的比率。
1.2 彝文输入法的实现过程
字库的制作利用计算机制作字库一般要经过设计字稿、扫描输入、程序拟合、人工修饰、质量检查、组织字库、测试字库、安装使用等几个步骤,彝文字库也不例外.
采用造字程序拟合的效率很高,但字的质量、结构,特别是原设计字稿中所包含的鲜明的、人格化的韵味是计算机程序无法自动表现出来的[7-9],只有靠人工修饰才能做到.
完成所有字稿上的字以及相应修饰工作之后,下一步的就是设置好字库的适用平台[8].我们使用的是Unicode 1.0/Unicode 1.1/Unicode 2.0和Unicode3.0语义学.之后,由专门人员负责装库,配上相应的符号及数字、外文等,然后根据需要,组织、转换成GBK编码的标准Windows TrueType字库.
彝文字字库产品的使用要经过严格测试.测试字库的工作包括字形、质量、编码、安装、使用、显示、输出以及产品的完整性、适用性、合理性、兼容性、连续性等各个方面.
经过上述几个环节后,制作好的彝文字字库就可以安装到Windows系统中,与我们开发的彝文输入法共同使用.
在彝文输入法的实现上,我们采用基于Windows开发平台,运用imegen.exe输入法生成器实现彝文输入法.彝文字符的编码段选在Unicode字符集的自定义区,彝文的字体可以兼容宋体.Windows xp/2000下彝文输入法的使用在Word记事本等文字编辑软件中测试通过.如图2所示.
2 结语
本文所介绍的彝文形码分类输入法,在使用中仅用到0~9数字键,平均击键率低,重码率适当,易学,即使不懂彝文的人也可以正常使用.因此本方法有广泛的应用前景和范围。
这里是彝族文化网络博物馆,海量的数据,鲜明的彝族文化特色,是向世界展示彝族文化的窗口,感谢您访问彝族 人 网站。参考文献
[1]陈钦梧,郝元礼.汉字笔划输入法研究[J].汕头大学学报:自然科学版,2007,44(3):23 -29.
[2]武传坤.信息论、编码与密码学[M].北京:机械工业出版社,2004:1 -9.
[3]郭平欣,张淞芝.汉字信息处理技术[M].北京:国防工业出版社,1985.
[4]陈增武,金连甫.汉字信息处理[M].贵州:贵州人民出版社,1988.
[5]王颂平.笔顺码和数字CKE技术[J].计算机世界,1999(44,C):9 -10.
[6]国家语言文字工作委员会标准化委员会.现代汉语通用字笔顺规范[M].北京:语文出版社,1997:12-23.
[7]沙马拉毅.计算机彝文信息处理[M].成都:四川民族出版社,2000.
[8]吴兵,史军,刘玉萍,等.基于Linux系统的彝文输入动态挂接[J].西南民族大学学报:自然科学版,2005,16(4):26 -28.
[9]李金发.试论计算机彝文字符编码的转换[J].云南民族大学学报:自然科学版,2008,17(1):80 -84
作者单位:云南民族大学电气信息工程学院,云南昆明。