信息处理用彝、汉、英三语平行语料库的建设与语料对齐技术研究
摘要:彝、汉、英平行语料为一种基础性关键资源,具有重要的学术价值和实践意义,可应用于多个领域,比如彝英、彝汉等双语或多语常用词典和术语编纂、机器翻译、跨语言信息检索,以及计算机辅助教学和语言对比研究等领域。本文以西南民族大学民族文字信息处理研究中心、彝学文献中心、彝学学院、西南民族研究院等教学科研单位历年来所收集整理翻译的政治、法律、经济、科学、文化、教育等领域内的语料作为基础,提出了一个大规模彝、汉、英三语料库的构建方案,包括其总体规划标准制定、实施方案和流程细节,通过组织构建彝、汉、英三语料库,实现了彝、汉、英三语料库双语语料库在统计的机器翻译系统中的应用,并进行了运用测试分析,实现彝、汉、英三语料之间的三语对照翻译,提高了彝、汉、英三语互译的准确性,对彝语言信息技术的发展进行了有意义的尝试。
关键词:彝汉英;语料库;对齐技术;测试分析
1、引言
彝族是中国西南分布广泛、人口最多的少数民族之一,据2000年全国人口普查数据显示,国内彝族人口共有770多万人,居全国少数民族第六位。语言文字是人类社会信息的主要载体,随着全社会信息化进程的迅速发展,语言文字的计算机处理的重要性与紧迫性日益显现出来。
平行语料库是指使用不同语言撰写的、相互间具有“翻译关系”的文本,通过对平行语料进行不同层次的对齐处理,如词汇级、短语级、或句子级,就可以获得各种对齐级别的平行语料库。20世纪80年代以来,基于语料库的方法受到了计算语言学研究者的广泛重视,而随之出现的单语或多语平行语料库,逐渐成为解决词典和术语编纂、机器翻译、跨语言信息检索,以及计算机辅助教学和语言对比研究中获取信息的理想资源,并且通过大规模得平行语料库建立统计模型成为语言信息处理和加工的主流模式,这对于众多跨语言的自然语言处理研究都具有较高的研究和实用价值。
近几年,随着我国加大民族语言信息化建设的力度,彝文信息处理的规范标准工作都取得了很大进展,为进一步开展彝文信息化建设奠定了基础。但是,要推进彝文信息化的发展,还有很多工作亟需开展,其中至关重要的一项工作就是彝语与英、汉等多语的平行语料库的研究与建设。无论从彝语材料的整理、彝汉、彝英等双语对比研究来看,平行语料库都有着极为重要的价值,是深入开展这些工作的一个重要基础。
彝、汉、英三语平行语料是我国所特有的一种语言资源,也是一种彝文信息的基础性关键资源,具有重要的学术价值和实践意义,它可应用于多个领域,比如彝英、彝汉等双语或多语常用词典和术语编纂、机器翻译、跨语言信息检索,以及计算机辅助教学和语言对比研究等领域。因此,构建一个多领域、高性能的彝、汉、英三语料库是当前彝文信息处理技术研究的重点问题之一。
本文通过提出彝、汉、英平行语料库构建的组织方案,从中获取彝、汉、英三语词典及其翻译模式,从而改进传统的机器翻译方法,三语语料库的建设对于双语词典编纂、跨语言的对比研究都具有十分重要的价值。
2、彝、汉、英三语平行语料库的建设方法
本文以建设高质量的彝、汉、英三语平行语料库为总体目标,充分利用统一字符编码Unicode对多语言信息处理的支持,坚持语言资源库建设与工具软件开发相结合,同时兼顾对平行语料库与彝语资源数据库库的建设。
2.1、彝、汉、英三语语料的选取
本文以“广泛的客观定义的文本类型”为依据来进行初始语料的采样,然后根据库存语料的“影响力”、随机采样以及可访问性等指标来进行语料选择,主要是以西南民族大学民族文字信息处理研究中心、彝学文献中心、彝学学院等、西南民族研究院教学科研单位历年来所收集整理翻译的政治、法律、经济、科学、文化、教育等领域内的语料作为基础进行彝汉英三语的平行语料库的研究,建设了高质量的词汇、句子级的彝文-汉文-英文平行语料库。
在选取的文本语料做到了尽量把有关的彝、汉、英三语的对照语句都收入到语料库中,这将有益于更多知识的获取和学习,一个实用的三语检索系统最终必须是范围最全面的检索系统。
2.2、彝、汉、英三语平行语料库的制定与规划
建设彝、汉、英三语平行语料库的核心任务是语料库的组织,为了更好地进行这项工作,保证语料库的质量和规模,一个相对完整、便于操作的语料库构建流程是最重要的。因此,通过对语料库的加工和处理、语料库的组织等问题进行分析,形成了一个三语平行语料库构建流程的模型,如图1所示。
图1:彝汉英多语平行语料库的实现的流程图
采用《计算机彝文信息处理标准及国际编码字符集》、《多八位彝文编码字符集》中规定的统一彝文字符编码进行设计开发。Unicode包含几乎世界上所有字符,已成为国际化软件开发的唯一选择,而且非常有利于多语言信息的处理。通过采用Unicode编码,可大大降低彝汉英三语平行语料库建设中的字符表示和软件工具开发的复杂性。
语言资源的建设,无论是双语平行语料库还是多语语料库的建设,都需要投入大量的人力、物力和财力,并且很难保证资源的加工质量。
平行语料自动对齐软件依据对齐算法,对彝汉英的平行语料进行词汇、句子一级的对齐处理,而由人工执行校对,从而提高建库效率。对齐语料校对软件以良好的可视方式显示对齐语料,帮助人工校对,提供校对的速度和质量。
平行语料库与彝语言资源库的建设是相辅相成的,它们有需要共同面对的一些问题,比如字符编码转换工具的开发;更为重要的是,彝语言资源库是多语平行语料库建设的基础,可以提高多语平行语料库建设的工作效率和准确率,而语平行语料库反过来也可以用于句子辅助对齐算法以提高自动对齐的精度,两者互相结合,取长补短,从而加彝汉英多语平行语料库的建设。
由于本文研究工作是面向彝、汉、英多领域的多体裁,因此采用基于三语词典的句子对齐方法进行了文本对齐。
2.3、彝、汉、英三语平行语料库的编码选择方案
为方便语料库的管理、统一处理、共享和交换,最理想的方式就是设计一个专用的管理系统。语料库中所有语料需按照同样的方式编码或标记。这可以使得语料库能够独立于软件平台和具体的应用程序,具有较强的数据可交换性。
目前国际上有三个语料库标记标准建议方案,一个是正处在开发之中的语料库编码标准(CES),一个是文本编码标准TEI,TEI已为一些著名语料库所采用,例如:英国国家语料库(BNC),而这两项标准都是基于SGML标记语言而制定的。另外一个就是是XML,XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。
这个标准运用很普及,得到业界的广泛支持,基于XML语言的编码体系容易获得广泛的软件支持。考虑语料以后的可用性、可交换性以及语料标记集的全面性和可操作性,本文采用XML格式,并根据需要定义彝汉英三语都将采用的平行语料统一标记集。比如,语言种类,编码类型、原始来源,对齐的级别,文档的类型、文档的总字数、对齐编号等等,如表1所示:
被标记内容 | 标记 |
正文 | 〈TEXT BODE〉…〈/TEXT BODE〉 |
彝文标题 | 〈YW TITLE〉…〈/YW TITLE〉 |
汉文标题 | 〈CHI TITLE〉…〈/NAXI TITLE〉 |
英文标题 | 〈EN TITLE〉…〈/EN TITLE〉 |
作者名 | 〈Author〉…〈/Author〉 |
译者名 | 〈Translator〉…〈/Translator〉 |
词边界 | 〈w id=“序号” 〉…〈/w〉 |
句子边界 | 〈s id=“序号” 〉…〈/s〉 |
段落边界 | 〈p id=“序号”language=“语种” 〉…〈/p〉 |
对齐单位 | 〈a id=“序号”no=“对齐模式” 〉…〈/a〉 |
表1:XML标记集
2.4、彝、汉、英三语平行语料的整理与加工
语料库中存放的是在语言的实际使用中真实出现过的语言材料的集合,我们建立语料库是期望从中获得对真实语言现象和规律认识的最原始的语料,但真实语料需要经过加工(分析和处理),才能成为有用的资源,因此只有当语料被加工之后,蕴含在语料中的语言知识被标识出来,人们才能在大量的语言现象中总结出规律,并用之于机器翻译的研究。目前对语料的整理与加工主要有词法标注、句法标注、语义特征标注和双语对应等。
加工语料主要指文本格式处理和文本描述两项工作,首先对采集的语料文本进行整理,转成统一的电子文本格式,例如数据库格式、XML文本格式等。其次是描述每一篇语料样本的属性或特征,包括篇头和篇体描述。篇头描述说明整篇语料样本的属性,例如语体、内容所属的领域、作者等等;篇体描述是在文本里添加各种语言学属性标记,并对双语语料库进行整理、加工。我们制定整个语料库构建流程的XML标记集,如表1所示。
2.5、彝、汉、英三语平行语料库的标注
一个真实的语料库是对标准的最好描述,并能对标准进行有效的补充。语料库的标注工作取决于语料库将以什么样的方式使用。我们希望部分语料库资源能够直接用于改善机器译文的质量、实现较好的翻译效果,也希望能够从语料库中学习到彝语、汉语和英语的翻译知识,本文在全信息标注框架下依据彝语言的特点建立相关的标准规范。
首先,利用软件工具进行自动标注;其次,人工校对标注结果,对中文进行词性标注,这部分语料的标注需经过人工校对。另外,双语语料句子对齐的研究也需进行人工校对。完成了彝文分词及其词性标注:比如:;完成了10万句的彝文、中文、英语句子的对齐;同时也完成了彝文专名,如:,等与中文专名和英语专名的词性标注及对齐。
3、彝、汉、英三语平行语料的对齐技术的研究与探讨
由于自然语言间的翻译是一个非常复杂的智能过程,在翻译句子时人们往往会从上下文中获取语境信息,或加入该句中没有的额外信息,或删除该句中的多余信息,并对句子做或合并或拆开,甚至省略的处理,因此,在对齐句子时有很大难度。而对于短语或词汇级的对齐由于词汇次序的重组,自由式翻译,以及不同语言之间表达方式、语法规则、习惯用法的不同,这种难度又进一步增加。
本文研究最初建立的彝、汉、英三语平行语料只能做到句子级的人工对齐,所以目前还很少涉及到段落及篇章的对齐。在对句子对齐的基础上展开词语对齐的研究过程中,主要采取基于多语词典的对齐方法,即基于既定词表的三语自动标注于对齐。彝、汉、英三语平行语料库的对齐互译关系则主要通过三语对齐标记体现。鉴于彝、汉、英三语平行语料库的特点,词语对齐标记方法可以采取XML标记集的方式。其次还要经由下面几个步骤来实现语料的对齐处理:分别统一彝文、汉文、英文文本语料中的字符和标点符号。汉文、英文语料都统一使用半角字符及标点符号,彝文语料也必须使用标准格式,由于此语料库对齐是基于句子一级的,使用统一的符号,才能对每个段落再进行快速准确的自动分句。语料的句子自动对齐,从总体上看,正确率尚不高,自动对齐之后,尚需人工审核。为了较好地完成上述标注工作,针对语言学理论和应用领域中的各种问题,必须研究和开发一种能够处理语料的算法和软件工具,再利用软件开发工具进行自动标注,最后人工对标注结果进行校对。在三种语言的语料中建立源文和译文之间的对应关系,这种对应是多层次的,可以是文章与文章之间、段落与段落之间、句子与句子之间、句法单位与句法单位之间、单词与单词之间的对应。随着对应层次的深入,建立对应的难度也就会逐渐增大,这些都是以后信息处理彝文语料库建设的重点发展方向之一。
4、彝、汉、英三语平行语料库的对齐测试分析
在针对彝、汉、英三语平行语料库的建设、以及对三语语料对齐构建等问题的研究过程中,对彝、汉、英语料句子对齐进行了实验测试,实验结果见下表:
测试句子总数 | 自动对齐正确数 | 自动对齐正确率 | ||
彝文:120 | 汉文:95 | 英文:93 | 79% | 77% |
汉文:120 | 彝文:97 | 英文:103 | 80% | 86% |
英文:120 | 彝文:89 | 汉文:108 | 74% | 90% |
表2:彝、汉、英三语平行语料库句子对齐测试结果
从表2可以看出,通过对不同语言的语料来进行语句的对齐测试结果可以看出,汉-英或英-汉的语句对都有较高的准确率,但彝-汉和彝-英的语句对齐的准确度相对较低一些。可见对于短语或词汇级的对齐由于语言词汇次序的重组,自由式翻译,以及不同语言之间表达方式、语法规则、习惯用法的不同,这种难度又进一步增加、对齐准确率会有所降低,这些都需要对如何提高对齐精度做了进一步的研究和探讨相信在彝文信息处理技术的不断深入发展后会有新突破与发展。
5、结语
本文自建彝、汉、英三语平行语料库库,整理收集了10万多句的彝、汉、英三语语料,实现对彝、汉、英三语语句在语义范畴内的自动标注,为进一步建设各种彝语言资源数据库的研究与建设文打下坚实的基础。使之成为了解决民族语言的实际应用及文化研究、信息化进程中的基础性问题,也为以后我校民族语言资源语料库的研究工作的开展进行了有意义的探索。
彝、汉、英三语平行语料库将是我国,也是世界上,第一个针对彝语和汉语、英语的平行语料库,必将促进我国民族语言信息处理研究和应用,平行语料库的建设不仅可以为研究汉语和彝语、英语之间的关系提供丰富的语言资源,而且有助于彝、汉、英三语语言间的机器翻译和跨语言检索研究的发展,从而促进各民族间的交流。
参考文献:
[1]刘开瑛.中文文本自动分词和标注[M].商务印书馆,2000:1-249.
[2]沙马拉毅.计算机彝文信息处理[M].电子工业出版社,2000:21-67.
[3]陈小荷.现代汉语自动分析[M].北京语言文化大学出版社,2000:35-80.
[4]冯志伟.计算机中文信息处理[M].北京出版社,2001:20-145.
[5]常宝宝,詹卫东,张华瑞.面向汉英机器翻译的双语语料库的建设及其管理[J].计算机辅助术语研究,2003,(1):28-31.
[6]李康熙,杨勇.平行语料库对齐技术的语言学思考[J].合肥工业大学学报(社会科学版),2009(6):83-86.
[7]雪艳. 关于用XML 语言组织蒙古语语料库的设想[J]. 内蒙古大学学报(人文社会科学版),2006(1):13-16.
[8]赵斯琴,高光来,何敏.蒙古语语料库的研究与建设[J].内蒙古大学学报:自然科学版,2003(5):578-581.
[9]淑琴,那顺乌日图.面向EBMT系统的汉蒙双语语料库的构建[J].内蒙古社会科学:汉文版,2006(1):140-144.
[10]阿里甫·库尔班等.维汉机器翻译用电子词典的设计[J].计算机工程与应用,2006,(5):76-78.
[11]赵芳婷等.纳-汉双语语料库构建及双语语料对齐[J]. 广西师范大学学报(自然科学版),2009(3):161-164.
作者简介:王成平(1979-),男,彝族,博士,副教授,西南民族大学民族语言文字信息处理实验中心副主任,研究方向:民族文字信息处理、计算语言学、实验语音学。
本文是西南民族大学2009年度中央高校基本科研业务费专项资金”项目《信息处理用彝、汉、英平行语料库的研究与建设》(09SZYZJ04)的研究成果之一。
彝族人-网诞生于北京,已经20年了。初心不改,在浮躁的网络时代,留一片净土,为彝族留下更多闪光的文化。