基于规则的彝汉双语调序模型研究
摘要:贵州古彝文与汉语在句法结构上属于非单调对称语言,在机器翻译过程中,这种差异将严重影响译文质量。本文通过研究贵州古彝文与汉语在句法结构上的差异,提出一种基于规则的彝汉双语调序模型,用于调整彝文语序,以提高彝汉翻译译文质量。该模型中针对贵州古彝文句法特点,总结了一系列彝语句法规则,通过对比彝语和汉语句法结构上的差异,利用移动、替换等操作调整彝语语序,使其在结构上更符合汉语语序。最后通过实验对所提调序规则进行验证,实验结果表明,通过调序模型得到的符合目标语言句法的源语言调序结果正确率为0.635;利用词对齐模板,对源语言进行直译,译文的BLUE评分值由调序前的0.154提高到调序后0.248。
关键词:贵州古彝文;彝汉双语翻译;预调序模型;调序规则;短语结构树
调序模型作为机器翻译过程中的三大模型之一,主要用于源语言与目标语言在语序上成非单调对称的情况下,通过对源语言或目标语言语序进行调整,以提高机器翻译准确性。贵州古彝文与汉语在句法结构上属于非单调对称关系,彝语属于主-宾-谓(SVO)结构,而汉语属于主-谓-宾(SVO)结构,语序细节上也存在大量差异,例如彝语中形容词修饰名词时,形容词放在名词之后,汉语中则是形容词则放在名词之前,彝语中副词修饰形容词放在形容词之后,而汉语则是放在形容词之前等等。这种结构差异直接影响了翻译译文质量,因此,引入调序模型的研究,对提高彝汉翻译质量有直观而重要的意义。
调序模型的核心问题是如何制定相关调序机制。调序机制主要分为基于规则的调序和基于概率统计的调序两大类。基于规则的调序主要有人工制定规则和自动抽取规则两种方式,人工制定规则方式适用于语料库较少,有专业语言学家参与或指导的情况下,人为确定调序规则;自动抽取规则方式适用于基于大量双语平行语料库的应用场景,结合逻辑语义实现语言规则的自动抽取,但自动抽取规则过程中往往存在抽取规则过量的问题,易产生规则冲突;基于概率统计的调序模型[1]也是基于大量的双语平行语料库,将调序知识作为特征函数融入到概率模型中,通过统计得到概率值来确定调序操作。
彝语虽然是我国主要少数民族语种之一,但信息化工作起步较晚,彝汉双语平行语料库更是匮乏,根据这种实际情况,本文采用人工制定规则方式,制定了一系列基于彝语短语结构树的调序规则,利用这一系列规则对彝语语序做调整,使其句法结构能单调地适应汉语句法。本文基于贵州省彝学专家丁椿寿先生编写的《彝语通论》一书制定了句法规则及调序规则,该书中详细叙述了彝语句法及其构成特点,同时,得到了贵州省毕节学院彝学研究院老师的帮助和指导,保证了制定规则的正确性和完整性。最后本文通过实验,对调序规则的正确性做了验证,并简单实现了基于调序规则的翻译系统,利用词对齐模板,得到汉语直译结果,实验结果证明,调序模型调序后的译文质量得到了较大提高。
1 相关知识
1.1 短语结构树
短语结构树是一种句法解析树,直观地描述了句子的组成成分及各成分之间的关系。短语结构树能很好地体现句子内部的句法结构,实现语言序列到句法树之间的映射关系,如图1所示为语句(他是一个学生)”对应的短语结构树,从结构树中可以看出,该句子由一个名词性短语加一个动词性短语组成,其中包括一个量词修饰名词的名词性短语结构(一个学生)”。输入源语言中的每一个短语或字词都有相应的短语结构子树与之相对应。短语结构树可以根据语言自身句法规则,利用相关算法,如自底向上(CKY)或自顶向下(Earley算法)算法等实现句子的解析。
图1
1.2 调序模型
调序模型[2]可以简单的描述成一个串到串的信道模型。如图2所示,在该信道中,输入为源语言序列S;输出为中间语言S′,S′为翻译模型中与目标语言(如汉语)句法结构对应的源语言(如彝语)序列;channel为一系列根据调序规则做出的移动、替换等操作。
图2 调序模型的信道表示形式
基于句法的预调序是一种结合句法信息,根据目标语言句子,调整源语言语序的调序架构[3]。将源语言S经过调序模型调整后得到中间语言序列S′,再将S′放入翻译系统进行翻译,得到最终译文。即:
调序模型:S→S′;源语言转换成中间语言;
翻译模型:S′→T;调序后中间语言翻译成目标语言;
结合对应的调序规则,通过信道模型对源语言句子语序进行调整,如移动、替换等操作,使其与目标语言语序更匹配,从而降低翻译过程中的翻译难度,提高译文质量。
2 调序规则
调序模型的核心问题是根据不同语言特点,制定使用其句法特点的调序规则。本文是将彝语作为源语言制定调序规则,首先要了解其相关语言特点。彝语属于世界九大语系中的汉藏语系语言,与汉语属于同一语系,在句法分析过程中需要进行分词工作,同属于孤立语,没有形态上的变化。彝语共有11种词性,分别是名词(n)、动词(v)、形容词(a)、数词(m)、量词(q)、代词(r)、副词(d)、介词(p)、连词(c)、助词(u)、叹词(e),其词性与汉语词性相互对应,并无特殊词性。本文调序规则和调序模型使用的实验数据是已经经过词性标注和分词处理后的数据,下面将详细介绍调序规则及其模型。
2.1 彝语句法结构
本文根据贵州古彝文的语言特点及彝学专家给出彝语构成句法,总结出了贵州古彝文句法结构。彝语的语法有词法和句法两个部分组成,词法分为单纯词与合成词两大类,合成词有联合式、偏正式、动宾式、后补式、主谓式等五种复合方式,根据词语的不同词性以及合成规则,能够组合成彝语短语。
彝汉双语在结构上最显著的差异表现为彝语成主-宾-谓(SOV)句法结构,而汉语则是主-谓-宾(SVO)句法结构;除整体结构上的差异外,彝汉句法的差异还表现为修饰词位置的不同,如彝语中形容词、数词、量词等在做定语成分修饰名词时,将其放于名词之后构成名词性短语,如(学生一个),而汉语则是置于名词之前,如“一个学生”;彝语中副词做状语修饰句子中动词时,往往离所修饰动词较远,如(他们静静地教室里坐)中,副词(静静地)离所修饰的动词(坐)较远。彝汉双语句子结构见表1:
表1 彝语、汉语句法结构
2.2 调序规则提取
由于彝汉双语语料库匮乏的特点,本文中的句法规则及调序规则均为人工撰写规则,规则主要来源于贵州省彝学专家丁椿寿先生编写的《彝语通论》一书及毕节学院彝学研究所老师的帮助和指导。彝语调序规则的提取过程如下:
首先,总结彝语句法特点,如:总结彝语句法词性、句型结构、相关句法等;
其次,利用形式化方法描述出彝语句法规则,如表2所示,为彝语句法结构部分举例,本文中句法描述满足CFG文法(上下文无关文法)要求;
表2 彝语句法规则
最后,将形式化的彝语句法与汉语句法结构进行对比,总结出其中不同点,并制定相关调序规则对彝语句法结构做调整,使其调整后能符合汉语句法树结构。
通过上述方式,本文共总结若干条彝语句法规则及16条调序规则,部分举例如表3所示。
表3 彝汉双语调序规则
2.3 彝语句子重构
针对上述彝汉双语调序句法表,本文将对彝语句子如何重构做详细描述,即如何根据句法树信息及语法规则,调整彝语句法树。本文中彝语调序规则根据其不同的词性、前后信息,以及其在句子中担当的成分不同,可以将其归纳为三大类,即分别确定宾语、定语、状语位置,在调序模型中依次根据判断做出调整。而补语、助词等在彝语使用过程中,基本与动词连用,且语序与汉语相同,不需要做过多调整。
2.3.1 移动宾语
在动词短语(句法树中VP结构短语)中确定动词前做宾语成分的短语,如名词性短语,代词、量词性短语等,将宾语成分短语移至动词之后,如图3中所示宾语成分为名词性短语,将其移至动词之后。
图3 彝语重构
2.3.2 调整定语
调整完动宾结构之后,再根据短语句法树中,调整与汉语存在差异的不同结构短语子树。在名词性短语中,修饰名词的形容词、代词、数词、量词等做定语成分的词,根据表3中规则做相应调整,即将修饰名词作定语成分的词调整到名词之前。
2.3.3 调整状语
调整完定语修饰的名词性短语,即主语、宾语成分后,接着调整修饰动词的状语。副词、代词、量词等修饰状语时,往往不直接与动词相连,若动词前有做宾语的名词或代词时,做状语的副词在宾语之前,在调序过程中需要跨过这类词做调序,例如(他们静静地教室里坐)”。调序时需要判断教室里”是名词性短语,本句中充当宾语,而“静静地”作为状语修饰动词,在第1步移动宾语的过程中,将“教室里”作为名词性结构NP移动至动词之后,此时,副词将直接修饰动词“坐”,修改语法树结构,VP→ d VP即可。
2.3.4 能愿动词
图3描述了基于短语结构树的彝语调序过程,其中:S表示源语言句子,T表示目标语言句子,Original Tree表示输入源语言S对应的短语结构树;Reordered Tree为根据调序规则调整后得到源语言调整序列S′对应的短语结构树,最后根据词对齐原则,将源语言序列翻译成目标语言序列T。将彝文翻译成中文过程中,首先将输入彝文序列转换成短语结构树形式,如图3(a)中所示为的短语结构树(直接译文为“他学生一个是”),其中,产生“学生一个是”对应的子树结构的句法规则为VP→NP VP,运用对应的调序规则将其调整为VP→VP NP形式,即实现结构树左右两边位置互换;同理,对应直接译文为“学生一个”,是量词修饰名词的名词性短语,对应句法规则为NP→n q,使用调序规则将其转换为NP→q n形式;图3(b)中为句子变换后的S′的短语结构树,利用词对齐翻译,得到目标译文T“他是一个学生”。
2.4 调序模型
本文设计了一个完整的调序模型对规则进行验证。调序模型中根据调序规则对输入的源语言序列进行一系列转换,输出为调序后目标语言的句法结构树。为了进一步验证调序结果的正确性,本文在调序模型中增加了词对齐功能,对调序后的源语言进行词对齐翻译,得到汉语译文,便于直接观察调序效果的好坏。其中调序算法主要步骤如下:
输入:彝语句子短语结构树,彝汉调序规则,词对齐模板;
输出:汉语译文短语结构树;
Step1: 先序遍历结构树,得到短语结构树对应的结构子树;
Step2: 根据得到的结构子树,循环匹配调序规则,若匹配成功,则根据对应调序规则调整该结构子树;
Step3: 将调整后的结构子树替换原短语结构树中的结构子树;
Step4: 循环2、3步,直至完成整个输入短语结构树的先序遍历;
Step5: 根据已存入的词对齐模板对调整后的短语结构树进行词对齐翻译,用翻译译文替换原有彝文短语,得到译文句法树。
3 实验及结果分析
本课题采用Java作为开发语言,开发环境为myeclipse8.5,使用MySQL数据库。实验设计主要包括三个方面:将彝语句法解析成短语结构树,利用调序规则调整源语言对应结构树,结合词对齐模板翻译源语言序列。
Step1: 存储彝文句法规则表,彝汉调序规则表,彝汉词对齐模型表;
Step2: 根据句法表中CFG文法规则,利用CKY算法解析出源语言句子的短语结构树;
Step3: 为更好的验证后续调序规则的正确性,减少不正确句法结构给后续实验带来的误差,对生成的句法结构树需要进行人工校验过程;
Step4: 将校验后的短语结构树作为调序模型的输入,利用2.2和2.3中介绍的调序算法对短语结构树进行调整,得到含有目标译文的结构树;
Step5: 对步骤4得到的短语结构树使用后续遍历算法,得到输入源语言对应的汉语译文。
3.1 语料库
由于彝汉双语平行语料库的匮乏,本文所用语料库均为人工建设,主要文章及句子来源于《西南彝志》、贵州地区彝文学习指定课本《彝文识字课本》、贵州彝学专家丁椿寿先生的《彝语通论》以及《简明彝汉字典》。本文语料库共包括4700个彝汉平行句对,句法规则综合了彝语词性、彝语句子结构,句子成分等内容,词对齐模板包括480个彝汉常用词汇。
3.2 评价方法
本文主要采用两种评价方式,一是通过BLEU值评价;二是人工验证方式,由于本文语料数量有限,人工验证方法具有可行性,本文实验中经调序模型调序后得到带译文的短语结构树,通过人工验证方法验证其准确性,设f(x)初值为0,具体方法如下:
定义f(x),若调序结果正确,则f(x)加1,若调序结果不正确,则f(x)值不变;P(x)表示调序模型正确率,即正确的调序结果比上总调序句对,P(x)越大,则效果越好。
3.3 实验结果分析
实验中采用两种评价方式对本文调序规则得到的翻译效果做评价。其中方法一是通过自动测评系统,根据所得译文给出客观评价,调序前BLEU值为0.154,调序后BLEU值为0.248。
方法二是通过人工验证的方式,对实现过程中产生的调序后的句法结构树的正确性做判断,得到调序模型的正确性概率,所得实验结果显示,4700个彝语序列作为输入,所得调序后的结构树模型中,正确的调序结果共有2986个,正确率P(x)=2986/4700=0.635。
上述实验结果中可以看出:
(1) 通过自动测评系统得到的BLEU值可以看出,调序前和调序后BLEU提升了0.094,翻译译文质量有了明显改善;
(2) 人工验证方式统计得到经过调序规则调整后的正确率为0.635,得到较好的实验结果。
综上所述,本文调序规则具有切实可用的实际意义,使汉语翻译质量有了较大的提高。
4 结论
文通过总结彝汉双语句法结构差异,提出了一套基于规则的彝语源语言端语序调整的调序模型,并通过实验方式对所提规则做了验证,利用人工验证及系统评价两种方式验证了调序规则的正确性及调序性能,得到的译文均有良好表现,其中调序规则准确性达到0.635,表明该规则适用于彝汉双语翻译过程。但是本文中调序模型对远距离调序效果仍然不佳,希望在后续工作中能引入更多句法信息,提高调序及翻译效果。
通过彝-族-人-网,你可以阅尽千里彝乡,略万种风情,宣传彝族文化,从我们自身点滴做起。参考文献
[1]熊德意,刘群,林守勋.基于句法的统计机器翻译综述[J].中文信息学报,2008,22(2):28-39.
[2]薛永增,李生,赵铁军,等.短语统计机器翻译的句法调序模型[J].通信学报,2008,29(1):7-14.
[3]Collins M,Koehn P,Ku00erová I.Clause restructuring for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics,Ann Arbor: Association for Computational Linguistics,2005:531-540.
[4]LI Chi-Ho,ZHANG Dongdong,LI Mu,et al.A probabilistic approach to syntax-based reordering for statistical machine translation [C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics,Prague,Czech Repulic:ACL,2007: 702-727.
[5]陈雷,李淼,张健,等.有限语料汉蒙统计机器翻译调序方法研究[J].中文信息学报,2013,27(5):198-204.
[6]吴勰,禄玉萍,王明贵.论贵州古彝文编码字符集构建[J].中文信息学报,2014,28(4):153-158.
[7]沙马拉毅.彝文信息处理技术三十年发展历程与展望[J].中文信息学报,2011,25(6):170-174.
[8]丁椿寿.彝语通论[M].贵阳:贵州民族出版社,1993.
[9]朱文旭.彝语句法中的语序问题[J].民族语文,2004(4):19 -21.
原载:《贵州大学学报(自然科学版)》2016年1期;文字来源:参考网。
作者:王正丽(1990-),女,在读硕士,研究方向:中文信息处理,Email:keerly@yeah.net;陈笑蓉,Email:xychengz@163.com.。