典籍数字化处理中少数民族文献语料库设计实操分析——以古彝文献《西南彝志》为例
关键词:语料库设计;语料库实现;典籍数字化;《西南彝志》
引言
随着数字技术的不断进步,记录文字的载体日新月异,“数字人文”(digital humanities)渐成学术热点,越来越多的先进数字技术被应用到人文社科领域。北京大学博雅讲席教授邓小南认为,“‘数字人文’是数字化、智能化环境下多学科汇聚的学术增长点,为人文学科的发展提供了新方法,注入了新活力,也在某种程度上突破了传统史学的格局,使一些有赖于大量数据处理的研究成为可能。”[1]11胡士颍亦强调:“数字人文无论是从拓展人文社会科学研究的工具与方法意义上,还是从具有面向过去、未来的学科综合意义上,都将对知识、思想乃至精神信仰产生革命性的影响。”[1]12在民族古籍搜集整理领域,数字技术的革新亦带来颠覆性的影响。
20世纪80年代以来,国内外古籍数字化工作有序展开。2017年,我国初步建成了中华古籍资源库。近几年,流传海外的汉文古籍文献的数字化整理工作亦如火如荼地展开。譬如,由美国哈佛大学燕京图书馆与中国国家图书馆合作完成的“哈佛大学哈佛燕京图书馆藏中文善本特藏资源库”,对哈佛大学哈佛燕京图书馆馆藏所有中文善本和齐如山专藏进行数字化,完成中文善本古籍4210种51889卷的数字化拍照工作,并免费向全球开放,可谓成绩斐然[2]。然而,相对而言,我国少数民族文献的收集整理工作却不尽人意,究其原因,或与相关技术设计与操作经验的缺乏不无关系。
我国少数民族大多都有自己的语言,但是很少有自己的文字,即便有自己文字,其受众范围也十分有限。因此,历代历史文献的传承通常在本民族内部的少数特定人员中进行。以彝族为例,历史上仅有毕摩世家掌握文字,而且毕摩记载的文字,其语音词汇语法各方面与今天该民族日常生活中的口语已经完全不同。概而言之,现存的古老文献,正是民族历史的真实见证,是今人探索历史的宝贵密码。
目前对于没有文字文献记载的少数民族来说,记录收集整理资料势在必行,数字化进程更多的重心应放在当代录音录像等影视影音资料上;而对于有自己文字文献的少数民族而言,除了抢救性录制影视影音资料外,更多工作重心应放在文献的数字化处理上。文献的数字化,目前的工作大都只是对文献的纸质文本进行简单的电脑录入工作,即打字输入。
但这种看似简单的电脑打字工作常常文不对版,错漏百出,不仅错别字现象严重,增字、减字、颠倒等现象更是居高不下。其中,人为粗心造成的错误可以很容易得到修正,但技术层面造成的瓶颈却不好突破。尤其在中文语料库建设都相对滞后的当下,面对不同的数据库设计标准、目的等,计算机技术相对薄弱的文献语言知识领域的专家与缺乏文献语言专业知识的计算机技术领域专家两者之间尚且不能进行完美的沟通合作,难已突破技术层面以及知识层面的重重难题,更遑论少数民族语料库的建设。它不仅对于文献语言知识领域专家有着更多的要求,对于计算机专业技术领域专家更是充满挑战。
客观而言,当下少数民族文献文本录入尚处于起步阶段,数据库的建设更是十分匮乏,不少从事相关领域工作的编辑、学者感到困难重重,不知如何下手,更是不知如何自行设计乃至调试语料库,工作上还享受不到信息化时代的福利。
针对上述情况,本文基于语料库的构思设计、程序开发等多层面考虑,以经典古彝文《西南彝志》作为操作对象,实行实操讲解,以期为学术研究、出版编辑等各行各业提供相关便利、参考和帮助。
一、语料库的构思、设计
语料库,简言之,就是一种研究资源云集的数据库,它具有巨大的价值和独特的意义,具体从以下两大方面得到体现:一是数据库的规模大小,以及容量数据的规模大小,也就是库所储藏的资源多少;二是某种额外附加值。这种额外附加值,可以说是原有价值意义基础上的增值,它是在数字化加工过程中,在对语料库进行多方面信息加工标注过程中不自觉地产生。这种加工标注丰富了相关信息含量,客观上赋予了某种更能体现价值和意义的值。
数据库建模的目的有两个:一个是可以为相关行业提供相应纸质文献的电子版;第二个更为重要,它可以充分地展现出电脑技术的绝对优势,百分之百穷尽式、绝无纰漏地显示所需提取的所有例证。
总之,语料库的设计与建模,不仅要受一定语言学理论的指导,而且要满足研究需求下所定的相关计算机运行法则的要求,两者同时满足,才能在计算机指令下对电子文本准确快速的规范处理。
因此,出于如上理论指导的思量,我们初步构思设计了一般数据库(文中会以《西南彝志》作为示范)的具体操作步骤,如图1所示:
图1 数据库操作的基础环节
图1中,生语料库是一切数据库操作的基础环节。它包括录入、校勘和划分三大板块。录入,即对纸质文本做最基本的数字化处理,使其变成最为原始的word文档。而校勘则是录入板块之后的板块。这一板块决定文本质量好坏,它不但包括纸质文本善本的校勘选择,而且包括录入过程中针对纸本的互相对校。最后的划分包含语料的大致分章节等具体出处问题,它很大程度上影响着熟语料库转换的使用价值的实现。
值得一提的是,在全部的操作步骤中,最关键的部分是熟语料库。如果说生语料库在很大层面上决定了数据库的规模大小,那么熟语料库则更大程度上决定着额外附加意义与价值能否实现。语料加工,即基于研究者某种研究目的考虑下,对语料进行某种程度和角度的甄选补充。语料管理和语料检索,即对语料的某种管理以及某类搜索查找,是某种数据汇总后的语料输出。这一步骤更多的与用户的操作应用体验有关。
上述是对待文本数字化语料库设计的普遍化指导,也是每一部纸质文本数字化过程中的必经之路。下文将这一过程具象化,以《西南彝志》这一少数民族语言文献为例来予以具体操作。
《西南彝志》,原名《哎哺啥额》,直译为“影形气态”,是一部“彝族古代社会的百科全书”,以古彝文书写记录,既是彝族最古最全的一部百科全书,也是至今保留的著名老彝文文献。
全书以诗行体的形式进行展现,全文以五言为一行,也就是五个字为一行的五言叙事诗这种形式呈现。全书直到20世纪50年代才在贵州省毕节地区被发现,距今不超过70年,它比较全面地记载了西南地区彝族的历史、生活方方面面。据目前已经出版的内容资料来看,全书一共有三十七万多字,分为四百多篇有独立小标题的文章,文章长短不一,记载的内容有历史、哲学、文学、社会。全书从希慕遮到水西安氏,共计一百一十六代父子的连名谱,作为主线,阐述了古代彝族迁徙、发展、分支、联姻、祭祖等生活历史经济社会百态,并叙述了云南东北部,贵州西北部、西南部、中部,四川凉山等地彝族“乌蛮”“白蛮”各部的“什数君长”父子连名谱及活动史实。
综上,《西南彝志》有两大显著特点:其一,内容繁多,数字化之后所带来的便利显而易见;其二,原纸质文本全部是纯古彝文字体,而古彝文目前在市面上是没有相应成熟的字体库的。这一情形下,工作的当务之急是必须解决古彝文的录入问题。
针对这一问题,我们采取了如下步骤来尽可能保存书本上的字体原貌。
首先,对书本纸张进行扫描,后把扫描件保存为jpg,导入我们的Photoshop CS6中,如图所示:
图2 《西南彝志》部分扫描字体样例
接下来要把文字和背景明显地区分出来,因此我们对图片的文字颜色进行加深,背景进行减淡,选择“图像—调整—去色”。然后,调整颜色,选择“图像—调整—色阶”,在弹出的编辑框里面,把亮部调更亮,暗部调更暗。其次,选择“橡皮擦”对图片里面多余的部分进行清除。
而后,使用键盘快捷键进行操作,先同时按下键盘的Ctrl+A,对图片进行全选,再同时按下键盘的Ctrl+C进行复制。最后,来到通道面板,我们先新建一个通道,再点击新建通道,然后同时按下键盘的Ctrl+V,进行粘贴,将刚才的图片已经导入到新的通道中。
接下来在下拉菜单中依次选择“图像—调整—反相”,将文字和图片的颜色对调。 这时,再回到图层编辑面板,去新建一个图层,把背景略去填充为黑色,然后在下拉菜单中依次选择“选择—载入选区”。紧接着,在自动弹出的编辑框里,将通道设置为刚才新建的通道。
再将截图中所选的文字进行颜色的填充,把自己需要的颜色填充到选区里面,即制作完成,如图3所示。
图3 样例中所提取的单个彝文
此外,《西南彝志》,从严格意义上来说,与字典、词典类不同,属于文学类作品,它是按章节排列的,并且没有诸如注音、义项等十分显性且有规律的标识记号。
因此,《西南彝志》数据库的加工难度在某种程度上比较大,因为它没有明显的加工标识,所以我们需要对文本进行分章、断句、切词(又叫分词)、标注等方面操作,才能满足从语言学角度对于词性、语法等的研究需求。
但是目前典籍语料库的建模理论相当薄弱,如分词的标准、语法标注的类别等均有待进一步研究。而且,典籍语料库在建模技术上较为落后,如自动分词、标注等技术的不足,大大增加了人工操作量,而人工相对于计算机工作而言,主观随意性增加,于是会使得分词的标准不统一,语法标注类别前后不一致,以致于影响统计结果的准确度。
从目前现有的语料库建模理论、技术等来看,我们一般会采取一系列操作步骤进行数据库建模(见图4)。
图4 数据库建模展示
在经过录入、校勘等环节之后,我们获取了《西南彝志》Word电子文档生语料库,接着,对它进行自动分章处理,辅助以人工分章。
二、语料库的实现、运行
在《西南彝志》电子文本的基础之上,我们依照从大到小的层级单位,开始进行第一层级单位的分章处理。于是,我们获得了带有章节标注记号的二十六卷电子文本,如图5所示。
图5 二十六卷电子文本
因为不论是原来的古彝语原文,还是中彝对照翻译的汉语译文,两种语言在文字上都没有词形变化,也没有形式上的标记,所以使得接下来的分词操作会相对复杂。在分词操作步骤中,学界一直讨论的焦点无外乎分词必须遵循的基本原则、分词必须体现的规范性以及分词过程中必须保持的一致性等诸多元素。目前学界众多学者提出了不少这方面的原则,比较考虑之后,研究采用的是孙茂松先生提出的原则,即需要“在保持语义同一性的前提下,结构体在语料库的分合是否始终一致,如‘猪肉’是否始终保持为一个整体,或者始终分开。”[3]
确定了分词原则之后,我们开始进行粗加工,也就是先机器分词,运用自动分词软件进行操作。这里需要特别说明的是,现在没有专门面向文献的分词模型,就更谈不上面向古彝文文献的分词模型。而目前面向中文文献方面进行的分词操作,学界常用《基于条件随机场的自动分词技术的研究》中的CRF分词模型,这一分词模型由陈晴设计开发,对中文古代文献的操作性相当强。由于她在模型版块中添加了古汉语音韵等众多方面信息,使得分词的正确率相对较高。具体而言,CRF分词模型对先秦文献的操作性准确性最高,而且即使面向操作性相对较弱的中古、近古等文献,它的准确率也常常保持在80%~90%之间,尤其在工作效率上,人工手动分词与它完全不可以相提并论。
人工手动分词,即运用人工的方式直接手动进行分词操作,不仅需要逐字逐句一条条手工录入,而且还需要参考上下文,对句子结构进行分析。对句子结构进一步分解,分解到词这一层级语法单位。这一过程耗时繁多,需要耗费大量的人力物力财力。
自动分词与人工分词各有优劣,重点体现在工作效果与工作效率两个方面:工作效果上,自动分词因为技术等方面制约,准确率达不到100%,人工分词目前准确率相对较高;工作效率上,自动分词因为充分吸收了计算机技术等高科技成果,在这方面是以压倒性优势远远超出人工分词。
因此,现在学界常用的处理方式,就是先进行自动分词,然后再辅以人工分词。
现在市场上尚未开发出古彝文字体库,相应自动分词、标注等一系列工序更是阙如,这也是目前少数民族文献数字化进程中的短板所在,在此期间,我们可以暂时利用汉语典籍数字化过程中取得的成果,通过对少数民族文献的相应汉语译文进行处理,再反过来作用于少数民族文献,从而达到曲线操作的目的。于是,对《西南彝志》对照汉语译文电子文本进行了初步处理。
初步处理的结果,也就是获得了文中我们提到的二十六卷电子文本。随之,我们就可以在电子文本上开始进行标注工作。文献语料加工,常见的就是标注工作。它是由一级一级的从大到小的层级单位予以标注,常用的划分是篇章、语句和语词这三级单位。我们遵循由大到小的原则,也可以说由整体到局部的原则,面对《西南彝志》已有的二十六卷电子文本,一级级地进行标注。最后,可以获得篇章、语句以及语词三级语法单位的标注。
需要特别指出的是,首先,语料库标注,不论是人工标注还是机器标注,工作过程繁琐且繁重,尤其人工标注,非常耗时耗力,需要标注者尤为谨慎小心。
其次,标注的语料资源具有重复利用性,而且也应当遵循可多次反复利用的原则。因为不同的使用者有不同的目的,需要达到不同的结果,反复使用的语料资源在标注方面特别需要注意每一级单位,即必须保证篇章、语句和语词每一级单位标注的相对独立性。换句话说,任何单独一级单位信息的更改不会影响其他级别单位。
此外,根据不同的研究要求与使用目的,语言各层级单位的标注常见的还可以大致划分为句法层级、词汇层级、语义层级、语音层级、语用层级等。基于《西南彝志》语体等各方面因素的观察,再结合考虑一般研究者、使用者的研究目的等因素,我们目前将《西南彝志》数据库中的标注,由整体到局部,从大到小,分为篇章标注、句子标注、词汇标注、语义标注这四级标注。
篇章标注,重点需要标注书籍篇章的出处、所处全文的位置、所在页码之类信息。句子标注,也就是篇章标注下的下一级标注,它需要对文中句子标注某些由标注者个人设定的信息。常见的句子标注包含所标注词汇在所在篇章中的句子排列顺序等信息,这种信息不可或缺,是链接词汇与句子的桥梁,为查询者检索词汇时查询上下文信息提供极大的便利。词汇标注,也就是句子标注下的下一级标注,常常包含句法标注和词性标注。句法标注,也就是说,即区分判断某词在其所在的全句中所充当的句法成分,常见的句法成分有主语、谓语、宾语、定语、状语和补语,此外还有独立语、兼语、句首语以及句中无义语等;词性标注,也就是说,即区分判断某词在其所在的全句中的具体词性,常见的词性有:名词、动词、形容词、副词、代词、数词、量词、介词、连词、语气词、叹词等。语义标注,也就是说,即对某词的随文释义,也就是词语在句子中的诠释予以标注,它从某种意义上来说,在语料库中具有举足轻重的意义和作用。
在标注的过程中,我们可以充分利用现有的一系列相关成果来加快标注的效率。如现在已经开发了不少中文通用义项库,目前常见的而且已开发成熟的中文义项库有《汉语大字典》《汉语大词典》等多种资料释义义项库,在语义标注的过程中,利用这些成果,可以进一步加快语义标注的速度,提高语义标注的效率。
需要特别介绍的是意义栏目。这一栏目包含勘校、勘误或者互文等方面的信息内容。这是因为在流传、抄写、印刷、出版过程中,尤其在口头流传、抄写的过程中,每种典籍基本上都会出现各种文字信息失误的现象,如传抄错误、传抄互异等,而这些信息对于研究者和使用者来说,都是十分重要的,所以我们通常都会在语义标注中添加意义栏目,重在传达这些信息。
我们运用Access进行标注后再导入Excel表格中,因为古彝文没有相应字体库,我们目前采用的是图片文字,所以这一方面涉及到大量手工插入工作,后期在建好了古彝文字体库之后,该工作可以大大减轻强度和难度,而且也更有利于今后的研究工作。现在在已有的前期工作之下,暂获得语料库如图6所示。
图6 语料库图例
再次,我们辅助以人工标注,通过纸质文本、相关资料等进行校勘,进一步完善数据库信息,如通过人工干预,将词汇划分得更为科学合理;备用栏中我们补充了该句子所需要的相关信息,即五言全句的完整而符合语法的汉语翻译译文等。最后,经过精加工及深加工的熟语料库得以实现,详见图7。
图7 熟语料库图例
基于这一熟语料库,我们已经可以穷尽式查找《西南彝志》文本中的某一信息的所有出处,大大提高了研究效率及准确度。同时,我们还能继续开发与之关联的单独页面检索管理系统,围绕某目的设计某些查询方式,如音标查询、词性查询等,从而使最终的所有输出查询结果依顺序排列单独页面全部展示,更为便捷有利。
现在国内典籍数据库建设仍处于初期阶段,尤其少数民族文献数据库建设还处在前期探索阶段。其中的困难重重,文献数据库建设必不可免地会面对许多问题。但是,伴随着交叉学科的逐步深入发展、计算机技术与语言学理论的不断融合、分词标准的逐渐规范、自动分词系统的持续开发等,所有问题都将依次得到解决。数据库的建设将越来越完善,数字化进程也将越来越有利于各项文字工作的展开。
当然,以《西南彝志》为例的少数民族文献数据库尚且存在诸多不尽人意之处,很多方面笔者都是在大胆的尝试,错漏之处在所难免。而更多彝文文献数字化,甚至少数民族文献数字化工作,还有待同仁继续努力。
这里是彝族文化网络博物馆,海量的数据,鲜明的彝族文化特色,是向世界展示彝族文化的窗口,感谢您访问彝族 人 网站。原载:《贵州师范学院学报》2022年4期;文字来源:参考网。
作者单位:黄琼,贵州师范学院文学与传媒学院;李生柱,贵州师范学院中国乡土社会研究中心。