站内搜索

彝学研究 Yi Study

当前位置: 首页 > 彝学研究 > 彝学动态与资讯

合合信息与上大社会学院联合用AI技术挑战古彝文识别难关

作者:顾武 发布时间:2023-02-02 原出处:​上海静安 点赞+(
这里是彝族文化网络博物馆,海量的数据,鲜明的彝族文化特色,是向世界展示彝族文化的窗口,感谢您访问彝族 人 网站。

2022年12月21日,静安知名科技企业合合信息公司与上海大学社会学院签署校企合作协议,双方将合力完成以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校对项目(简称“古彝文数字化项目”)。
p9h彝族人网(彝人网)- 彝族文化网络博物馆

image.pngp9h彝族人网(彝人网)- 彝族文化网络博物馆

亟待识别的古彝文比《康熙字典》字数还多

彝文是云南、贵州、四川等地的彝族人使用的文字,而“古彝文”专指在民间流通使用的原生态彝文,传承至今已有数千年历史,是世界上最古老的文字之一。根据《滇川黔桂彝文字集》,目前记录在册的古彝文多达87046个。非母语研究者在翻译古彝文时,通常需要在母语者的帮助下记音,再用汉语逐字直译,最后采用汉语对整句话进行意译。p9h彝族人网(彝人网)- 彝族文化网络博物馆

由于古彝文尚未取得预留的Unicode编码区段,数字化工程还处于起步阶段,所以在印刷出版时,需由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成目前常见的“四行体”彝汉文对译,过程相对烦琐。p9h彝族人网(彝人网)- 彝族文化网络博物馆

而古彝文与汉字也并非一一对应关系,存在大量的异体字、变体字。p9h彝族人网(彝人网)- 彝族文化网络博物馆

在相对规范的汉译本彝文典籍中就有至少15%的变体字,原稿中只会更多;每个字的异体写法少则2—3个,多则几十种。从总量上看,未经整理规范的古彝文字符数高达八万七千多个,比《康熙字典》的四万七千余字还多。据古彝文数字化团队研究人员透露,若想要找到某个字在一本古籍里的全部样例,手动查阅需要耗费一整天,如建立起完善的古彝文数据库和翻译系统,可极大提升研究效率。p9h彝族人网(彝人网)- 彝族文化网络博物馆

image.pngp9h彝族人网(彝人网)- 彝族文化网络博物馆

“汉文古籍识别所面对的页面残损、字形复杂、字迹模糊等问题,在彝文古籍识别中全部存在,还有一些任务是更加特殊的。”合合信息智能技术平台事业部副总经理郭丰俊告诉记者,彝文古籍时常出现加字、替字、整句倒置、文字方向不统一等现象;再加上古彝文从未经过统一,异体字、变体字众多,给文字定位造成挑战。p9h彝族人网(彝人网)- 彝族文化网络博物馆

合合信息将基于“AI+OCR”融合下的智能文字识别技术,解决古彝文识别的版式检测、图像处理和文字识别的难题。p9h彝族人网(彝人网)- 彝族文化网络博物馆

据悉,在2021年、2022年世界人工智能大会上,合合信息已经用AI技术对甲骨文、西周钟鼎文进行了精准识别。郭丰俊表示,甲骨文和古彝文追溯源头都属于以刻画符号表意的文字,两种文字的识别方式有相通之处,此次古彝文数字化项目的开启,也成为合合信息智能文字识别技术赋能文字保护及文化传承的重要里程碑。p9h彝族人网(彝人网)- 彝族文化网络博物馆

科技开启古彝文“传统的新生命周期”

据悉,1950年,著名社会学家费孝通先生访问贵州毕节时,率先认识到彝文古籍对理解西南边疆历史的重要性,并鼓励筹建翻译机构,也为当下的古彝文研究提供了支持。古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑所在的上海大学社会学院,便长期设有费孝通田野调查项目资助计划。p9h彝族人网(彝人网)- 彝族文化网络博物馆

古彝文数字化的价值并不止步于学术研究。随着我国小康社会的全面建成,人们对精神文化关注度日益提升,以民俗为主题的现代文艺创作、娱乐活动让传统文化焕发新的生机。p9h彝族人网(彝人网)- 彝族文化网络博物馆

据邵文苑介绍,古彝文文献和口传史诗中记录了很多南诏古国、夜郎古国、巴蜀古国的奇闻异事,在理解典籍的基础上,可以通过电影、音乐剧、浸入式戏剧等形式进行创作,或打造“元宇宙”世界、IP主题乐园,让更多人跨越语种的隔阂,感受更多元的民族文化,倾听独具特色的中国故事。p9h彝族人网(彝人网)- 彝族文化网络博物馆

“传统也和人一样有生老病死的过程,并和人一样有通过后代延续‘生命’的能力,这种理论被称为‘传统的生命周期’。”邵文苑表示,合合信息公司智能文字识别技术“牵手”传统典籍研究,将成为古彝文“传统的新生命周期”的开始。p9h彝族人网(彝人网)- 彝族文化网络博物馆

image.pngp9h彝族人网(彝人网)- 彝族文化网络博物馆

据悉,本次合合信息公司与上海大学共同研究的《西南彝志》共计26卷,有“彝族历史文化的百科全书”之誉,对研究彝族历史、经济、文化十分重要。p9h彝族人网(彝人网)- 彝族文化网络博物馆

双方携手推进的古彝文数字化项目,侧重于对原生态彝文识别的攻坚克难。项目将根据上海大学古彝文研究员设计的四字节编码系统,引入合合信息智能文字识别技术,对异体字、变体字、误用字和混用字等进行标注、识别、比对,并由此建立起精确的彝文古籍电子数据库,在古彝文研究领域属于首创。p9h彝族人网(彝人网)- 彝族文化网络博物馆

(记者:顾武;编辑:路景斓)
这里是彝族文化网络博物馆,海量的数据,鲜明的彝族文化特色,是向世界展示彝族文化的窗口,感谢您访问彝族 人 网站。
【声明】本文转自公开互联网平台,并经彝族人网排版发布,旨在公益宣传彝族文化和彝区发展。文章仅代表作者观点,不代表本网完全赞同或者证明其信息真实性。文章版权归属作者和原媒体,如著作权人不愿意在本网发表或文章有问题,请联系我们进行删除或修改。特此向作者和原媒体致以敬意和感谢!  (了解更多…)