古彝文识别:文化遗产的数字化之旅

举报
馆主阿牛 发表于 2023/09/28 19:38:12 2023/09/28
【摘要】 在文化遗产保护领域,人工智能正在发挥着越来越重要的作用。古彝文,作为中国西南地区古老而独特的文字,承载着深厚的历史文化底蕴。然而,由于古彝文的书写复杂,传统识别方法往往费时费力,因此古彝文的保护和传承面临着重大的挑战。随着科技的不断发展,人工智能技术的运用为古彝文保护和传承带来了新的可能性。其中,合合信息公司以其卓越的人工智能技术,为古彝文识别带来了创新。

@[TOC](目录)

# 🍅前言

在文化遗产保护领域,人工智能正在发挥着越来越重要的作用。古彝文,作为中国西南地区古老而独特的文字,承载着深厚的历史文化底蕴。然而,由于古彝文的书写复杂,传统识别方法往往费时费力,因此古彝文的保护和传承面临着重大的挑战。随着科技的不断发展,人工智能技术的运用为古彝文保护和传承带来了新的可能性。其中,合合信息公司以其卓越的人工智能技术,为古彝文识别带来了创新。

## 🍓古彝文介绍

彝文指的是云南、贵州、四川等地的彝族人使用的文字,其造字、使用方法在不同的区域之间表现出明显的差异。区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,至于彝文起源于何时,尚未有官方的定论。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。因此,对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。

7ad81beadedd41e1bb7ed4e45e78a8c2.png


如上图所示,我们可以感受到彝文是一种具有丰富文化内涵和独特表现形式的文字,是中国少数民族文化宝库中的重要组成部分。

## 🍓古彝文识别的重难点

### 🍒原籍难以获取,传统翻译过程繁琐,周期长。

首先,古彝文原籍难以获得,由于彝族文化的封闭性和保守性,古彝文文献和文物不易获取,且常因自然灾害和难以保存而遭破坏,因此获取原始资料并深入了解其含义和文化背景异常困难。其次,古彝文翻译过程繁琐,需具备深厚的语言学、历史学和文化学知识,同时需对彝族文化和历史有深入了解才能准确翻译。最后,古彝文翻译可能需要十年起步,翻译者需投入大量时间和精力来完成翻译工作。
### 🍒版式多样,笔画相近。

汉文和彝文古籍的排版风格各异,字符间距和行距有密有疏。彝文古籍虽无大小字混排、双列夹字的校注传统,但也会出现加字、替字、整句倒置和文字方向不一致等现象,给文字定位带来挑战。此外,彝文字从未统一,存在大量异体字和变体字,各地方布摩为防止敌方破译经书会故意增加或减少笔画。

fb320cfcb600434ca860cb412930a44f.png

这四个字都表示“种类”的意思。由此可见,这样的异体字或者变体字给文字定位造成了很大的挑战。在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供了技术支持。

### 🍒图像质量差,手写识别难。

彝文缮写员手写风格差异大,需大量数据库建识别模型,但目前无公开数据集且通晓者少,导致标注工作量大、数据量不足,需引入AI技术构建模型弥补训练样本不足。而且,汉文和彝文古籍经历多代传承、战火与自然风蚀,存在页面残缺、霉斑污渍等图像质量问题,尤其彝文古籍保存环境更艰苦,文本墨色深浅不一、字符间距和行距大小不一。

8d33e1bbaa10487488f7fe288bce4c2b.png

如上图,古籍的修复就要费很大力气,人工识别本就难上加难,更何况用AI技术去识别它,这是一项很大的挑战,万幸,合合信息行业领先的智能文字识别技术、上海大学古彝文研究员的丰富经验将有助于应对这些挑战!


### 🍒古彜文无统一的计算机编码

古彜文无统一的计算机编码,需要重新整理并增加相关标注数据。此外,古籍和字符部分存在背景干扰,需要通过技术手段逐一解决。为了使AI能够学习,字符的研究需要一个相对固定的编码,因此上海大学、合合信息和华南理工大学合作重新编制了一个编码系统。

## 🍓合合信息的文字识别技术

合合信息在古文字识别领域已有了一定的积累和成果。早在2021年、2022年的世界人工智能大会上,合合信息就展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。因此,现在看来,在已有经验的前提下,合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件“水到渠成”的事情。

de12012b4eaf481db1e9491695ed4968.jpeg

智能文字识别技术是合合信息公司的核心技术之一,主要包括智能图像处理、基于深度学习的复杂场景文字识别和自然语言处理(NLP)三个核心模块。这些模块采用了一系列先进的算法和深度学习模型,以实现对文字的高效和准确识别。

智能图像处理采用了先进的数字图像处理技术,包括色彩平衡、对比度增强、滤波等算法,以实现对文档图像的高效处理。此外,该模块还采用了高级的图像分割和文字定位算法,以从图像中准确地提取出文字信息。这些技术对于文字的识别和提取至关重要,因为它们可以提高识别准确性并减少误差。

目前,合合信息旗下扫描全能王与上海大学、华南理工大学共同研发识别古彜文基础编码已经完成,此基础编码将帮助后续古彜文的检测、识别、标注,帮助学者解读更多彜文古籍,而扫描全能王的高清滤镜技术还可以高清拍摄古籍画面,感兴趣的同学可以下载体验一下。

下图则是博主下载扫描全能王app后识别的彜文古籍,确实很清晰。

92647eb6924943989cad05c78442deb8.jpeg

b49d1172b327454188306a62b63c6db9.jpeg

## 🍓古彝文识别的意义

古彝文作为珍贵的文化遗产,其保护和传承具有深远的历史和文化意义。合合信息利用人工智能技术,成功研发出高精度的古彝文识别模型,为古彝文保护和传承带来了新的突破。通过数字化保存和传播古彝文,我们能够让更多人了解这一独特的文化瑰宝,并为学术研究提供便利。同时,这也为其他文化遗产的保护提供了可供借鉴的经验。让我们共同期待科技与文化的进一步融合,为文化遗产保护带来更多的创新和突破。

# 🍅总结
总之,合合信息公司在古彝文识别领域的突破性研究,为古彝文文化遗产保护带来希望,实现了文化遗产的数字化之旅。通过深度学习和人工智能技术,我们能够更好地保护和传承这些珍贵的文化遗产。让我们共同期待科技与文化的进一步融合,为文化遗产保护带来更多的创新和突破。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。