籍智-AI赋能的民族古籍识别系统
北京市创新创业人才培养指导中心
Jizhi - AI-empowered national ancient book recognition system
民族古籍作为文化遗产的重要组成部分,承载着丰富的历史和文化信息。因此,对许多面临着损毁和遗失风险的民族古籍进行数字化以保存和传播其文化价值显得尤为重要。在数字化过程中,命名实体识别(NER)技术被用于自动提取文本中的人名、地名、组织名、术语等实体信息。然而,由于民族古籍涉及多种语言和文本格式,复杂性和多样性为NER的准确性带来了巨大挑战。常见的NER模型在面对这些独特的文本特性时,表现出识别率低、错误率高的问题。因此,本项目的主要研究目的是如何提高民族古籍数字化过程中的命名实体识别准确性。具体目标包括:
开发高效的NER模型:针对民族古籍的语言和结构特点,设计并优化命名实体识别模型。
构建多语言语料库:收集和标注多种民族语言的古籍文本,建立高质量的NER语料库。
此项目的实现,一方面,通过提高古籍数字化的准确性,促进民族文化的保存和传播,保护和传承民族文化,使更多人能够方便地获取和研究这些文化瑰宝;另一方面,本项目将利用人工智能赋能古籍命名实体识别,开发出高效的命名实体识别模型,为命名实体识别技术在处理复杂文本方面提供新的思路与方案,助力自然语言处理领域的技术进步;最后,项目成果将开放民族古籍NER语料库和相关工具,为后续研究提供宝贵资源,促进学术交流与合作。