首页 > 健康 >正文

张虎:让古籍文献“活”在当下

2022-08-24 18:09:20 来源:- 作者:-

                              

(文/宁允佳)中华文明是历经数千年绵延至今、唯一未曾中断的文明体。作为中华文明的传承载体,收藏在海内外的数十万种古籍文献具有不可估量的历史文化价值。在人类几千年的历史发展中,我们的先祖利用文字撰写了大量的作品,例如:史书、笔记、方志、字书、诗词等等。这些浩如烟海的古籍记载了华夏民族的历史和辉煌,是极其珍贵的文化遗产。因此作为我国著名的计算机和信息技术的科研专家,张虎先生认为当今是一个数字化时代,为了继承和弘扬我们优秀的中华传统文化,为了更好地利用和保护这些古籍文献,一个重要的步骤就是将它们进行数字化处理。张虎先生这一番言论引起了行业内各专家的共鸣,大家纷纷表示认可。

张虎先生毕业于国家“世界一流学科建设高校”、“211工程”建设高校北京工业大学计算机及应用专业。大学毕业后,他一直致力于自然语言理解技术研发工作,尤其在历史文献分析技术和语言软件开发技术方面有着巨大的突破性成就。近几年来,张虎先生在深入的研究中发现,古籍文献中的情况多变,目前我国应用的识别和检测系统都容易受到许多的限制,例如不同古籍文献的背景和书写方式存在差异、不同古籍文献中文本检测或者文本行切割存在困难、古籍文献中存在文字分布密集的情况、良好标注的稀缺等等一系列问题。

另外古籍文献中文字识别的重要性不言而喻,除了最重要的古籍文献数字化,文字的精准识别还能辅助文献的阅读。因为随着岁月的变迁,许多文字的书写方式和表达含义发生了变化,而准确的文字识别技术能够帮助读者更好地理解古籍文献。由于古籍文献数字化对识别和检测的精度要求较高,如果软件精度不够容易丢失其准确的文字表达,因此,研发一个精度更加准确且泛能性更高的系统非常必要。于是张虎先生将古籍文献中文字精准检测的问题和人工智能、大数据等前沿技术融合一起,研发了一种全新智能的文字识别系统——基于光学字符识别的古籍文字检索系统V1.0

“基于光学字符识别的古籍文字检索系统V1.0”主要由特征空间组织和内容检索两个相继阶段构成,其中包括了图像处理、特征提取、高维特征空间索引、任意检索点标定、特征快速匹配和文本行分割等技术。首先该系统对输入的图像进行垂直投影分割得到文本行图片,然后利用图像处理对这些图片进行特征提取,特征空间组织为古籍中的内容生成其特征聚类,建立易于根据视觉相似性以便快速查找近似对象的索引结构;系统中的另一个部分内容检索则是利用该索引结构,自动地快速获得所有与检索者给定对象视觉内容近似的其他对象,最后由特征空间组织经过特征快速匹配得到识别效果。该系统的检索者可以在系统页面图象上自动完成基于视觉相似性的、任意检索点古籍文字检索,以此达到一个精准的识别效果。

据研究数据结果表明,张虎先生自主研发的“基于光学字符识别的古籍文字检索系统V1.0”不管是在古籍文献识别文字的工作上,还是在自然场景下的文本检测等研究任务中均取得令人十分惊艳的效果,能够实现快速识别并转化文字,具有用时短、准确率高、一键导出等特色,可以极大地减少成本支出,提升古文献数据化效率,文字识别准确率远远超于市场上其他的文字识别系统。目前,“基于光学字符识别的古籍文字检索系统V1.0”已服务多家企事业单位,涵盖图书馆、出版社、相关扫描仪企业等,在为客户解决复杂古籍文献检索的问题上给出核心指导意见。

谈到古籍的保护,张虎先生表示,中国的古籍蕴含着民族特有的精神价值、思维方式和想象力、创造力,是我们中华儿女的历史见证。中华五千年优秀文化遗留下来的古籍文献资料呼唤人们重新发现和人认识它们的价值,我们每一位中华儿女都肩负着保护古籍的重要使命!

责任编辑:小艳