以技术创新赋能自然语言理解与处理
(文/黎乐)回顾整个人类历史,以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机应用而言,85%左右都是用于语言文字的信息处理。自然语言处理,就是用计算机对自然语言的形、音、义等信息进行处理,对字、词、句、篇章进行输入、输出、识别、分析、理解、生成等的操作和加工。
自然语言理解与处理已经在我们的日常生活和工作中随处可见并发挥着重要的作用。小到我们常用的翻译软件、搜索引擎、聊天机器人,都是通过NLP技术让机器去了解我们的诉求,再通过运算处理,反馈给我们想要的答案;大到在金融、司法、政务、工业、传媒等行业领域,也在使用这项技术去处理纷繁复杂的文档文件,从海量文字中更便捷、快速地获得精准信息。
我国著名计算机和信息研究科学家、自然语言理解专家张虎先生认为,自然语言理解与处理技术就像是一位小学生通过学习基础知识和训练学习方法,达到了大学生的水平,掌握了这些理论与操作技能后,投身到各行各业去工作。通过一定时间的工作实践与加强学习,他成长为某一垂直领域的“小专家”,过硬的技术加之行业经验的积累,便使他在所属行业中游刃有余。用技术的思维来简单概括,就是用算法搭建起一个“大学生”模型,通过垂直领域小样本数据的不断训练,便掌握相关的知识和能力,成为高效、优质的生产工具。
张虎先生作为国际上顶尖自然语言处理专家,毕业于北京工业大学计算机科学与工程专业,拥有深厚的教育背景和专业的理论体系,是计算机领域高端的技术型研发人才。作为北京书同文数字化技术有限公司CTO,张虎先生一直致力于自然语言理解技术的研究,在自然语言处理技术与文字处理方面有极高的建树,在业内知名度极高。尤其是在古籍和文献研究方面,张虎先生利用大数据技术、人工智能和光学字符识别等先进技术研发了多项原创性技术成果,“基于大数据的古籍文字数字化录入系统V1.0”、“基于云端的多功能信息化古籍管理系统V1.0”、“基于人工智能的古籍文字OCR识别系统V1.0”和“基于光学字符识别的古籍文字检索系统V1.0”等,填补了自然语言理解行业研发的多项空白,为行业发展作出了不可磨灭的贡献。
古籍整理的传统方法,是通过对古籍进行审校释该系(审定、校勘、注释)等加工整理后形成新版本,便于现代人进行阅读。古籍整理的传统方法主要依赖手工进行,有着操作过程繁杂、效率低的缺点,而且新版本仍然是书本形式,难以再次利用。现代古籍整理利用计算机技术进行,但还是存在现今技术难以提高对于古籍识别、生僻字录入麻烦、难以找到同时精通计算机技术以及传统文化的人才等问题,现代技术依旧存在一定的局限性。“基于大数据的古籍文字数字化录入系统V1.0”作为张虎先生研发的尖端技术成果之一,在推出之后便引起了巨大反响,为古籍研究行业乃至整个自然语言理解与处理行业都带来福音。
“基于大数据的古籍文字数字化录入系统V1.0”以大数据技术作为系统核心,录入时对古籍进行全文扫描,并将其碎片化,动态实时地与数据库中的信息自动比对分析,将古籍数字化录入、加工、检索和浏览于一体,采用了先进的版面分析、汉字识别、元数据著录的相关技术,融合完善的流程化管理,对古籍文档的分类、整理、扫描、图像拼接、中缝处理等进行有序操作。通过信息录入、简繁对照,对系统中的资料提供按提名、版本、作者、关键词、分类项等检索工具,并支持录入项目自定义设置,对录入结果支持版面信息还原功能,能对关键词加红显示。并且值得一提的是,该系统创新性地融合了嵌入式元数据著录技术,为用户带来全新的古籍数字化加工、管理理念,提高了图像化信息与自然语言理解的安全性和效率。
该系统的出现突破了以往古籍录入技术的瓶颈,不只是对于古籍研究领域而言,对于自然语言理解与处理领域而言也是新一轮的技术革新。国内外许多研究自然语言理解与处理技术的公司都争相引进该系统,并且使用过后都认为该系统具有极强的普适性,不止可以用于各种文献录入,还能应用于企业信息与计算机技术文档的录入与处理,是当今国际上最先进的自然语言理解与处理行业的技术结晶之一。
在计算机及相关技术飞速发展的今天,没有一项技术可以停滞不前。自然语言理解专家张虎先生表示,他将继续专注于技术研发,继续在自然语言领域开拓,为行业发展再多出一份力,这也是他一直追求的目标。我们也相信,张虎先生必定能为我们贡献出更多更先进的技术成果。