国内外在语音识别方面优势和差距有多大?
人类认识世界是通过把外界各种独立的刺激联系起来构成一个整体,以获得全面的信息和含义。语言是具有层次性的,在多重层面上按照词法、句法、语义和语用原则,进行字组词、词组短语和句子。人脑可以有效地处理并理解语言(语音),计算机语言(语音)信息处理没有人类那样有效。根据人脑理解语言过程的认知机理,人类理解语言(语音)需要知识(包括世界知识、历史知识、常识性知识、各学科门类的专业知识等)。
在过去的几十年里计算机自然语言处理几乎都是用句法和语义信息进行自然语言理解的,而语用知识是人类理解自然语言不可或缺的重要组成部分,缺少这部分语用信息使语言的理解能力大大受限,很多歧义的词句和篇章只有在充分利用这些语用知识时才能有效地得到解决。要准确理解自然语言,需要把句法分析和语义理解与具体语境的语用信息相结合。
语用信息研究的瓶颈是如何用计算机将人类的各种知识进行有效的特征提取和形式化的知识表达,过去这一挑战性工作一直困扰着我们,导致计算机无法像人脑一样灵活运用语用背景知识来解决自然语言中的各种歧义。
随着互联网及云技术的飞速发展,给人类知识的形式化表征带来了新的曙光。当前谷歌、百度、中科院软件所和清华大学等单位正在建立与人类知识相对应的大规模知识图谱,包括语言知识图谱,事实性知识图谱(Freebase已建立4000多万个实体,上万个属性关系,24亿多个事实三元组,百度百科的词条数已1000万个),其目的就是建模人脑中的世界知识,让计算机能够简洁快速地获取新的信息和知识,包括机读的语用特征信息,运用语用背景知识来解决语言理解中的各种歧义,由机器自动理解语言的真实含义。
知识图谱可应用于问答系统、智能搜索引擎和自动推理等。将可机读的知识图谱融入到语音识别中的语言模型之中,为语音理解提供消除歧义的各类知识,相信会取得一些突破性的进展。
相比国外,国内在人工智能语音识别方面差距不大,其原因是在当前的互联网和云计算时代,各种信息和资源共享给国内外各研究单位提供了便利,加速了研发周期,在每年的AAAI,ACL,ICASSP等会议提供了理论和技术上交流,有些会议还定期提供语音识别、机器翻译等系统评测平台。
中科院声学所、自动化所以及清华大学等单位比较突出的博士生在理论和技术水平上也接近欧美的水平,百度、亚洲微软研究院等国内高技术互联网信息研究单位提供高薪为高技术人才提供了与国际接轨的研究平台。相信AI和语音识别等领域的发展将会对社会的发展和人类生活的改善发挥越来越大的作用。