自然语言处理(Natural Language Processing)是一门通过建立形式化的 计算模型来分析、理解和处理自然语言的学科,也是一门横跨语言学、计算 机科学、数学等领域的交叉学科。自然语言处理,是指用计算机对自然语言 的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、 分析、理解、生成等的操作和加工。自然语言处理的具体表现形式包括机器 翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。 可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及 两个流程,包括自然语言理解和自然语言生成,自然语言理解是让计算机把 输入的语言变成有意思的符号和关系,然后根据目的再处理;自然语言生成 则是把计算机数据转化为自然语言。实现人机间的信息交流,是人工智能 界、计算机科学和语言学界所共同关注的重要问题。
自然语言处理技术的技术层次
从2008年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐 开始引入深度学习来做自然语言处理研究,由最初的词向量到2013年 word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻 译、问答系统、阅读理解等领域取得了一定成功。深度学习是一个多层的 神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出 做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网 络,即可执行预想的任务。RNN已经是自然语言护理最常用的方法之一, GRU、LSTM 等模型相继引发了一轮又一轮的热潮。
自然语言处理技术的发展历程
自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类研究的重点。基础性研究主要涉及语言学、数学、计算机学科等领域,相对应的技术有消除歧义、语法形式化等。应用性研究则主要集中在一些应用自然语言处理的领域,例如信息检索、文本分类、机器翻译等。由于我国基础理论即机器翻译的研究起步较早,且基础理论研究是任何应用的理论基础,所以语法、句法、语义分析等基础性研究历来是研究的重点,而且随着互联网网络技术的发展,智能检索类研究近年来也逐渐升温。近年来,计算机视觉在产业界和学术界不断取得突破,取得代表性成果的组织有谷歌、阿里、百度、搜狗、科大讯飞等公司,清华大学、Allen人工智能研究所等高校/研究所以及其他多种类型的组织或个人。
2018年谷歌AI团队发布BERT模型,该模型是2018年最火的自然语言处理模型,在模型开源后的短短几个月时间里,已经有学者表示BERT为人工智能的发展带来了里程碑式的意义。2019年6月,CMU与谷歌大脑提出新的NLP训练模型XLNet,该模型在SQuAD、GLUE、RACE等20个任务上全面超越了BERT。
清华大学自然语言处理小组开发出THUMT神经机器翻译开源工具 包。THUMT 在 Theano 上层实现了标准的基于注意的编码器-解 码器框架,并且支持三种训练标准:最大似然估计、最小风险训 练和半监督训练。它的特点是有一个可视化工具,演示神经网络 和语境单词隐藏态间的关联,从而帮助分析 NMT 的内部工作机 制。在中英数据集上的实验显示 THUMT 使用最小风险训练极大 的超越了 GroundHog 的表现,它也是 NMT 的一个顶尖工具 包。
Allen人工智能研究所于2018年年初提出了ELMo (Embeddings from Language Models)模型,提 供了从深度双向语言模型(biLM)中学习的单词嵌入思 路。该模型主要在大型文本语料库上进行预训练,从而 使迁移学习和这些嵌入能够在跨越不同的NLP任务。
2018年12月,Facebook开源了自己的NLP建模框架PyText,每天处理超10亿个NLP任务。
科大讯飞早在2016年就推出了全新的深度全序列卷积神经网络(DFCNN)语音识别框架,该框架的表现比学术界和工业界最好的双向RNN语音识别系统识别率提升了15%以上。2019年,讯飞输入法的语音识别准确率已达到了98%,并采用记忆增强的全端到端语音识别模型,开启语音输入“免切换”时代,即中英、粤语和普通话以及离线与在线语音之间不切换直接输入。
阿里巴巴人工智能实验室推出的天猫精灵是目前全球唯一通过语音识别技术实现声纹购物功能的人工智能产品。2019年前三季度,天猫精灵AI智能音箱销量超1047万台,销量排名在国内第1、世界第3,是全球最大的中文人工智能音箱。
2019年,百度、搜狗的语音识别的准确率已达到了97%。搜狗更是在2017年底就推出了“黑科技”唇语识别技术,当时针对日常用语的识别就可以达到50%~60%的准确率,针对命令词的识别可达到85%~90%,较早地做了唇语识别的技术储备。