本节内容主要来源于参考资料,对其中重要的内容进行了抽取和融合。
自然语言处理(Natural Language Processing)是人工智能(Artificial Intelligence)的一个子领域,是研究人与人以及人与计算机交互中的语言问题的一门学科(出处见参考资料1),因此也是计算机科学和语言学的一个交叉学科,所以也常被称为计算语言学。
目前,人类姑且可以认为自己与其他动物的区别在于语言的应用,所以自然语言的处理便体现了人工智能的最高境界,故而有人说自然语言是人工智能的皇冠,当有一天计算机完全具备处理自然语言的能力时,我们或许可以说达到了智能。
目前读者可以通过各类渠道查询关于自然语言处理的基础知识,其中关于NLP最常见的研究方向分类我已经复制到本教程中,其最早的出处已经难以查询了,但读者须知,这种分类并非囊括一切或者对于某些任务的描述并不准确,例如图像描述任务可以算是特殊的文本生成,只不过是从图像模态到文本模态。
- **信息抽取:**从给定文本中抽取重要的信息,比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。
- **文本生成:**机器像人一样使用自然语言进行表达和写作。依据输入的不同,文本生成技术主要包括数据到文本生成和文本到文本生成。数据到文本生成是指将包含键值对的数据转化为自然语言文本;文本到文本生成对输入文本进行转化和处理从而产生新的文本。
- **问答系统:**对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
- **对话系统:**系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。
- **文本挖掘:**包括文本聚类、分类、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
- **语音识别和生成:**语音识别是将输入计算机的语音符号识别转换成书面语表示。语音生成又称文语转换、语音合成,它是指将书面文本自动转换成对应的语音表征。
- **信息过滤:**通过计算机系统自动识别和过滤符合特定条件的文档信息。通常指网络有害信息的自动识别和过滤,主要用于信息安全和防护,网络内容管理等。
- **舆情分析:**是指收集和处理海量信息,自动化地对网络舆情进行分析,以实现及时应对网络舆情的目的。
- **信息检索:**对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
- **机器翻译:**把输入的源语言文本通过自动翻译获得另外一种语言的文本。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。
-
1950年以前: 提出著名的图灵测试,即 人和机器交流的时候,如果人无法判断自己的交流对象是任何还是机器,就说明这个机器具有智能。
-
1950-1970: 基于规则形式的语言理论
乔姆斯基,根据数学中的公理化方法研究自然语言,采用代数和集合论把形式语言定义为符号的序列。他试图使用有限的规则描述无限的语言现象,发现人类普遍的语言机制,建立所谓的普遍语法。
-
1970-至今: 基于统计
谷歌、微软、IBM,20世纪70年代,弗里德里克·贾里尼克及其领导的IBM华生实验室将语音识别率从70%提升到90%。 1988年,IBM的彼得·布朗提出了基于统计的机器翻译方法。 2005年,Google机器翻译打败基于规则的Sys Tran。
-
2010-至今:机器学习
AlphaGo(适用技术为 强化学习)先后战胜李世石、柯洁等,掀起人工智能热潮。深度学习、人工神经网络成为热词。涉及到的领域:语音识别、图像识别、机器翻译、自动驾驶、智能家居。
有热心研究人员做了一张图,为了读者方便直接贴在此处,来源见参考资料。
NLP 的难点概括成一句话就是自然语言天然有歧义。而要想消除歧义,又要知道很多其他的背景知识来支撑。这些背景知识不仅仅是对于上下文的理解,还要有社会、法律等方面的常识,这无异于让计算机拥有人的经验。
在中文NLP领域,就有很多特殊的困难,例如基础任务分词,最著名的莫过于”南京市长江大桥“的分词结果。还有很多有趣的例子,笔者就不浪费时间了,读者可根据自己的兴趣去看相关大佬的分享。
- 参考资料中所提
- 斯坦福视频 cs224n
- 吴军--《数学之美》
- 周志华--《机器学习》
- 宗成庆--《统计自然语言处理》