与大多数机器学习或人工智能技术一样,自然语言处理也是一种综合技术,涉及多种技能、技术和领域。本论文主要研究实现人与计算机通过自然语言进行有效通信的各种理论和方法。在数据科学领域,自然语言处理是最热门的课题之一。接下来小编就给大家介绍一下什么是自然语言?什么是自然语言处理,一起来看看吧。
什么是自然语言处理?
简而言之,自然语言处理(简称NLP),即使用计算机来处理、理解和使用人类语言(例如中文、英文等),属于人工智能的一个分支,也就是计算机科学和语言学的交叉学科,也就是计算语言学,也就是计算语言学。因为自然语言是人类有别于其他动物的基本特征。如果没有语言,人类的思维也就无从谈起,因此自然语言处理体现了人工智能的最高任务和最高境界,即只有当计算机具备了处理自然语言的能力时,机器才能达到真正智能。
自然语言处理的研究内容主要有语法分析、语义分析和篇章理解等。就应用而言,自然语言处理有着广阔的应用前景。尤其是在信息时代,自然语言处理的应用范围非常广泛,包括:机器翻译、手写和印刷体字符识别、语音识别和文语转换、信息检索、信息提取和过滤、文本分类和聚类、舆情分析和视角挖掘等,涉及到数据挖掘、机器学习、知识获取、知识工程、人工智能研究以及语言计算等领域。
值得注意的是,自然语言处理的兴起与具体的机器翻译任务密切相关。“机器翻译”是指用计算机自动翻译一种自然语言到另一种自然语言。因此,翻译工作十分耗费时间和精力。在需要翻译某些专业领域的文献时,翻译者更需要了解该领域的基础知识。全世界有超过数千种语言,而联合国一国就拥有6种以上的工作语言。机器翻译若能在不同语言之间实现精确转换,将大大提高人类交流和理解的效率。
当前,人们对自然语言处理的认识主要有两种:一种是基于规则的理性主义,另一种是基于统计的经验主义。从理性主义角度看,人类语言主要是通过语言规则来生成和描述的,所以只要能以适当的形式表达人类语言规则,就能理解人类语言,实现语言间翻译等各种自然语言处理任务。实证主义理论认为,语言统计知识是从语言数据中提取出来的,有效地构建了语言统计模型。所以,只要有足够的统计语言数据,人类语言就是可以被理解的。但在面对充满模糊和不确定性的现实世界中,两种方法都面临着各自不能解决的问题。
举例来说,人类语言尽管有一定的规则,但在实际使用中经常会出现很多噪音和不规范现象。理性方法的一个大缺点是不够稳健,只要与规则稍有偏差就不能解决。而且,对于经验方法来说,它并不能无限制地获取语言数据进行统计学习,因而也就不可能完全理解人类语言。80年代以来,以语言规则为基础的理性主义方法不断受到质疑,大规模语言数据处理成为当前及今后一个时期自然语言处理的主要研究对象。在自然语言处理中,统计学习方法越来越受到重视,越来越多地采用计算机自动学习方法来获取语言知识。
迈入21世纪,我们已进入以互联网为主要标志的海量信息时代,大量信息大多用自然语言表达。大量的信息,一方面为计算机学习人类语言提供了更多的“素材”,另一方面,也为自然语言处理提供了更广阔的应用领域。比如,作为自然语言处理的重要应用,搜索引擎逐渐成为人们获取信息的重要工具。
百度、谷歌等搜索引擎巨头应运而生;机器翻译也从实验室走向了百姓家,谷歌、百度等公司提供机器翻译和基于海量网络数据的辅助翻译;基于自然语言处理的中文(如搜狗、微软、谷歌等输入法)成为电脑用户必不可少的工具;拥有语音识别功能的电脑和手机也大行其道,帮助用户更有效地学习。总而言之,随着因特网的普及和大量信息的产生,自然语言处理在人们的日常生活中发挥着越来越大的作用。但是,面对海量、大规模的文本数据,如何有效利用海量信息,人们逐渐认识到,仅仅依靠统计方法已不能迅速有效地从海量数据中学习语言知识。
自2013年发布word2vec技术以来,基于神经网络的深度学习技术开始广泛应用于自然语言处理领域,分布式语义表示和多层网络体系结构的深度学习具有强大的拟合和学习能力,显著提高了自然语言处理的各项任务的性能,成为现阶段自然语言处理的主要技术方案。
深度学习是一种纯数据驱动的技术,需要从大规模标注数据中学习与特定任务相关的复杂模式。一些学者开始探索深度学习模型,如ELMo,GPT,BERT等,它们可以被看作是对从大规模数据中学习知识的极端探索;另一方面,现有的深度学习技术还没有考虑到人类积累的大量知识(包括语言知识、世界知识、常识知识、认知知识、行业知识等等),如果把深度学习看作是经验主义的方法,把符号知识看作是理性主义的方法,那么如何才能充分发挥基于规则的理性主义方法和基于统计的经验主义方法的优势,使两者相互补充,更好、更快地进行自然语言处理,仍是我们需要探索的重要课题。
作为一门刚刚兴起了不到一个世纪的新学科,自然语言处理正在飞速发展。纵观自然语言处理的发展过程,它并非一帆风顺,有过低谷,也有过高潮。目前我们正面临着新的机遇和挑战。比如,目前的搜索引擎基本上还停留在关键字匹配上,缺乏对自然语言的深度处理和理解。目前,语音识别、文字识别、问答系统、机器翻译等技术也仅能达到非常基础的水平。路途遥远,自然语言处理作为一门高度交叉的新兴学科,不管是探索自然的本质,还是应用于实践,都必然会有意想不到的惊喜,而且发展得异常迅速。以上就是小编为大家介绍的什么是自然语言,什么是自然语言处理,希望对您有帮助。
[免责声明]
文章标题: 什么是自然语言?什么是自然语言处理?
文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。