时至今日NLP怎么还这么难!.docx
《时至今日NLP怎么还这么难!.docx》由会员分享,可在线阅读,更多相关《时至今日NLP怎么还这么难!.docx(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、时至今日,NLP怎么还这么难!|刘知远在微博以及知乎上关注自然语言处理NLP技术的朋友应该都对#NLP太难了#、#自然语言理解太难了#两个话题标签不生疏其下聚集了各种不仅难煞计算机、甚至让人也发懵的费解句子或者歧义引起的笑话。然而这些例子只是让人直觉计算机理解人类语言太难了NLP到底难在哪里还缺少通俗易懂的介绍。最近刚做完会议投稿这里花些时间总结下我对这个问题的认识期望对那些感兴趣NLP的同学有些帮助。欢送批评意见以及建议将来争取不断更新。此小号非彼小号自然语言理解本质是构造预测要搞清楚自然语言理解难在哪儿先看自然语言理解任务的本质是什么。作为人工智能关注的三大信息类型语音、视觉、语言之一自然
2、语言文本是典型的无构造数据由语言符号如汉字序列构成。要实现对自然语言的表意的理解需要建立对该无构造文本背后的语义构造的预测。因此自然语言理解的诸多任务包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析、语义角色标注等都是在对文本序列背后特定语义构造进展预测。例如中文分词就是在本来没有空格分隔的句子中增加空格或者其他标识将句子中每个词的边界标记出来相当于添加了某些构造化语义信息到这个文本序列上。NLP典型任务词性标注、命名实体识别、共指消解、句法分析1面向不同NLP任务人们制定不同的待预测的语义构造空间文本分类是最简单的情形即预定义的类别体系最常见的如情感分类是postive、ne
3、utral、negative三类中文分词是词边界的标记词性标注是句子中每个词的词性标签如名词、动词、形容词、副词、连词、介词等命名实体识别是标记哪些词或者多词是实体名及其实体类型如人名、地名、机构名等共指消解是标记哪些词在做指代和指代的是前面出现的哪个概念或者实体句法分析那么是将句子背后的句法树构造或者依存构造预测出来。自然语言理解的关键是语义表示不过以上NLP任务都只是在不断“逼近对文本的理解是对文本语义的部分表示。要实现对文本的完好理解需要建立更完备的语义构造表示空间这种更完备的语义表示经常成为上述NLP任务进展构造预测的根据。在统计学习时代一般采用符号表示Symbol-basedRepr
4、esentation方案即每个词都看做相互独立的符号。例如词袋模型Bag-of-WordsBOW是最常用的文本表示方案忽略文本中词的出现顺序信息广泛用于文本分类、信息检索等任务。N-Gram也是基于符号表示的语言模型与BOW模型相比将句子中词的出现顺序考虑了进来曾在机器翻译、文本生成、信息检索等任务中广泛使用。到深度学习时代一般采用分布式表示DistributedRepresentation或者Embeddings方案每个语言单元包括但不限于字、词、短语、句子、文档都用一个低维稠密向量来表示它们的语义信息。分布式表示是深度学习以及神经网络的关键技术。分布式表示方案是受到了人脑神经机制的启发根本
5、思想是2Eachentityisrepresentedbyapatternofactivitydistributedovermanycomputingelements,andeachcomputingelementisinvolvedinrepresentingmanydifferententities.很大程度上这种表示方案与索绪尔对语言符号的任意性以及构造主义的观点不谋而合。从计算角度来看NLP很多应用任务就是在断定两个语言单元间的语义相似度如信息检索是在短语查询词以及文档之间文档摘要是在句子以及文档之间分布式表示也为在不同语言单元之间计算语义相似度提供了统一的语义表示根底。由于忽略了对词
6、语内部语义或者词序信息的考量基于符号表示的词袋模型或者N-Gram失之粗略也受到数据稀疏问题的影响基于分布式表示的深度学习固然极大提升NLP性能却更多只能作为NLP内部表示可解释性不够。实际上也有很多学者提出SemanticParsing任务探究各类对文本语义更完好的表示以及建模方案仍未得到令人满意的结果。总之自然语言理解任务的本质是构造预测关键那么是对语言单元的语义表示才能。那么自然语言理解为什么难呢这需要我们先看一下自然语言都有哪些特点。自然语言有哪些特点自然语言是人类在认识世界以及改造世界的经过中产生的归根到底是自然界的产物因此被称为自然语言。自然语言本身受到人脑语言才能的支配伴随着人类
7、社会而演化作为人类使用的最庞杂的符号系统有很多特点。创新性作为人类信息沟通的工具自然语言需要具有强大的创新活力随时引入对最新概念、表述以及意义的表达才能。这方面最常见的就是新词和旧词新意的出现。例如有个笑话就是母女二人对“潮以及“晒产生的不同理解女儿本意是让母亲帮助在太阳下晒发潮的被子而母亲却理解为在朋友圈“晒女儿的被子让大众看是不是很“潮。可见这位母亲大人本人还是很“潮的纯熟掌握了两个词的的最新意思。潮以及晒人类语言的创新活力伴随着互联网开展以及在线沟通的日益亲密而更加明显。北京大学邵燕君等学者主编的?破壁书?应该是近年度这方面的集大成之作有兴趣的读者可以读下。我理解这个书名“破壁书也算化用
8、?三体?“破壁人的一个新词。解码二次元新词的?破壁书?新词以及旧词新意等都扩展了人类语言的表意空间也扩展了自然语言理解进展构造预测的语义空间。而这种扩展带有较强的随意性缺少严格的描绘信息或者足够的数据支持进而为自然语言理解带来挑战。递归性以语言学巨擘乔姆斯基为代表的学者认为递归性recursion)是人类语言的最重要的特性4这也是乔姆斯基提出转换生成文法的内在动机。固然递归性是否为人脑先天具备的语言才能有很多争论至少从汉语英语两大语言来看语言表现出的递归性特点不言而喻。例如最近中美之间出现的这那么有意思的表述就集中反映了语言递归性S1美国干预中国内政“是一个拥有完好主谓宾构造的句子被作为另外一
9、个句子S2中国抗议x的法案“中法案“的定语x而S2又被作为了S3美国抗议y是在干预内政“中抗议“的宾语y。递归性带来的语言套娃现象-1:抗议递归性带来的语言套娃现象-2吉尼斯世界纪录正是这种递归性为语言带来精准而强大的表述信息以及思想的才能随意翻翻那些著名的哲学著作充满着带有复杂递归构造的长句。不过这种准确表达才能是以理解更加费力为代价的而且递归性也为一句话带来更多的语义理解的可能性例如咬死猎人的狗“到底是咬死了猎人还是咬死了狗至少有两种可能的理解。可以以看到一旦句子包含了多层嵌套对人而言理解起来就变得特别困难很少有人会用这么复杂的构造讲话。例如政府部门层层转发通知导致的通知的通知的通知“的标
10、题读起来就非常费力。所以在自然语言理解理论中单纯由于递归性造成的困难并不是那么大。红头文件的语言套娃现象多义性自然语言是一个信息传递系统需要兼顾信号发出者讲话人、以及信号接收者听话人、读者的效率。假如人类大脑中每个事物都要对应一个独一无二的字词符号无疑会大幅进步人们的学习、记忆以及使用语言的本钱。因此语言中存在大量同音字以及一词多义的现象即一个字或者词往往兼顾多个词义当然也对应地需要人们根据话语或者文本的语境进展消歧处理才能正确理解其语义。这种多义性也成为各类语言幽默的主要来源。自然语言有不同粒度的语言单元如字、词、短语、句子、语篇乃至文档互联形成的万维网。多义性普遍存在于各粒度的语言单元上。
11、例如上面例子中的潮“以及晒“两字就有两种意思小号“那么是典型的一词多义短语层面如metalfan“也至少有两个意思。MetalFan句子层面的多义性也不少见如能穿多少穿多少“在夏天以及冬天各有截然相反的意思。类似形式的语言笑话还不少单身的原因有两个一是谁都看不上二是谁都看不上。女孩给男朋友打假如你到了我还没到你就等着吧假如我到了你还没到你就等着吧。单身的原因原来是喜欢一个人如今是喜欢一个人。字面意思的我想开了“。自然语言作为人们日常沟通的主要方式相信每个人都有在沟通中出现误会闹出笑话甚至冲突的经历很多时候就是由于歧义造成双方理解产生误差导致的。你好不好意思啊“还是你好不好意思啊“主观性即使语言
12、的多义性得到了正确消歧语言的字面意思得到了准确理解同样的话语或者文本仍然会导致人们产生不同的理解引发不同的思绪。这是因为每个人都是在认识世界以及与外界交互的详细经过中习得语言的所以人们对语言的理解不可防止受到个人经历以及认知程度的影响带有强烈的主观性。这种主观性反映在很多方面以与读者间的理解差异为例常讲一千个读者就有一千个哈姆雷特“莎士比亚在写这个剧本时他心目中恐怕有一个确切的哈姆雷特形象和他祈望表达的思想但读者在浏览时那么不可防止会受到自身经历以及认知的影响而产生不同的理解。这有如一个正态分布也许要传递的信息就在均值附近而读者的理解那么会各有偏向。这也是为什么同样一部世界名著有的人就会引起共
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 时至今日 NLP 怎么 这么
限制150内