NLP学习路线总结.docx
《NLP学习路线总结.docx》由会员分享,可在线阅读,更多相关《NLP学习路线总结.docx(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、NLP学习路线总结1、自然语言处理概述自然语言处理NaturalLanguageProcessingNLP是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进展有效通信的理论以及方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或者“理解自然语言以执行自动翻译、文本分类以及情感分析等。自然语言处理是人工智能中最为困难的问题之一。2、自然语言处理入门根底2.1数学根底1线性代数向量、矩阵、间隔计算余弦间隔、欧式间隔、曼哈顿间隔、明可夫斯基间隔、切比雪夫间隔、杰卡德间隔、汉明间隔、标准欧式间隔、皮尔逊相关系数2概率论随机试验、条
2、件概率、全概率、贝叶斯定理、信息论3统计学图形可视化饼图、条形图、热力图、折线图、箱线图、散点图、雷达图、仪表盘数据度量标准平均数、中位数、众数、期望、方差、标准差概率分布几何分布、二项分布、正态分布、泊松分布统计假设检验2.2语言学根底语音、词汇、语法2.3Python根底Python从入门到理论2.4机器学习根底统计学习方法、机器学习周志华、机器学习实战2.5深度学习根底CNN、RNN、LSTM2.6自然语言处理的理论根底统计自然语言处理宗成庆第二版、Python自然语言处理、数学之美第二版3、自然语言处理的主要技术范畴3.1语义文本相似度分析语义文本相似度分析是对两段文本的意义以及本质之
3、间的相似度进展分析的经过。3.2信息检索InformationRetrieval,IR信息检索是指将信息按一定的方式加以组织并通过信息查找知足用户的信息需求的经过以及技术。3.3信息抽取InformationExtraction信息抽取是指从非构造化/半构造化文本如网页、新闻、论文文献、微博等中提取指定类型的信息如实体、属性、关系、事件、商品记录等并通过信息归并、冗余消除以及冲突消解等手段将非构造化文本转换为构造化信息的一项综合技术。3.4文本分类TextCategorization文本分类的任务是根据给定文档的内容或者主题自动分配预先定义的类别标签。3.5文本挖掘TextMining文本挖掘
4、是信息挖掘的一个研究分支用于基于文本信息的知识发现。文本挖掘的准备工作由文本采集、文本分析以及特征修剪三个步骤组成。目前研究以及应用最多的几种文本挖掘技术有文档聚类、文档分类以及摘要抽取。3.6文本情感分析TextualAffectiveAnalysis情感分析是一种广泛的主观分析它使用自然语言处理技术来识别客户评论的语义情感语句表达的情绪正负面和通过语音分析或者书面文字判断其表达的情感等。3.7问答系统QuestionAnswering,QA自动问答是指利用计算机自动答复用户所提出的问题以知足用户知识需求的任务。不同于现有搜索引擎问答系统是信息效劳的一种高级形式系统返回用户的不再是基于关键词
5、匹配排序的文档列表而是精准的自然语言答案。3.8机器翻译MachineTranslationMT机器翻译是指利用计算机实现从一种自然语言到另外一种自然语言的自动翻译。被翻译的语言称为源语言sourcelanguage翻译到的语言称作目的语言targetlanguage。机器翻译研究的目的就是建立有效的自动翻译方法、模型以及系统打破语言壁垒最终实现任意时间、任意地点以及任意语言的自动翻译完成人们无障碍自由沟通的梦想。3.9自动摘要AutomaticSummarization自动文摘又称自动文档摘要是指通过自动分析给定的一篇文档或者多篇文档提炼、总结其中的要点信息最终输出一篇长度较短、可读性良好的
6、摘要通常包含几句话或者数百字该摘要中的句子可直接出自原文可以重新撰写所得。3.10语音识别SpeechRecognition语言识别指的是将不同语言的文本区分出来。其利用语言的统计以及语法属性来执行此任务。语言识别可以以被认为是文本分类的特殊情况。4、自然语言处理根本点4.1语料库Corpus语料库中存放的是在语言的实际使用中真实出现过的语言材料语料库是以电子计算机为载体承载语言知识的根底资源真实语料需要经过加工分析以及处理才能成为有用的资源。4.2中文分词ChineseWordegmentation1中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的标准重新
7、组合成词序列的经过。2现有的分词方法可分为三大类基于字符串匹配的分词方法、基于理解的分词方法以及基于统计的分词方法。3比拟流行的中文分词工具jieba、StanfordNLP、HanLP、SnowNLP、THULAC、NLPIR4.3词性标注Part-of-speechtagging1词性标注是指为给定句子中的每个词赋予正确的词法标记给定一个切好词的句子词性标注的目的是为每一个词赋予一个类别这个类别称为词性标记part-of-speechtag比方名词noun、动词verb、形容词adjective等。2词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型然后是判别式的最
8、大熵模型、支持向量机模型目前学术界通常采用的构造是感悟器模型以及条件随机场模型。近年度来随着深度学习技术的开展研究者们也提出了很多有效的基于深层神经网络的词性标注方法。4.4句法分析Parsing1基于规那么的句法构造分析2基于统计的语法构造分析4.5词干提取Stemming词干提取是将词语去除变化或者衍生形式转换为词干或者原型形式的经过。词干提取的目的是将相关词语复原为同样的词干。4.6词形复原Lemmatization词形复原是将一组词语复原为词源或者词典的词目形式的经过。4.7停用词过滤停用词过滤是指在文本中频繁出现且对文本信息的内容或者分类类别奉献不大甚至无奉献的词语如常见的介词、冠词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NLP 学习 路线 总结
限制150内