深度学习基础Mchapter1ALL (2).pdf





《深度学习基础Mchapter1ALL (2).pdf》由会员分享,可在线阅读,更多相关《深度学习基础Mchapter1ALL (2).pdf(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(Feature Engineering)特征工程什么是特征工程?引用维基百科上的定义(https:/en.wikipedia.org/wiki/Feature_engineering)Feature engineering is the process of using domain knowledge ofthe data to create features that make machine learning algorithmswork.引自知乎:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”深度学习也要用到特征,需要对输入的特征进行组合变换等处理。2自动分词
2、何谓自动分词?自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位给以输出,为后续加工处理提供先决条件。举例:“我来到北京清华大学。”“我/来到/北京/清华大学/。/”“IcametoTsinghuaUniversityinBeijing.”“I/came/to/Tsinghua/University/in/Beijing/./”思考一下:中文的自动分词和英文的自动分词有何不同?3词根提取与词形还原词根提取(stemming):是抽取词的词干或词根形式(不一定能够表达完整语义)。原文:AndIalsolikeeatingapple词根提取后:and,I,also,like,to,
3、eat,appl)词形还原(lemmatization):是把词汇还原为一般形式(能表达完整语义)。如将“drove”处理为“drive”。原文:AndIalsolikeeatingapple词形还原后:And,I,also,like,ueat,apple)4词性标注词性标注(partofspeechtagging)1:是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。举例:“Ilikeeatingapple.”的词性标注结果为(I,PRP),(like,VBP),(eating,VBG),(apple,NN),(.,.)PRPperso
4、nalpronoun I,he,she人称代词VBPverb,sing.present,non3dtake动词 现在VBGverb,gerund/presentparticipletaking动词 动名词/现在分词NNnoun,singular desk名词单数形式 美国滨州树库词性标注规范美国滨州树库词性标注规范:http:/www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html句法分析句法分析(Syntacticanalysis):其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。6NLTK7Natu
5、ralLanguageToolkit(自然语言处理工具包)是在NLP领域中最常用的一个Python库。由宾夕法尼亚大学计算机系StevenBird和EdwardLoper开发提供了很多文本处理的功能:Tokenization(词语切分,单词化处理)Stemming(词干提取)Tagging(标记,如词性标注)Parsing(句法分析)此外,还提供了50多种语料和词汇资源的接口,如 WordNet等TextProcessingAPIhttp:/ Uniform Resource Locator)是利用URL语法在命令行方式下工作的开源文件传输工具。支持Unix、多种Linux发行版、Win32、
6、Win64等。9$curl-d text=great http:/text- andpluralization单数和复数)andlemmatization(词干提取)10中文处理工具jieba中文分词、词性标注工具功能:分词(包括并行分词、支持自定义词典)词性标注关键词提取结巴的安装(如pipinstalljieba)11Thanks!12(Vector Space Model and Computation of Text Similarity)向量空间模型及文本相似度计算13文档的向量化表示:BOW假设和VSM模型为了便于计算文档之间的相似度,需把文档转成统一空间的向量。BOW(bagof
7、wordsmodel):为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合。VSM(Vectorspacemodel):即向量空间模型。其是指在BOW词袋模型假设下,将每个文档表示成同一向量空间的向量。14D1D2FxFyFzBOW和VSM举例假设有下面三个文档:D1:JobswasthechairmanofAppleInc,andhewasveryfamous,D2:Iliketouseapplecomputer,D3:AndIalsoliketoeatapple类似这样一批文档的集合,通常也被称为文集或者语料(corpus)。上述语料中
8、,共有17个不同的词:0:also;1:and;2:apple;3:chairman;4:computer;5:eat;6:famous;7:he;8:inc;9:jobs;10:like;11:of;12:the;13:to;14:use;15:very;16:was.因此可构造一个17维的向量空间:D311100100001001000Dim.012345678910111213141516D101110011110110012D20010100000100110015停用词英文名称:Stopwords停用词通常是非常常见且实际意义有限的词,如英文中“the”,“a”,“of”,“an”等
9、;中文中“的”、“是”、“而且”等。几乎可能出现在所有场合,因而对某些应用如信息检索、文本分类等区分度不大。在信息检索等应用中,这些词在构建向量空间时通常会被过滤掉。因此这些词也被称为停用词。note:但在某些应用如短语搜索phrase search中,停用词可能是重要的构成部分,因此要避免进行停用词过滤。16Ngram模型Ngram通常是指一段文本或语音中连续N个项目(item)的序列。项目(item)可以是单词、字母、碱基对等。N=1时称为unigram,N=2称为bigram,N=3称为trigram,以此类推。举例:对于文本 AndIalsoliketoeatapple,则Unigra
10、m:And,I,also,like,to,eat,appleBigram:AndI,Ialso,alsolike,liketo,toeat,eatapple.Trigram:AndIalso,Ialsolike,alsoliketo,liketoeat,toeatapple20世纪80年代,Ngram被广泛地应用在拼写检查、输入法等应用中。90年代以后,Ngram得到新的应用,如自动分类,信息检索等。即将连续的若干词作为VSM中的维度,用于表示文档。1761.7dist(x1,x2)cos(x1,x2)x1x2F2F1F3文档之间的欧式距离欧氏距离(euclidean metric)是一个通常
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度学习基础Mchapter1ALL 2 深度 学习 基础 Mchapter1ALL

限制150内