利用递归卷积神经网络进行文本分类.ppt





《利用递归卷积神经网络进行文本分类.ppt》由会员分享,可在线阅读,更多相关《利用递归卷积神经网络进行文本分类.ppt(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、循环卷积神经网络用于文本分类问题:文本分类特征表示:词袋方法(一元、两元、N元)其它方法:frequecy,MI,pLSA,LDA缺点:忽略了词语所在的语境和词语的顺序,不能有效获取词语的语义EX:AsunsetstrollalongtheSouthBankaffordsanarrayofstunningvantagepoints.(Bank在这里是河岸,而不是银行)已有解决方法1.增加词袋元素维度:比如扩展到“strollalongtheSouthBank”(5-gram)2.更复杂的特征表示方法:比如TreeKernels方法3.存在问题:数据稀少(datasparsity),即有效的信息
2、量太少,影响分类的准确度。单词表示词向量1.词向量(向量(word embedding):传统的词向量:One-hot Representation“话筒”表示为0001000000000000.“麦克”表示为0000000010000000.缺点:“词汇鸿沟”;纬度高;数据稀疏改进的词向量:Distributed Representation即一种单词的分布式表示方法,能有效降低数据稀疏问题,经过训练的词向量可以表征句法和语义信息。Distributed Representation表示形式表示形式:0.792,0.177,0.107,0.109,0.542,.。维度以50维和100维比较常
3、见。这种向量的表示不是唯一的。特点是越相似的词距离越近。解决了One-hotRepresentation表示词汇时不能表示两个词汇关系的问题。文本表示-神经网络神神经网网络结构:构:基本的神经网络结构包含三部分:输入层、隐含层、输出层神经网络的特点:自学习、联想存储、高度并行性、容错性、鲁棒性。文本表示 递归神神经网网络(Recursive NN):):利用树结构对语句进行建模。时间复杂度:至少是O(n2),其中n是句子或者文本的长度,因此不适合长句子或者文本。另一方面,两个句子之间的关系很难通过树结构进行表示。文本表示循循环神神经网网络(Recurrent NN):):对文本进行逐词分析,将
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 递归 卷积 神经网络 进行 文本 分类

限制150内