企业电子档案分类法研究.docx

资源ID：17867507 资源大小：18.36KB 全文页数：6页
资源格式： DOCX 下载积分：9.18金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要9.18金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

企业电子档案分类法研究.docx

企业电子档案分类法研究摘要：通过将文档词语转化为词向量表达式，再经过卷积、池化等操作来抽取文档分类特征。最后以企业简历电子档案库为原料进行比照验证。验证结果表明，利用CNN卷积神经网络对电子文档分类的准确率到达94.61%，优于FastText等分类方法。关键词：CNN卷积神经网络；企业电子档案；分类随着大数据、云计算等当代信息技术的发展，传统的纸质档案快速向电子化、数字化档案进行转变，档案管理形式出现了深入的变化。档案管理的分类、检索等基本方法也随之产生了变化。本文参考Kim提出的神经网络模型，自动提取档案文本的特征集合，使用Word2vec进行词向量训练，旨在进一步提高电子档案的分类准确率。一、CNN卷积神经网络一神经网络神经网络是一些具有适应性的神经元组成的集合。神经元是神经网络的最小组成单位，是一种二元线性分类器感悟机制。二词向量词向量也叫词嵌入，是通过神经网络来训练语言模型，在训练经过中生成一组向量，这组向量将每个词表示为n维向量，可理解为文本的数学化表示。一种最简单的词向量方式是One-HotRepresentation，就是用与词典等长的向量来表示一个词，该词所在词典的索引对应分量1，其余分量全为0，例如“工程师表示为0001000.。One-Hot方式非常简洁，仅需为每个词分配一个数字编号即可，但该方式容易出现维度灾难，不能较好地刻画各词语之间的类似性。另一种是Hinton在1986年提出的DistributedRepre-sentation向量方式，很好地克制了One-Hot方式的缺点。该方式通过语言模型的训练，用固定长度的短向量来表示词语；将所有的词向量放在一起，构成向量空间。在该空间上不同词语之间的距离，就是该词语法、语义之间的类似性。而Word2vecs是谷歌Tomas-Mikolvd团队研发的一款开源的词向量产生工具，本文即利用Word2vecs来训练职员电子档案的语言模型，获取相应的词向量集合。三卷积神经网络CNN卷积神经网络是深度学习技术中极具代表的网络构造之一，在图像处理领域获得了很大的成功。在国际标准的ImageNet数据集上，很多成功的模型都是基于CNN的。近年来，该技术在自然语言处理、语音识别等方面均有突破性应用。下文基于CNN卷积神经对职员档案进行分类搜索，即是基于CNN在自然语言处理中的应用。不同于普通网络神经算法，CNN卷积神经网络的特征抽取器由卷积层和子采样层构成。卷积层中存在着若干个特征平面，每个平面由一些矩形排列的神经元组成神经元只与部分邻层神经元相连接，这些神经元分享权值，称为卷积核。先用随机小数矩阵的形式对卷积核进行初始化操作，再通过语料训练经过得到合理的权值。卷积核的应用减少了神经网络各层之间的连接，降低了拟合风险。子采样也称为池化层，具有最大值子采样和均值子采样两种形式。子采样的经过就是一种特殊的分享权值的经过。卷积和子采样的引入精简了神经模型的参数，简化了它的复杂程度。二、模型构造Kim对基于自然语言文本处理的CNN卷积神经网络作了具体的阐述。其构造包含输入层、卷积层、池化层、全连接及SOFTMAX层1。根据CNN卷积神经网络的定义和模型构造，详细建模流程如下：一数据预处理以企业人才简历档案分类为例，抽取人才档案库中名称为软件工程师的档案10000份，其中8000份作为训练集，2000份作为验证集，并计算各档案的特征矩阵。详细步骤如下：1.首先用分词工具对训练集中的每个档案T进行分词处理，并进行去重、剔除无用词语、删除标点符号、删除空格等处理得到档案T的词典TD。用Word-2Vecotr对TD进行向量初始化，并将初始化的结果合并到词向量空间R中；2.然后将每条档案T进行分词处理，得到词序列wi(i)。将wi带入向量空间R中，得到对应的词向量vi(i)；3.再将T的词向量序列vi作链接操作，得到档案T的特征矩阵。4.最后将词向量序列vi根据先后顺序，从上到下排列。二卷积操作卷积操作的本质是对档案序列进行特征抽取的经过。三池化操作档案T的句子经过m个卷积核进行卷积运算以后，生成m个R(d-h+1)x1空间的句子向量C。三、分类器经过前述操作步骤，已将建立档案T转换为T所包含全部词向量的特征矩阵，并通过卷积、池化操作得到T的特征向量P。四、模型试验为更直观地分析CNN神经网络与其它分类算法在电子档案分类识别上准确率和效率的差异，本文用TensorFlow编程实现了上述模型处理经过，进行比照试验。一数据集从档案库中抽取10000份名称为工程师的电子档案数据，随机抽样取8000份档案作为训练样本，其余的作为验证测试数据。二实验效果通过比照试验，发现使用机器学习的几种算法都能实现对测试电子档案的有效识别和准确分类，进而大大降了用于人工搜索与阅读判定其所属分类的时间成本。比照以上结果，由Facebook开发的快速文本分类器FastText提供了简单、高效的文本分类和表征方法，但在电子档案区分度不大的情况下，分类准确率有待进一步提高。TextGrocery则是一个基于SVM算法的短文本分类工具，内置结巴分词，但是从时间和准确率来看，综合效果并不特别突出。而基于卷积神经网络CNN的档案分类算法，特征学习力能力优异，特征对数据本质的刻画最为准确、深入，更有利于档案的分类和区分；固然耗时达1360秒，但与人工区分挑选耗时相比，该运行时间完全能够接受。五、总结本文提出基于卷积神经网络CNN的电子档案分类模型。该模型充分考虑了中文档案文本特征稀疏、含有大量专业词汇等特点。试验表明，CNN卷积神经网络分类模型相比TextGrocery、FastText等经典分类器准确率大大提高。Word2vec训练模型的引入，极大地提高了在充分考虑语义特征情况下的中文单词训练和向量词典初始化的效率。在试验经过中，还发现不同的卷积核数量和初始化方法对分类的结果具有一定的影响。将来的研究重点是怎样优化选取卷积核数量和分类的方法，更好地提高档案分类的准确率。

注意事项

本文（企业电子档案分类法研究.docx）为本站会员（安***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。