企业电子档案分类法研究.docx
《企业电子档案分类法研究.docx》由会员分享,可在线阅读,更多相关《企业电子档案分类法研究.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、企业电子档案分类法研究摘要:通过将文档词语转化为词向量表达式,再经过卷积、池化等操作来抽取文档分类特征。最后以企业简历电子档案库为原料进行比照验证。验证结果表明,利用CNN卷积神经网络对电子文档分类的准确率到达94.61%,优于FastText等分类方法。关键词:CNN卷积神经网络;企业电子档案;分类随着大数据、云计算等当代信息技术的发展,传统的纸质档案快速向电子化、数字化档案进行转变,档案管理形式出现了深入的变化。档案管理的分类、检索等基本方法也随之产生了变化。本文参考Kim提出的神经网络模型,自动提取档案文本的特征集合,使用Word2vec进行词向量训练,旨在进一步提高电子档案的分类准确率
2、。一、CNN卷积神经网络一神经网络神经网络是一些具有适应性的神经元组成的集合。神经元是神经网络的最小组成单位,是一种二元线性分类器感悟机制。二词向量词向量也叫词嵌入,是通过神经网络来训练语言模型,在训练经过中生成一组向量,这组向量将每个词表示为n维向量,可理解为文本的数学化表示。一种最简单的词向量方式是One-HotRepresentation,就是用与词典等长的向量来表示一个词,该词所在词典的索引对应分量1,其余分量全为0,例如“工程师表示为0001000.。One-Hot方式非常简洁,仅需为每个词分配一个数字编号即可,但该方式容易出现维度灾难,不能较好地刻画各词语之间的类似性。另一种是Hi
3、nton在1986年提出的DistributedRepre-sentation向量方式,很好地克制了One-Hot方式的缺点。该方式通过语言模型的训练,用固定长度的短向量来表示词语;将所有的词向量放在一起,构成向量空间。在该空间上不同词语之间的距离,就是该词语法、语义之间的类似性。而Word2vecs是谷歌Tomas-Mikolvd团队研发的一款开源的词向量产生工具,本文即利用Word2vecs来训练职员电子档案的语言模型,获取相应的词向量集合。三卷积神经网络CNN卷积神经网络是深度学习技术中极具代表的网络构造之一,在图像处理领域获得了很大的成功。在国际标准的ImageNet数据集上,很多成功
4、的模型都是基于CNN的。近年来,该技术在自然语言处理、语音识别等方面均有突破性应用。下文基于CNN卷积神经对职员档案进行分类搜索,即是基于CNN在自然语言处理中的应用。不同于普通网络神经算法,CNN卷积神经网络的特征抽取器由卷积层和子采样层构成。卷积层中存在着若干个特征平面,每个平面由一些矩形排列的神经元组成神经元只与部分邻层神经元相连接,这些神经元分享权值,称为卷积核。先用随机小数矩阵的形式对卷积核进行初始化操作,再通过语料训练经过得到合理的权值。卷积核的应用减少了神经网络各层之间的连接,降低了拟合风险。子采样也称为池化层,具有最大值子采样和均值子采样两种形式。子采样的经过就是一种特殊的分享
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 电子 档案 分类法 研究
限制150内