图书信息化数据挖掘技术管理探究-精品文档.docx
《图书信息化数据挖掘技术管理探究-精品文档.docx》由会员分享,可在线阅读,更多相关《图书信息化数据挖掘技术管理探究-精品文档.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、图书信息化数据挖掘技术管理探究摘要:高校图书管理系统中的数据具有庞杂性、隐晦性和关联性,传统的图书管理系统无法从这些数据中寻找到足够的有用信息以实现优化图书配置的目的。为了解决该难题,文中以某高校图书馆为例对数据挖掘技术在高校图书管理中的应用进行了研究,得到主要结论如下:第一,频繁书籍的挖掘对图书馆内书籍馆藏数目的优化尤为重要;第二,不同类别书籍间存在可信度较高的关联规则,同时馆藏数目有限和图书外借政策导致不同书籍间的支持度较低;第三,某图书馆图书外借记录的数据挖掘所得结果与现实中读者需求的吻合度非常高。关键词:数据挖掘;关联规则;高校图书馆;Apriori算法在信息技术飞速发展的当下,图书检
2、索等信息急速膨胀,而传统的图书管理措施无法深度挖掘图书馆访客的需求,这对图书资源的管理和相关决策带来了众多不便,也阻碍了高校图书馆的发展。吴菁1对数据挖掘在图书管理中应用进行了研究;李会艳2针对高校图书管理,就数据挖掘技术的应用进行了分析;张晴等3人深化研究了大数据背景下,基于数据挖掘技术的移动图书管理系统的实现方案;于文超4分析了大数据和物联网技术在我国图书情报领域的应用方法及前景;赵雨薇等5人对基于数据挖掘技术的图书推荐、高校图书管理及图书馆个性化服务等进行了研究。固然众多学者已经着眼于数据挖掘技术在图书管理方面的研究,但当前我国高校图书管理系统中数据挖掘技术的应用仍然有很大的提升空间6。
3、本文从数据挖掘技术的介绍入手,对高校图书管理系统中数据的特征进行了总结,对图书管理中数据挖掘的层次构造和数据挖掘需求进行了介绍7,最后以我国东北某高校图书馆为例,对数据挖掘技术在我国高校图书管理中的应用进行了研究。1数据挖掘技术11数据挖掘的施行方案在物联网和计算机技术迅猛发展的推动下,大数据的应用已经延伸到很多行业中,它不仅颠覆了人们对传统意义上数据的认知,更诱发了数据获取、存储、分析、挖掘以及可视化等技术的变革8。同时,当前人类生产及生活方式也将因大数据及其相关技术而产生巨变。“数据量宏大只是大数据的外表特征,其全新的数据处理形式以及其短时间内传统工具无法完成的决策力、洞察发现力才是大数据
4、更核心的意义。然而,原始数据往往都是含有杂质和大量干扰信息的,同时这些数据大多数时候都是模糊且无明显规律的。只要应用一定的技术手段,过滤掉既有数据信息中的杂质和干扰信息,才能获得真正有价值的数据,进而基于大数据做出愈加科学的决策,数据挖掘(DataMining)则正是完成这一经过的手段,其实现步骤如图1所示9。当前,数据挖掘主要手段有关联规则分析、聚类分析、分类分析、预测、时序形式和偏差分析等,下面对本文主要涉及的关联规则分析及其常用的Apriori算法进行介绍。12关联规则分析在大数据时代,大量看似杂乱无章、无律可循的数据背后往往存在着深层的潜在联络,把从大量数据中寻找各数据之间的关联或依靠
5、关系的技术称为关联规则分析(AssociationAnalysis)。关联规则分析的基本原理如下10:记D=t1,t2,tk,tn为待挖掘的数据集合,记tk=i1,i2,im,ip,(k=1,2,n)为事务,其中im(m=1,2,p)为项,定义X为项集,其支持数定义为数据集D中包含项集X的事务数,记为x,X的支持度记为support(X)。式中,D为数据集D中的事务数,定义最小支持度阈值为minsup,当support(X)minsup时,称X为频繁项集,反之称X为不频繁项集11。记X和Y是数据集D中的项集,若存在XY,则support(X)support(Y),假如X为不频繁项,则Y也为不频
6、繁项,假如Y为频繁项,则X也为频繁项。假如项集XY=,则XY称为关联规则,X为关联规则的前提,Y为关联规则的结论,其支持度即为XY的支持度,记为support(XY),令关联规则XY的置信度为confidence(XY),则有关联规则XY的置信度计算见式(2)所示12:定义最小置信度阈值为minconf,假如XY的关联规则中知足support(XY)minsup,且confidence(XY)minconf,则以为关联规则XY是强规则,否则为弱规则13。数据挖掘经过中,目的是寻找出暗藏于数据集D中的全部强关联规则,也就是寻找关联规则XY相应项集的频繁项目集。由图2可见,基于关联规则分析的数据挖
7、掘就是通过两种算法交互挖掘出用户设定的最小支持度和最小可信度的集合的经过。13关联规则Apriori算法Apriori算法是首先限定待选项集的规模大小,然后对数据库进行扫描和计算并确定待选项集能否得以频繁使用14。其实现经过如下:扫描数据库,分析每个项目出现的次数,生成1候选集C1;给出基于用户预先设定的最低支持度1频繁集L1;连接运算生成2候选集C2,其中C2=L1*L1;给出基于用户预先设定的最低支持度2频繁集L2;统计计算经过时C2中每个元素出现的次数;将步骤重复k次,用Lk1连接得到Ck=Lk1*Lk1,且Ck=则停止计算;利用Lk1连接得到Ck,由于其子集是不频繁项集,所以(k1)项
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 图书 信息化 数据 挖掘 技术管理 探究 精品 文档
限制150内