国外先进数据挖掘工具的比较分析.pdf
《国外先进数据挖掘工具的比较分析.pdf》由会员分享,可在线阅读,更多相关《国外先进数据挖掘工具的比较分析.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第2 9 卷2 9 1 6 1 t t 计算机工程2 0 0 3 年9 月发展趋势,热点技术文章号:I o o m 0 4 2 8(2 帅3)1 6 _ 0 帅I m 3文_ 晦艰珥:A中田分类粤lT P 3国外先进数据挖掘工具的比较分析张薯类(南京农业大学信息科技学院,南京2 1 0 0 9 5)捕蔓:近年来,园外l 辅续推出了-些先进的数据挖掘工具。国内也在不断地引入这些数据挖掘 二具。随着数据挖掘工具的不断涌现,如何选择适合证北自身特定需要的数据挖掘r 再。已成为企业引八数据挖掘拉术的一大难题e 文章在摘要概述数据挖掘技术背景昀基础上,从食_ k 应用的埔堑,仝而洋缃地比较分析了当前国外
2、先进的数据挖掘工具。关t 诩:数拊挖捌;知识发现;数据挖掘工具A n a l y s i sa n dC o m p a r i s o no fO v e r s e a sL e a d i n gD a t aM i n i n gT o o l sZ H A N GX u e y i n g(C o l l e g eo f I n f o r m a t i o nS c i e n 钟a n d t e c h n o l o g y,N a n i i n g U n i v e r s i t yo lA g r i c u l l u r c N a n i i n g2 1
3、 0 0 9 5)l A b s t r a c!lm t h ep a s iy e a r s,b f e i g nc o i n p a n i I:=sa n d i n s t i t u t i o n sh a v ep r o d u c e d m a n ya d v a n c e dd a t a m i n i n g t o o l s-A tp r e s e n t m o r ea n d i l l o r c t o o l sh a v e b c c nh l l r t K k l c c di m oC h i n aI o w i d v e
4、lt h e,g r e a t e s tp r o b l e mi sh o wt oc h 小)s co n cd a t am i n i n gt 0 0 1 w h i d lf i t s1 0t h es p e c i t i cb u s i n e s so l0 1)Cc o m p a n y 1 1 i sp a p e ra i m s I oa l l a l y z ea n dc o m p a r ek i n d so fb e a d i n gd a t a m i n i n g t o o l s【K e)o r r i s l1)岫i l l
5、 i n i n g;K n o w l e d g ed i s c o v e l y:D a l a m i n i n g t 0 0 1l 概述数据挖掘正成为计算机科学和技术应用的一大研究热点。m 奖H 人I:智能坍会主办的K D D 例际研讨会已经召开r 7 次,研究煎点逐渐从发现方法转向系统应用。一些章题会议也把数辩挖撕I 和知识发现列为议题之,数据库、人工帮能、信息处瑚!、知识:程等锁域的国际学术刊物也纷纷开辟K D D 章l 趣或专列。例如I E E E 的K n o w l e d g ea n dD a t aE n g i n e e r i n g 会刊出版由K D
6、D 技术专刊;以半月刊K n o w l e d g eD i s c o v e r yN u g g e t s 为代表的K D D l H 予出版物和D ME m a i C l u b 论坛。G a r l n e rG r o u p 的一次高级技术调查结果显示,“未来3 5 年内将对_:f:q k 产生深远影响的5 大关键技术”之前的是数槲挖扣【和人1:智能,“未来5 年内投资焦点的1 0 大新兴技术”前州f 矗垃,f 行处理体系和数据挖掘;麻省理工学院的“科技n 删挣公;I I i“改变未来的l O 项新*科技趋势”之怂数札e 挖掘;荚国罔家科学基金会的数据库研究项目中,K D
7、D 被#,J 为最有价值的项日。2 数据挖掘工具特性比较数越 挖捌l:具市场分为3 个部分:(1)通用数据挖掘工具包括:S A gE n e r p r i s eM i n e r、I B MI n t e l l i g e n tM i n e r、U n i e a P R W、S P S SC l e m e n t i n c、S G IM i n e S e t、O r a c l eE a r w l n平|I A n g o s sK n o w l e d g e S e e k e r;(2)综合数据挖掘工具能提供管删报告、在线分析处删和在酱通结构p 的数据挖掘能力。如:
8、C o g n o sS c e n a r i o 午l l B t t s i n e s sO b j e c 如;(3)面向特定应用的数据挖掘【:具包括K D I(零售)、0 p t i o n s C h o i c 叫保险)、H N C(欺诈行为探查),H l U n i c a M o d e l I(市场)。玑陶外比较有影响的典型数据挖掘系统有:S A S 公l 习的E n t e r p r i s eM i n e r、I B M 公司的I n t e l l i g e n tM i n e r、S G I 公司的M i n e,S e t、S P S S 公司的C l
9、e m e n t i n e、R u l e Q u e s tR e s e a r c h 公司的S e e 5、还柯C o v e r S t o r y、E X P L O R A、K n o w l e d g eD i s c o v e r yW o r k b e n c h、D B M i n e r、Q u e s l 等。参见h t t p:w w wd a t a m i n i a g l a bc o n l,该网科i 提供了许多数据挖掘系统和工具的性能测试报告。订荧这屿数据挖掘工具的简要内容可参考其网列。1“。我们用表格的形式(表I,见后2 页)对这些数据挖掘:
10、具进行了分析和比较经分析可以看出,S A g 完仝以统计理沦为基础,功能强大,有完蔷的数据探索功能。但难以掌握,要求是高级统计分析专业人员结果难以理解。价格也极其昂贵,而n 是租赁模式。I B M 的E x t e r p r i s eM i n e r 简单易用,是理解数据挖掘的好的开始。能处理大数据量的挖掘,功能一般,可能仅满足要求没有数据探索功能,与其他软件接口箍,只能用D B 2,难以发布。结果美观,但同样不好理解。O r a c l e 功能较弱,使用不方便,没有数据探索功能,市场份额也小。O r a c l e 2 0 0 2 年9 月欲摊出其自己的数据挖掘_:_ I 二具。S
11、P S S 是S A g 的强有力竞争对手,也以统计理论为基础,功能强大,有完备的数据探索功柏,也较易掌握,性价比较高,有能力处理大数据量,而且S P S S 具有方便的发布和集成功能使得结果形式完命在系统设计人员掌握之中。其它数据挖掘工具,|;I I N C R 只能接T e r a d a t a,曾是S P S S 的合作伙伴刚推i _ l 自己的挖掘工具,在某J!方面还不太成熟。由于不町能对所有数据挖掘工具都有直接应用经验而I=L 数据挖掘工具在不断更新,定期或不定期地有新版本出现。溺此,奉文i;i:r 能会迪瀑一些氟要的评仙属性,请尽可能参阅各种:I:具的技术文档。总之,1 i =业
12、在选择数据挖掘 二具时需要考虑很多附豢,很难按照一个固定的原则给数据挖掘工具排一个优劣次序。应根据企业特定的应用需求加以选择。国外许多行业等已经大量利用数据挖掘工具来协助其业务括动,国内在这方面的应用还处于起步阶段,研究和学习国外先进的数据挖掘I:其是很有必要的。基盒疆日:南京农业大学青年科技创新基金资助项H作者蕾舟:张雪英【t 9 7 0-】女讲l I I|j、博士生,t 要研究方向为智能信息 盘索和W e b 数据挖掘收藕B 蠢:2 0 0 2 0 8 一0 7 万方数据囊It 嚣髑工其性囊比较比括C l c n l e n l i l w S P S SI n l e l l l g e
13、 n tM i l e rD a r w i nS O LS e r v e r2 0 mS A S掘廿,1 1 犍I I j MI)O r a c l e 1 h i n k i n gM a c h i n e sN C RM I c m 绷nS A SI n s t h u l eD B M i n e rI e c h n c l l c,g y供I 2)O m c l e 9 i 柑自新f 1 1 1 2 蜘IH逃f l(O m c l eM i n i n g O p l i 椰)1 t 1:1 1 打甜、l eC l S P D M没冉捌I I 么柑不i S P S S JE l
14、 I I n l j没响赴f|幺特刖S E M M A戢机升忻挖蜘(O L A M);I|的仃“、沦、r C R I S p-D M的山法沦山。浊沦l l 元规则甘引h、H l!l 朴J 囱l 亩1 1 博户终I B M 队为数据挖1)D 刑i n 只陡先成少付mN C R 流P l l 址;M S1 蚶址引埘小s A s 公司HI】融八多种*h!坡现_ I _ I l 解啼晰:rJ 征们l i +i抑肿r 人多拙辫川山丁跳乏钾浊兜成一寤义商卅6 U+i l ,l k 务柏为M S甘多F l-甫思姆1 2 J l l f l m J 槭性 Pq l,6 J 趣i“f f r户烂h 艇抽n q!
15、I 常址的数州挖掘I Ij q i l+l地S Q L I I J)艟h 壳f j l U f f lJ q k约、窟舰9 l i J P,7 导蛙最刊川2)共 i E 忧过川1 刖此他f l J雌。2)甚铷r 数撕挖捌过教*探索B I 最统解珧耻。2)最统J m 能较全”址 一以I I。描f l+书J m把j 什f 1-山个的企性癣I 州关0 京的竹浒一帆处州b。蛀i l l l。3 j 乐纯*仇r崩业U r,缔结介刊数抓人胆井川帕参,。3)高膻依靠I;u 廿J i 罩让一模,“利-技宅帮帕知i J-艇州 2*nf 4,1 i!J *j-洲分训忆绝常低r J0 门n 0n ,i q k0 家
16、自J U l一出施i hI I)M O I蝶。川蚰对-碰化Jn 韩个介埘q l 女l i外舟舯“沂性,4)J 场份瑚 1 潍州伸博f 柑9 j 啦数I 部 3-s i 川拽n-:挖蜘的蛳少骤f 1:钳川盘t 州7I)适I r 多种 蚺”最H 柯I I:;:i i g!f i 的啦仪I IJ(11 U n i x 系缱h 必坝址c,i;!【B,l g l!l i P1 世没有fL 何l 矩l 求lJ F证1 1 丁多利一近川丁#剃一排f l 采台数“:!I t 4 9 t#钟乳:浦。2,槲艘小披s,j、f I ls 鼎蜘k 诚入O r a c l ed a l a l m s e s+救(E T
17、 e m d a t a 龃叭M S 鲥、U i 拦1”最绒,绒。基IO l I 他I t【摧州垭过将撇。推戤州i i _ i|1 需型“杂的空水空什,或者衄过敦州H?州峨山“n:的玳蔷,f 1 i f,g 转-d 以连接再E x c e l f 1 故扣;键小挝州数_|l l=J 1:_ l 主;傺f 1 比较近卉韬。州-氟统舡捌i 施术珏八其嗡r I 铺酏叫I:利不I l l Jn 0 数撼赴t s l(I q 挫谥U 一呲柞询凡他敦掘乐鲢,3)E x c e l 仆数没钉七H 关槲源。提供半。3)条驯数懈J 裢扪燧d、m¥释r 系驯数蜊小拙1 0胜小钍巧川pJ m 过迎接竹一1 的A,j
18、、垭过仕川“如n 0州税化摊I l l I,为棚一节肯_ l 秆l U 桃化抖I l lJl,j 剃化掸I f l j 幕r博十些骤均i J 视化7 1 t l h l蚪I l l If F;。搏,n1 1 l J 雠编数拊l f 讹化性求缸船舶 挺 J l:了州计较强m0 L A l 有i j 桃化抖P。蚪琏 啦矾定帛1 个健扎m 雄川户补“j J a v a(1 I JJ I I 户胁魁m m“术埔曲l4 t 川眦挺f J t l+7S P S S I 1 4 j 桂心托t 健山儿自抽 人n 0 仆礼核心站予值山 擞柳昨日f 挫坛为C l e n m n t i l l eM S f l+
19、为1 1 1:摊址人S A S 为l 4 1 h im M 悖凡S i m o nF n 咄l业范干址埘过再利一仆t l i t 女术盯能J J。I B M术轴九。O m e l eJ 睫m 韭敦谢仝球雏钔商n q 泵缱 I I O A 软川f。h、川数圳凡 j+:1 n l e l l i t+m n lD u t i l b a s e能山朱解挑商,4 t f 4 j i!i呐1,班m l 南坫徙J 4 :乩I 啦龇蚍进D m-i V i n 1 婴经蠊“3-曲,D M n 瞄j j|缆廿*i j 盘S y s t e m sR c 辨B r 曲L a b-够点”人付I P t J 套返意
20、味卅阻轼f l 将七副:抉褂数1 1 t 1 4 1 叫 J l f乏崩业J 州|J 蚌骋什敦撕挖o r a t o r y a l J 址D B M i n e l饯川*I,J j t 探l i I 凡收入水拧,”-J j:发f 性术茌州-捌I H 统|r e c h n o l o g y 避!J|蛙馒饪啦默挖盐【;卦芷i 告计析岫能世们个窜f*瓠料挖mn q 州纵掘系统,捌白S P S s 定f pr f F 灯+r k1)讣柚挑缸mJ,前掣糊外mf H 束做数婀w 斗越N C R 新轼仆啊?山M Sf)搿震价侪较懂f(鲋i 简啦扣n 世甜剜币O 呐r:乩悭斑掷咪投入锵腱1 和椎蔷。2)
21、竹浊1f f J螂虻m 一“品s Q L m 绁仆m川-州惦打”,1,婴5 s 啦F,v e w#|J i l l I 就l-j 吼I I 山惮们羊I h _ 哟什钔的不址年模,“瞰置l 的制讣曲I:垭为了J 竹性T抛价料脚泼不J t。2)操们t的O L A P 业戚 1 数删挖搠。斌吐S P S凡H 卅毋【I B M川都址弃户衙婴考啦f f J P I i J Fe r a d a t a 的竞争商。2)瓶蟠纠p挺抽世求世s 砒砸时问n o j f 训i i f t 常赴 j 蜢仆柬J 垃木。3)托十多竹m 服舟能j J J“-乩的鳊剃和冲r 凡批采岛缎桃I l 讣吼c f _ f f 户r
22、 I,q 学碰数龌卅竹_ f 阿收入。器f:的岳现篙世个0 门r 价鼾不会离曩=现“i J l l+l 葵q g f li j i 0 舭人抑H 州帕j 立r t 8 1 拧补2)仃I t,I F 至会服务船斗|L f 4 食C P U 仪仪绋也鞍难。3),玳巾:徘 1 _。2 lf 瞳啦乖f 雌摊供m 必f l!J 软州盘持个川户。4)扎l l d 甘”泄、构蚋浒m f 由咀即牌护和樽,“缎上_ l 忤谢术捉l a“世个m 常择埘幢川的IB U 避自小甜业韭,4+j 御蚪的竹川州t f j【I;收入H f I I 这楚咀减少商业0 客己儿米解趴I(1 i l i,3JC I e l l l
23、e n t l i l e 关泉抉褂 收旆的止f 性们的其己日U 趣注H 竹IJ 州m m?挑n蜘火为f 价帕鬟J 土2 一 万方数据比 z“忖C l c I”e 1 1 m 1 S I S SI m 口l l i b,e n tM i n e rD a r w i nT e r a d a t aM I n e fS o LS e r v e rS A S彀州)!蔷C l e m e n l i n c 轴n o r 世I)没白敦锕玳蔷城数I)蕞木I:灶个址校 儿,1 埘i t 埘N C RM S l 篮1&秣垃冒了全部毒姐过M i c m 蝴I Ln r 尘相:n 0 数批挖彗【J l l
24、:舒州谴J J 此J 能依 K”浊的 lh 过H 米进横n q 数据仓J?日lM Ss O I 粜峋敏州性埘S Q L S e r v c r 0 1 A P过P 色抓 _ L r 的数t lI)B 2 的自眦数州镐1 J d 时剐迅人址f n 雌r 缩小甲台读 的彀进 此【-过f-包括M a n a g e r 虫耻讲札|:m 挤J m 他不需世H r j J J 睫束尘毗“1 彝2)忽略敛槲挖掘j 址剧“他班抓敦撕m 缶多刊-关系数J l l:阿最蛆过s Q i,赴i f i J 求址p n户螋刘敌掘进 址州螋。3)敌槲玳蔷_ l:J j 能K 冉统数州n f 世没柏D B 2 州0 篮州
25、,f-篮f f“拦#j 刊技术f。附蚴*J 卜转D B 2。2)r 数柳然 j 槲蜊0 啦知B!褂D 耻帕数料话。,q l|J;j 虐j _ J f 肿岛删洲价他米珊庄分析埘下坫F f J 为廿H i 而世性l l 的业樽托术I)C J i-J W 化1,流f n儿乎没宵统n 法,I)前篮额外目I l p 独的I 儿米i)色含OL A I 简刚的W抛供儿干晰能,t l 戍毒种数槲挖J “0C =竹卅他,JI 挺m 删了链抻:控制嗍随诎数掘址州l l 醚,j。l hT-D a h_ I _ J 能址睦J“一铺证、f)c 包括自帕成热数蜘仆*,乜抓概盘 Ir“,L I I:I 收抉。2)山特州n:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 国外 先进 数据 挖掘 工具 比较 分析
限制150内