模式识别和机器学习数据挖掘的区别与联系.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《模式识别和机器学习数据挖掘的区别与联系.docx》由会员分享,可在线阅读,更多相关《模式识别和机器学习数据挖掘的区别与联系.docx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别和机器学习、数据挖掘的区别与联系(一)模式识别的诞生与人工智能自动控制起始是从工 业革命之后,人们就希望设计出减少人工干预,能自己进行 调节(regulate)的机器,工程领域开始想出了根轨迹等等土招 儿。等到40年代,伴随二战的需要,计算机的产生,维纳 (Wiener) 信息论和控制论(Cybernetics)的祖师爷正式开 仓厅这两仑O控制论这个词是维纳根据古希腊词根创造出来的。用老爷子 自己的1是Cybernetics : or control and communication in the animal and the machine,/ o animal 先 不提,那是人家
2、天才小时候就对生物学有兴趣;在工程方面, 控制论的control主要是围着machine转的。因为祖师开山 的时候是二战中,初衷就是要让机器代替人进行防空武器的 随动瞄准。维纳是数学家,写出来的理论和公式,让当时的工程师们看 着实在头疼。但是维纳不仅仅献学家和搞理论的,实际 工程问题,人家二战中参与了,也想到了。最典型的就是对 噪声的处理。典型的负反响控制系统框图里,从传感器的到给定输入 之间,画一根线就连过来了。可是实际中,传感器有误差, 测量回路中有包含噪声,需要的测量值甚至根本就是淹没在 问题打交道,自然熟能生巧。这么看工科很easy,经3佥也没 什么神秘的。但是每个人的时间总是有限的,
3、如果专门在一 个领域花了比别人多的时间,那么他的经验就变得珍贵起来 了。止匕外接触实际四个字也不是人人都喜欢的。实际中没 有书本上的理想条件,只有各种层出不穷的想不到的问题。 挑战性一点不比在理论上探索低。工科的思维就是事前对可 能遇到的实际问题的复杂性的敏感和估计,事中遇到问题时 的能想法子解决。可以对性能妥协、将就;可以对参数近似、 也可以试验出来;可以把原本充满创新的玩意改得朴实无华 或者面目全非一切只为了这玩意最后能工作起来、能动 换(然后再慢慢往好看、好用上改)。嗯,跑题了,继续。现在图像清楚得已经堪比人脸库了,识 别效果还不错。找客户来验收吧!可是给客户演示完,人家 突然问系统能不
4、能集成到一起,做到DSP和嵌入式系统上; 还要这样,还要那样嗯?等等,你忽然想到好像程序是 在双核PC上跑的,好像用了好些个MATLAB导出的函数, 有个算法还是R里面的 你嘴上说是,脸上没反响,但心里浮现的却是潜伏里陆 桥山审马奎时从牙缝里挤出来的台词:我真想撕烂你的嘴!你当初不是说可老板下了死命令,大家只好大干快上干起来!作为开发算 法的你,责无旁贷啊! 软件彻底用C和C重写!不能用好使的MATLAB 了,API 真理,简单的矩阵运算要费劳资这么大劲。不知不觉1礼拜 过去了,终于写好了。赶紧到下载到那边已经是改到第N版刚拿回来,还热乎乎的 板卡:咦,没反响?软件还是硬件问题?那边查电路,这
5、边改程序 试?呼,有影了,可是噪声咋这么严重,鼻子不是鼻子脸不是脸 的?摄像头还是板子上有干扰?软件上能再改改参数?终 于运行起来了,怎么好像卡死了 ?哦,原来是太慢了。硬件 条件比PC机差了好几个档次了,怎么办啊,换个简单一点 的算法?那性能咋办?那之前那个算法好不容易得到实验 结果不是都白做了么? 满头黑线了吧?这个人脸识别的例子有点夸张了,但不是完全虚构出来的。 通过这个例子想说的是,数据来源,软硬件的布置,性能的 取舍,参数的实验调整都是论文上看不到也写不出来的实际 工程问题。通常需要各种不同的传感器和硬件打交道,也需 要各行各业的专业背景知识。涉及图像的少不了摄像头、照 相机和图像处
6、理的知识;做水声信号和语音识别,少不了拾 音器阵列,频域方面的信号处理知识。这也就是为啥自动化, 电子,通信、甚至生物医学专业能掺和其中的原因。最后总结一下我对PR的认识:PR是因为各个领域有电脑 代替人脑的实际需求才产生的,所以是一定面向应用的。PR不是在标准数据集上验证分类算法的性能就完了,这个 是ML的事情。PR是要把ML算法在实际问题中用起来。是 理论加实际,科学和技术(虽然理论是核心)。前三节主要是围绕PR来说,就说到这吧。下面打算试着说 说我认识的机器学习算法概貌和一直没露面的数据挖掘。从这节开始,打算把M L算法的概貌描绘一下。M L领域发 展特别快,几乎所有的论文都声称自己弄出
7、一种新算法。看 论文多了之后我的体会是,如果心里没有几条线索,就分辨 不出这一堆算法的区别与联系,最后的结果是学会一堆支离 的算法,学习了苹果只知道这是苹果,给个鸭梨就不认识了, 给个苹果梨就更不明白是什么东西了。至于应用时,更不知 道哪种算法更适合自己的问题。一般都是把ML算法分成两 大类:有监督学习(Supervised Learning )和无监督学习 (Unsupervised Learning )o我觉得这其实是从输入数据的形式上分的,说这个离不了公式和图表了,不想先说这个。从ML的目的和用途来分,可以分成预测(Prediction )和数 据挖掘(Data Mining )o我觉得
8、对应用来说,这么分更有意 义些。这两大类算法的核心区别就是:预测问题更重视算法 的预测能力(Predictive Power),数据挖掘问题更重视算法 的可解释性(Interpretability)。预测之前说过了,针对的目 标变量如果是离散的类别标记,比方医学上的某种病的阴性 阳性,或者人的身份编号,就叫分类(Classification );如果 针对的连续的变量,比方股价,房价,就叫回归(Regression )o 预测能力很容易理解,我们只关心trainset上训练好的算法 在test set上面误差、误分类率要尽可能低。也就是说,模 型给出的预测要尽可能地接近实际结果。可解释性就要好
9、好说说了。简单说就是,我们更关心输入的 P维变量之间的联系,或者算法产生的预测是哪几个变量起 了主要作用,也就是说,算法给出预测结果的根据是什么。 比方商业智能(BI)上常见的购物篮分析(Market Basket Analysis )就是个典型的看中可解释性的数据挖掘问题。因 为直接有钱景,所以几乎每个讲统计的,讲数据挖掘、机 器学习的,甚至讲数据库应用的书,都要提到这个事,现在 各个购物购书网站也都在做这个事。零售商从积攒的海量顾客账单中可以挖掘出什么呢?首先, 分析哪几种商品容易同时出现在顾客的购物篮里,商场就可 以把这些看起来风马牛不相及的东西放在一起,方便顾客购 买;另一方面,分析客
10、户办会员卡时留下的个人信息,可以 分析出经常光顾本商场的是那些特征的人,这样对外投放使 广告便更加有的放矢,可望吸引更多这些类型的人来。流行的做法是每张账单作为1个p维向量,对应所有p种商 品。买了置1 ,没买置0o N张账单就组成了一张N*p的值 为0-1的表格。用流行的Apriori算法从甥居中搦屈购物模 式。比方一个 support = 0.03 , confidence = 0.87 的 Rule : 花生酱,黄油,果酱二面包这就说明,如果一个顾客同 时买了前三种东西,那么他同时买面包的可能性是87%O而 这种同时买4种东西的顾客,在总顾客中占3%o这个模式看起来平淡无奇,可是有时有很
11、奇怪的模式被挖掘 出来,忘了从哪里看到的一个例子:尿布,奶粉=啤酒,刮胡刀把这4个放一起确实提高了 销量,原因后面再说。而对客户身份信息的挖掘结果比方说是:support=0.13 , confidence = 0.8在家讲英语,有住房,职业是 professional 收入大于 $40000。那就赶紧针对这些人,在他们经常出没的地方做广告吧!注 醺这些殿“,前面的舌号里只有2 3个变量,远远小于 总共p个变量。也就是说,我们做出的预测,只依赖于所有 P个变量中特定几个变量。如果我说这就是可解释性。恐怕大家还是不明白。嗯,佛教 上阐释概t,有表诠和遮诠的说法。为了说明T概念, 表谶愎说它是什么
12、;遮I短坏说它曷十么,旗说它 不是什么,不是什么。嗯,下面再不具备可解释性的 算法比一下就知道了。比方还是N*p的矩阵,如果我想分析什么东西导致了买面包, 我把其他p-1种东西1个截距项一共N*p做为X ,面包N*1 作为Y,做个最小二乘:Beta = (X*y这个结果Beta意味着什么呢?有了这个Beta,给我任何一个的账单x ,都能给出买面包与 否的预测值y_est = x* Betao但是,看着这个回归出来的p维的Beta ,我不能像之前那样, 简单说出对买面包来说是哪几种别的商品起了更重要的作 用,也就没法想出提高销量的方法了。这就是预测能力和可解释性的区别。预测能力就是输出结果的准确
13、度,而可解释性是可以用来帮 助人们理解模式背后的原因。比方从前面那个尿布,奶 粉=啤酒,刮胡刀的购物模式,再配合顾客的年龄和性别, 就最后推断出,可能是妻子在坐月子时,年轻父亲们被打发 出来购物的。进而可以重新设计实验或者进行改进:不但把 这已发现的4种商品摆一起,而且把其他年轻父亲可能会买 的东西也摆过来试试。医学上也是这样。不是特别关注用已有的p项的因素(行为 习惯、实验条件、检查化验结果)去准确预测疾病,而更关 注如何从p个因素中发现是哪几种因素组合更容易导致疾病, 进而可以改进实验设计,改进检查,乃至改进预防和治疗的 方案。传统上统计学里作为因素分析(Factor Analysis)问
14、 题来研究,而数据挖掘使用的方法就更多,涉及的更广。而 且数据挖掘也不仅仅是用来进行变量选择和重要性分析,可 以用树、图、层次聚类之类直观的结构,描述变量之间的复 杂依赖关系。前一段有个书叫小趋势(microtrends)的,里面举了美国 社会统计学家统计出来的许多看起来奇妙的小众人群,用来 描述当今的美国社会。甚至进而有针对性地设计竞选宣传策 略,左右选举结果。这都属于看中可解释性的数据挖掘了。 总结一下预测和数据挖掘的区别:预测是偏重得到决策结果, 数据挖掘是偏重分析决策原因和过程。预测问题主要是在生物特征鉴别(人脸,语音,指纹,虹膜)、 机器视觉、目标跟踪这些领域,直接代替人进行决策。在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 机器 学习 数据 挖掘 区别 联系
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内