第一章-机器学习及数据挖掘基础原理ppt课件.pptx
《第一章-机器学习及数据挖掘基础原理ppt课件.pptx》由会员分享,可在线阅读,更多相关《第一章-机器学习及数据挖掘基础原理ppt课件.pptx(59页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章 机器学习及数据挖掘基本原理王斌中国科学院信息工程研究所大数据核心技术之数据挖掘与机器学习技术探索及应用目录基本概念典型应用预备知识什么是机器学习(Machine Learning) 学习能力是人类智能的一种体现 机器学习是研究如何“利用经验来改善计算机系统自身的性能”的学科-From T. M. Mitchell TM. Machine Learning . New York: McGraw-Hill, 1997. 机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使不断改善自身的性能-来自百度百科机器学习 vs. 人类学习什么是数据挖掘(D
2、ata Mining) 数据挖掘常常也叫知识发现(Knowledge),有多种文字不同但含义接近的定义,例如“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程” 。也可以顾名思义,数据挖掘就是试图从海量数据中找出有用的知识-From U. Fayyad, G. Piatetsky-Shapiro, R. Smyth. Knowledge discovery and data mining: Towards a unifying framework. In: Proc. KDD96, Portland, OR, 82-88.机器学习 vs. 数据挖掘周志周志华华,机器学习
3、与数据挖掘。中国计算机学会通讯, 2007, 3(12): 35-44.机器学习和其他学科什么是大数据(Big Data)4V理论 海量的数据规模(volume) 快速的数据流转和动态的数据体系(velocity) 多样的数据类型(variety) 巨大的数据价值(value)大数据的魔力 Google利用大数据预测了H1N1流感的爆发 百度利用大数据成功预测2014年世界杯(从淘汰赛到决赛全部正确) 核心原因:大数据+机器学习大数据 vs. 机器学习存储分析获取高性能计算机器学习数据“大” vs. 机器学习 Its not who has the best algorithm wins, i
4、ts who has the most data. (成功的机器学习应用不是拥有最好的算法,而是拥有最多的数据!)Michele Banko, and Eric Brill. Scaling to Very Very Large Corpora for Natural Language Disambiguation. In proceedings of ACL2001, page 26-33.机器学习方法分类 机械学习(Rote learning):学习者无需任何推理或其它的知识转换,直接吸取环境所提供的信息。如塞缪尔的跳棋程序。 示教学习(Learning from instruction)
5、:学生从环境(教师或其它信息源如教科书等)获取信息,把知识转换成内部可使用的表示形式,并将新的知识和原有知识有机地结合为一体。 类比学习(Learning by analogy):利用二个不同领域(源域、目标域)中的知识相似性,可以通过类比,从源域的知识(包括相似的特征和其它性质)推导出目标域的相应知识,从而实现学习。例如,一个从未开过货车的司机,只要他有开小车的知识就可完成开货车的任务。 归纳学习(Learning from induction):教师或环境提供某概念的一些实例或反例,让学生通过归纳推理得出该概念的一般描述。归纳学习方法分类 监督学习(Supervised Learning)
6、:监督学习是从标记的训练数据来推断一个功能的机器学习任务。如分类、回归分类、回归。 非监督学习(Unsupervised Learning):无监督学习的问题是,在未标记的数据中,试图找到隐藏的结构。如聚类聚类、密度估计。 强化学习(Reinforcement Learning):强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。机器学习基本过程表示表示(Representation)训练训练(Training/Learning)测试测试(Testing/Predicting/Inference)将数据对象进行特征(feature)化表示给定一个数据样本集,从中学
7、习出规律(模型)目标:该规律不仅适用于训练数据,也适用于未知数据(称为泛化能力)对于一个新的数据样本,利用学到的模型进行预测例子:天气预报 目标:预测明天北京会不会下雨 数据:过去10年北京每一天的天气数据 那天是否下雨:是/否 那天的前一天傍晚18点的气温、相对湿度、风向、风速、气压等(特征) 某条数据: 训练:学习得到规律(模型) 预测:给定今天傍晚18点的气温、相对湿度、风向、风速、气压等、根据模型预测明天是否下雨机器学习的关键问题 【表示】如何表示数据样本? 通常用一个向量来表示一个样本,向量中选用哪些特征是关键 【训练】如何找出规律【模型+策略+算法】* 通常变成一个选择题,给你n个
8、候选的模型让你选。【模型】 确定选择的标准(什么样的模型才叫好模型)【策略】 如何快速地从n个模型中选出最好的【算法】 【测试】如何根据找到的规律进行预测*李航,统计学习方法,清华大学出版社,2013年5月问题一:如何表示样本? 向量表示法【本课程重点】 图表示法例子:图像识别例子:家庭用车判别 任务:把车分类 家庭用车/非家庭用车 样本:车 问题:如何把车表示成一个向量?选取哪些特征? 特征:价格,排量例子:心脏病预测 任务:预测病人是否会发心脏病 样本:病人 问题:如何把病人表示成一个向量?选取哪些特征? 特征:血糖,血压,血脂,心率例子:预测天气 任务:预测每天的天气如何 样本:每一天
9、问题:如何把每天表示成一个向量?选取哪些特征? 特征:温度,相对湿度,风向,风速,气压问题二:如何找出规律?模型策略算法确定要找的是哪类规律(函数形式)或者说假设空间,比如线性函数从众多可能的规律中选出最好的选择标准,比如某个损失函数最小如何快速寻找到最好结果,比如牛顿法例子:房价预测策略:最小化损失函数(误差平方和)算法:梯度下降法模型:线性函数来自http:/cs229.stanford.edu问题三:根据找到的规律进行预测 打分,根据分数作判别目录基本概念典型应用预备知识例子:网页分类例子:人脸识别例子:搜索引擎结果排序例子:垃圾邮件过滤例子:机器翻译例子:文档自动摘要例子:手写识别例子
10、:图像去噪例子:视频跟踪和智能事件分析视频跟踪视频跟踪事件分析事件分析行人跟踪行人跟踪车辆跟踪车辆跟踪打架打架交通事故交通事故例子:推荐系统例子:计算广告目录基本概念典型应用预备知识向量空间模型及文本向量向量空间模型及文本向量向量 向量(vector,也称为矢量):既有大小又有方向的量,通常用有向线段表示,记作 或者 考虑从空间坐标系原点出发(其他向量可以平移到原点出发)的向量 ,终点坐标为,我们称之为一个n维向量x1M2M 12M M x1M2M 向量的运算 向量的运算:加、减、倍数、内积(inner product,也称点积)1122121,.,.,nnnniiixyxy xyxyxxxx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第一章 机器 学习 数据 挖掘 基础 原理 ppt 课件
限制150内