欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    (1.1.1)--机器学习简介.pdf

    • 资源ID:65736824       资源大小:4.47MB        全文页数:63页
    • 资源格式: PDF        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    (1.1.1)--机器学习简介.pdf

    赵卫东 复旦大学Copyright 2019机器学习导论Introduction to Machine Learning复旦大学计算机科学技术学院博士/副教授赵卫东 2001年4月毕业于东南大学,获博士学位。2001年6月起在复旦大学做博士后。2003年5月进入复旦大学软件学院,主要负责本科生和各类研究生商务数据分析、大数据核心技术和机器学习等课程的教学,2011年纽约大学访问学者。目前主要研究方向包括电子推荐、智能决策和大数据分析等。主持国家自然科学基金2项、中国博士后科研基金、上海市浦江人才、IBM Shared University Research以及20多项企业合作课题等项目。论文与著作论文与著作 已在管理科学学报、系统工程学报、Knowledge and Information Systems,Information Processing&Management,Information Systems Frontiers等国内外刊物和学术会议发表论文90多篇,其中被SCI、EI收录40多篇。出版著作智能化的流程管理以及教材电子商务模式(第二版)商务智能(第四版)机器学习案例实战商务智能 数据分析的管理视角(第四版)人机共生:洞察与规避数据分析中的机遇与误区等10多部。荣誉与奖励荣誉与奖励 主持上海市精品课程商务智能,获得上海市高等教育教学成果奖二等奖。获得上海市2015年上海市科技进步二等奖。教育部在线教育中心智慧教学之星。互联网+各行各业内容内容第1模块 机器学习概论机器学习的发展简史什么是机器学习?机器学习能做什么?机器学习与人工智能机器学习与大数据分析、商务智能、商务数据分析、数据挖掘的区别与联系第2模块 机器学习方法及其应用机器学习的常用方法以及应用(分类、聚类、统计学习等)机器学习的典型应用行业和场景机器学习的典型应用案例机器学习项目的流程机器学习的主流平台机器学习的相关语言第3模块 从事机器学习工作的准备机器学习带来的新商业机会和就业机会从事机器学习的基本要求常见的机器学习企业职位SAP机器学习学习路径与相关素材机器学习概论机器学习常见问题机器学习方法及其应用从事机器学习工作的准备机器学习机器学习定义定义 机器学习(Machine Learning)是计算机科学的子领域,也是人工智能的一个分支和实现方式。Tom Mitchell在他1997年出版的Machine Learning一书中指出机器学习这门学科所关注的是计算机程序如何随着经验积累自动提高性能。同时给出了形式化的描述:对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么就称这个计算机程序在从经验E学习。机器学习主要的理论基础涉及到概率论、数理统计、数值逼近、最优化理论、计算复杂理论等,核心要素是数据、算法和模型。机器学习的发展机器学习的发展 机器学习的发展分为知识推理期、知识工程期、浅层学习(Shallow Learning)和深度学习(Deep Learning)几个阶段。在机器学习的发展过程中,随着人们对智能的理解和现实问题的解决方法演变,大致出现了符号主义、贝叶斯、联结主义、进化主义、行为类推主义五大流派。机器学习的演化机器学习的演化时间主要成果代表人物19431956MP模型、自动机模型、符号演算、逻辑主义Warren McCullochWalter PittsAlan TuringJohn von NeumannShannon19561960sLISP、框架知识表示McCarthy/MinskyNewell&Simon1960s1970s遗传算法、进化策略、模糊集RechenbergHollandZadeh1970s1980s专 家 系 统、DENDRAL、MYCIN、PROSPECTOR、PROLOG、EMCIN等Feigenbaum Buchanan Lederberg Shortliffe1980s1990sHopfield网络、自组织网络、多层神经网络、知识工程、模糊逻辑、决策树算法等HopfieldKohonenFeigenbaumZadehQuinlan1990s2000sBoosting算法、AdaBoost、SVM、随机森林SchapireFreundVapnik2000s至今深度学习、自我特征学习、无导式学习、增强学习、分布式机器学习Hinton LeCun Bengio AndrewNg Mitchell机器学习、人工智能和数据挖掘机器学习、人工智能和数据挖掘机器学习、人工智能和数据挖掘机器学习、人工智能和数据挖掘机器学习是人工智能的一个分支,它是实现人工智能的一个核心技术,即以机器学习为手段解决人工智能中的问题。机器学习是通过一些让计算机可以自动“学习”的算法并从数据中分析获得规律,然后利用规律对新样本进行预测。数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。机器学习最近几年也逐渐跳出实验室,解决从实际的数据中学习模式,解决实际问题。数据挖掘和机器学习的交集越来越大。议程机器学习典型应用领域机器学习典型应用领域艺术创作金融领域医疗领域自然语言处理网络安全工业领域娱乐行业机器学习应用人机大战AlphaGo本质上是深度卷积神经网络CNN、加强学习RL、蒙特卡洛树搜索MCTS三者相结合的产物多分类问题输入:棋局盘面输出:各个位置的落子概率模型:卷积神经网络CNN数据来源:KGS Go Server上的16万盘6-9段的棋谱,共近3000万步机器学习应用趋势预测Google流感趋势预测社保欺诈机器学习应用反垃圾邮件系统训练email邮件预处理自动分词分类向量库词典参考待分类email初级过滤初级分类库自动分词基于内容的二次过滤用户用户参考训练模块初级分类模块基于内容的二次过滤模块机器学习应用个性化推荐社交网络分析 新时代的网络营销 为什么赢得政治选举与大数据分析联系在一起?“我们的数据将会指示我们客户该将他们的竞选广告放到哪才能让他们的目标人群最有可能看到。”机器学习应用机器学习流程机器学习是一门入门容易但精通难的学科机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解读数据、从变化的角度和时间维度把握需求以确定使用哪些数据,这是数据分析的基础机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部署使用以及学习更新。机器学习机器学习怎么怎么做做明确数据分析目标 思考:经营活动中有哪些困惑 案例分析:用户换机,23转4G,离网率上升等 明确数据分析目标是机器学习首要的重要步骤,这个步骤需要与用户进行充分的沟通。项目主题:中国移动客户细分模型中国移动客户细分模型 项目范围:本期项目以乐山市为试点城市 项目目的:按用户行为进行细分,客观反映用户需求。通过对各类人群的深入分析,为相关部门制订资费、服务、市场策略提供基础。项目内容:建立客户细分模型 结合各部门需求对客户细分群进行详细分析 协助市场经营部进行相关服务、市场活动的策划机器学习机器学习怎么怎么做做数据收集 思考:离网用户特征,23转4G,IPTV内容推荐等 收集相关的数据(内部业务系统的数据、外部数据)外部数据可以通过网络爬虫、购买或交易方式获得。充足、全面的高质量数据是机器学习的基础。机器学习机器学习怎么怎么做做数据预处理 数据可能存在着噪声、不一致、异常、个人隐私保护等各类问题。数据清理 为保证数据的质量,必要的数据治理是需要的。思考:数据的质量满足机器学习的要求吗?机器学习机器学习怎么怎么做做数据建模 思考:用户换机模型 算法本身没有绝对的好坏,不同的机器学习算法都有各自的使用范围。选择合适的建模方法或算法,算法的好坏需要实验比较确定。此阶段是机器学习的核心部分,使用精巧复杂的分析方法从数据中提取知识,包括选择建模技术、生成测试设计以及构建和评估模型。算法调优(包括参数或结构等方面)机器学习算法是科学,应用是艺术。机器学习机器学习怎么怎么做做效果评估 思考:用户换机模型效果评估?选定模型之后,就可以评估机器学习结果在多大程度上能够帮助实现业务目标。此阶段的要素包括评估学习结果,以便为机器学习的过程提供反馈。样本测试、现场抽样实验等。机器学习机器学习怎么怎么做做部署使用更新 思考:机器学习的模型是否真正解决了客户的问题?有效的机器学习结果会改善客户业务决策的效果,给客户带来价值。因为业务可能发生变化,在部署过程中需要更新机器学习的模型等。机器学习不是一劳永逸的事情(递增式学习)。机器学习概论机器学习常见问题机器学习方法及其应用从事机器学习工作的准备机器学习机器学习常用常用算法算法 为什么需要算法?算法很高冷吗?为什么要学习算法?机器学习算法分类数据可视化在机器学习中的作用:(1)视觉是人类获得信息的最主要途径;(2)可视化本身就是一种机器学习方法;(3)可视化可以作为数据预处理的方法或者是机器学习过程的表示方式。(4)机器学习的结果也可以用可视化的形式表示。数据可视化数据可视化IIIIIIIVxyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.89可视化技术案例可视化技术案例机器学习机器学习常用常用算法算法 分类算法 分类与回归的区别 决策树原理分类算法 相亲模型 根据用户ARPU值预估用户收入 回归分析是分析一个变量与其他一个(或几个)变量之间的相关关系的统计方法。分类就是通过分析训练集中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据对象进行分类。决策树、支持向量机、神经网络、朴素贝叶斯、Bayes网络、k-最近邻等是几种常用的分类方法。判定树分类算法output训练集决策树input新数据分类机器学习机器学习常用常用算法算法常用分类算法典型应用支持向量机决策树议程神经网络神经网络传统的神经网络为BP神经网络,基本网络结构为输入层、隐藏层和输出层,节点代表神经元,边代表权重值,对输入值按照权重和偏置计算后将结果传给下一层,通过不断的训练修正权重和偏置。递归神经网络(RNN)、卷积神经网络(CNN)都在神经网络在深度学习上的变种。神经网络的训练主要包括前向传输和反向传播。神经网络的结果准确性与训练集的样本数量和分类质量有关。神经网络是基于历史数据构建的分析模型,新数据产生时需要动态优化网络的结构和参数。数据挖掘常用算法数据挖掘常用算法神经网络和深度学习 多层前馈神经网络 常见的深度学习神经网络 卷积神经网络 循环神经网络议程深度学习深度学习 深度学习是通过构建多个隐藏层和大量数据来学习特征,从而提升分类或预测的准确性。与神经网络相比,层数更多,而且有逐层训练机制避免梯度扩散。深度学习包括了卷积神经网络(CNN)深度神经网络(DNN)循环神经网络(RNN)对抗神经网络(GAN)深度学习中训练集、开发集、测试集的样本比例一般为6:2:2。常见的权重更新方式包括SGD和Momentum。机器学习机器学习常用常用算法算法聚类算法 淘宝潜在用户分析 社交网络用户分析聚类分析是把一个给定的数据对象(样本)集合分成不同的簇(组)。聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可大,组内数据的差异尽可能小。K-means是一种常用的聚类算法,用户指定聚类的类别数K,随机地选择K个对象作为K个初始聚类中心。对剩余的每个对象,分别计算与初始聚类中心的距离,根据距离划到不同的簇。然后重新计算每个簇的平均值,求出新的聚类中心,再重新聚类。这个过程不断重复,直到收敛(相邻两次计算的聚类中心相同)。议程聚类算法聚类算法 聚类是基于无监督学习的分类模型,按照数据内在结构特征进行聚集形成簇群。聚集方法即记录之间的区分规则。聚类与分类的主要区别是其不关心数据的类别。聚类首先选择有效特征向量,然后按照距离函数进行相似度计算。聚类应用广泛客户群体特征、消费者行为分析、市场细分、交易数据分析动植物种群分类、医疗领域的疾病诊断、环境质量检测。议程常见聚类常见聚类算法算法基于层次聚类(Hierarchical Method)BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)CURE(Clustering Using Representatives)基于划分的聚类K均值(K-Means)基于密度的聚类DBSCAN(Density-based spatial clustering of applications with noise)OPTICS(Ordering Points To Identify the Clustering Structure)基于机器学习的聚类基于约束的聚类基于网络的聚类议程回归分析回归分析 回归分析是一种研究自变量和因变量之间关系的预测模型,用于分析当自变量发生变化时,因变量的变化值 回归分析可以用于定性预测分析和定量分析各变量间的相关关系 回归分析包括线性回归逻辑回归多项式回归逐步回归岭回归LASSO回归37多元回归分析案例通过图片识别PM2.538从衡量图像清晰程度的角度出发,对图像特征进行观察和分析,得到4个解释性变量:灰度差分的方差、清晰度、饱和度、高频含量等多元回归分析案例通过图片识别PM2.539多元线性回归的拟合优度为0.82多元回归分析案例通过图片识别PM2.5议程关联分析关联分析关联分析(Associative Analysis)通过对数据集中某些属性同时出现的规律和模式来发现其中的属性间的关联、相关、因果等关系,典型应用是购物篮分析。关联分析包括Apriori算法和FP-Growth算法。Apriori 算法的基本思想是先找出所有的频繁项集,然后由频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度。算法要多次扫描样本集,需要由候选频繁项集生成频繁项集。FP-Growth算法是基于FP树生成频繁项集的,算法只扫描两次数据集,且不使用候选项集,直接按照支持度构造出一个频繁模式树,用这棵树生成关联规则。关联分析已经在客户购物行为分析、电子推荐、产品质量检测、文档主题分析等得到了广泛应用。分布式机器学习键值对并行化的决策树算法并行化的决策树算法并行化并行化的机器学习算法的机器学习算法基于MapReduce计算框架,还有多种分布式机器学习算法:并行化的聚类算法并行化的关联分析算法并行化的多元线性回归分析数据挖掘常用算法数据挖掘常用算法推荐算法 为应对网络信息的爆炸,电子推荐系统提供一种特定的信息过滤技术,预测和展示用户可能感兴趣的商品,从而节省了用户的时间。推荐系统采用一种或者组合多种推荐方法,对用户偏好的输入数据进行处理,找出用户可能感兴趣的信息或者商品进行推荐。基于内容的推荐:需要把握用户的偏好特征,通常可以分析用户浏览过的内容,从中抽取重要的关键词,并利用文献检索的方法。然后计算商品的描述特征向量与用户的特征向量的相似程度,对候选的信息或商品集合进行过滤,产生用户可能感兴趣的推荐列表。基于协同过滤的推荐:找出与用户偏好相似的用户邻居集合,把邻居集的偏好商品集作为推荐的候选。此外,也可以寻找用户以前的偏好信息或商品的相似项目集合推荐。商品、新闻、APP、专家、影视、音乐等推荐数据挖掘常用算法数据挖掘常用算法社会网络分析-文本分析 微博用户情感分析 社会化交通导航 交通事故分析 社会网络营销机器学习概论机器学习常见问题机器学习方法及其应用从事机器学习工作的准备机器学习常见问题机器学习常见问题 数据质量问题与预处理 机器学习常见陷阱 机器学习方法的选择 机器学习结果的评价数据质量问题与预处理数据质量问题与预处理 数据质量要求数据是完整的和真实的,并且具有一致性和可靠性“垃圾进,垃圾出”数据预处理占用整个机器学习项目60%的工作量 问题数据量较少数据量过多维度灾难数据不完整异常数据重复数据数据不一致议程数据量较少数据量较少数据挖掘需要一定的数据量作支撑,尽量覆盖领域。数据量增多,其中的规律会越发明显,也更易发现与分析目标相关的因素神经网络深度学习一般来说,数据量是自变量数量的1020倍为佳。数据样本需要有足够的覆盖范围,需要覆盖与分析目标相关的维度。议程数据量过多数据量过多数据量过多时,对全部数据集进行分析要耗费更多的计算资源,要求硬件配置较高,可应用数据采样技术随机提取样本子集。对海量的同质化数据,可通过聚集技术按照时间、空间等属性进行均值等汇总,减少数据数量。数据集不平衡问题可能导致出现较大的结果误差,因此要对数据集应用采样技术或对异常数据进行复制,提高其占比。议程维度灾难维度灾难当数据中的自变量较多时,会出现维度灾难问题。特别是在矩阵数据中,其中冗余变量占比比较高时,可用数据变成稀疏矩阵,在分类算法处理时就没办法可靠地进行类别划分,在聚类算法中则容易使聚类质量下降。可采用线性代数的相关方法将数据从高维空间影射到低维空间中主成分分析(PCA)奇异值分解(SVD)议程数据不完整数据不完整数据的种类要多,种类多少直接影响数据挖掘方法的选择,可以通过编写程序抓取外部数据作为补充。数据缺失也是数据不完整的一种表现,包括了空白值、空值、无效值等。需要针对不同原因对缺失值进行数据预处理,有多种方法可以操作采用众数、中位数、均值、最短距离等方法进行人为补充通过回归或贝叶斯定理等预测缺失值删除含有缺失值的数据议程异常数据异常数据异常数据分为错误的数据和小概率事件(又称稀有事件)两类对错误数据,需要将其剔除或修正对稀有事件,如信用卡欺诈行为、垃圾邮件,需要重点分析其特征数据分析常见数据分析常见陷阱(陷阱(1)错误理解相关关系 事物间的相关性并不意味着存在因果关系,或者有可能其因果关系颠倒了 需要深入理解业务,规避大部分错误 需要分析是否由第三方变量同时引起两种变量的变化,找出其原因错误的比较对象 机器学习中的结果或效果进行比较时,容易将不同样本集进行结果比较,比较对象不合理,其结果自然无效,结论便不能成立数据抽样 数据抽样时如果出现偏差可能会影响分析结果 需要考虑采样标准数据分析常见数据分析常见陷阱(陷阱(2)忽略或关注极值 忽视极值可能失去某类样本或丢失某项重要特征 过于关注极值可能会对结果造成偏差,影响结论相信巧合数据 实验中多次重复实验可避免巧合数据的出现数据未做归一化 两个数据进行比较时,容易进行总数比较,而忽视比例的比较忽视第三方数据 搜集或使用爬虫获得更多数据使数据源更丰富过度关心统计指标 可能会忽视某些方法或结论成立的前提条件机器学习方法的选择机器学习方法的选择 理解目标要求是机器学习方法选择的关键,首先要对问题进行分类,如果数据集中有标签则可进行监督式学习,反之可应用无监督学习 熟悉各类机器学习方法的特性是分析方法选择的基础,不仅需要了解如何使用各类分析算法,还要了解其实现的原理 在选择模型前,要对数据进行探索性分析 机器学习方法选择过程中可在几个可能模型中分析选出较优的模型 选择模型后,比较不同模型的拟合程度,反复调整参数使模型结果趋于稳定机器学习概论机器学习常见问题机器学习方法及其应用从事机器学习工作的准备机器学习项目团队机器学习项目团队的组建的组建职能岗位 项目经理 业务专家 机器学习工程师 数据建模人员 可视化人员 评估人员 其他机器学习人才机器学习人才培养的难题培养的难题数理要求高学习成本高跨学科综合能力实践机会少机器学习技能要求机器学习技能要求机器学习问题从哪里来?数据从哪里来?如何像机器学习工程师一样思考?知识与技能的培养是不一样的。怎么培养技能?实践出真知!机器学习技能要求机器学习技能要求常见的机器学习语言和常见的机器学习语言和平台平台PythonRTensorFlowCaffe开源社区Github63

    注意事项

    本文((1.1.1)--机器学习简介.pdf)为本站会员(热心****k)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开