C6应用数据分析模型—微能力认证(作业) (12).doc
《C6应用数据分析模型—微能力认证(作业) (12).doc》由会员分享,可在线阅读,更多相关《C6应用数据分析模型—微能力认证(作业) (12).doc(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、YOUR LOGO原 创 文 档 请 勿 盗 版数据模型分析的方法从目前的数据库及数据仓库建模方法来说,主要分为四类。 第一类是大家最为熟悉的关系数据库的三范式建模,通常我们将三范式建模方法用于建立各种操作型数据库系统。 第二类是Inmon提倡的三范式数据仓库建模,它和操作型数据库系统的三范式建模在侧重点上有些不同。Inmon的数据仓库建模方法分为三层,第一层是实体关系层,也即企业的业务数据模型层,在这一层上和企业的操作型数据库系统建模方法是相同的;第二层是数据项集层,在这一层的建模方法根据数据的产生频率及访问频率等因素与企业的操作型数据库系统的建模方法产生了不同;第三层物理层是第二层的具体实
2、现。 第三类是Kimball提倡的数据仓库的维度建模,我们一般也称之为星型结构建模,有时也加入一些雪花模型在里面。维度建模是一种面向用户需求的、容易理解的、访问效率高的建模方法,也是笔者比较喜欢的一种建模方式。 第四类是更为灵活的一种建模方式,通常用于后台的数据准备区,建模的方式不拘一格,以能满足需要为目的,建好的表不对用户提供接口,多为临时表。 下面简单谈谈第四类建模方法的一些的经验。 数据准备区有一个最大的特点,就是不会直接面对用户,所以对数据准备区中的表进行操作的人只有ETL工程师。ETL工程师可以自己来决定表中数据的范围和数据的生命周期。下面举两个例子: 1)数据范围小的临时表 当需要
3、整合或清洗的数据量过大时,我们可以建立同样结构的临时表,在临时表中只保留我们需要处理的部分数据。这样,不论是更新还是对表中某些项的计算都会效率提高很多。处理好的数据发送入准备加载到数据仓库中的表中,最后一次性加载入数据仓库。 2)带有冗余字段的临时表 由于数据准备区中的表只有自己使用,所以建立冗余字段可以起到很好的作用而不用承担风险。 举例来说,笔者在项目中曾遇到这样的需求,客户表客户ID,客户净扣值,债项表债项ID,客户ID,债项余额,债项净扣值,即客户和债项是一对多的关系。其中,客户净扣值和债项余额已知,需要计算债项净扣值。计算的规则是按债项余额的比例分配客户的净扣值。这时,我们可以给两个
4、表增加几个冗余字段,如客户表客户ID,客户净扣值,客户余额,债项表债项ID,客户ID,债项余额,债项净扣值,客户余额,客户净扣值。这样通过三条SQL就可以直接完成整个计算过程。将债项余额汇总到客户余额,将客户余额和客户净扣值冗余到债项表中,在债项表中通过(债项余额客户净扣值/客户余额)公式即可直接计算处债项净扣值。 另外还有很多大家可以发挥的建表方式,如不需要主键的临时表等等。总结来说,正因为数据准备区是不对用户提供接口的,所以我们一定要利用好这一点,以给我们的数据处理工作带来最大的便利为目的来进行数据准备区的表设计。数据分析模型在教学中的应用现代社会已经进入一个“信息化”时代,而信息的主要载
5、体是数据,在当今信息化社会中扮演着非常重要的角色。任何行业的各个领域都存在着海量数据,这些杂乱无章的数据隐含着一些本质规律,而这些规律将为各行业的决策者进行科学的推断与决策提供理论依据。数据分析就是讨论如何对这些纷繁复杂的数据进行分析,1揭示其中隐含的内在规律、发掘有用的信息,为决策者的正确决策提供理论依据。“数据分析”是信息与计算科学等专业的必修课,是一门实用性很强的学科,它最大的特点就是“让数据说话”。2,3该课程的教学目的是使学生全面了解并掌握数据的描述性分析、推断性分析的理论和方法,形成根据实际问题去收集、整理和分析数据,从中获得有用信息的统计思维方式,其内容丰富,方法众多。因此,在教
6、学中,要结合学科的特点,强化基本思想、基本步骤的教学,增加实际案例,注重培养学生建立数学模型和应用计算机软件的能力,增强学生的数据分析意识,才能不断提高教学质量。一、目前数据分析教学中存在的问题1.理论教学与实践教学的比重不协调有的数据分析教学以数据分析软件的教学与应用为主,对理论讲得过少;有的教学又过多注重理论教学,用于实际应用的课时较少;有的将理论教学与实践教学分为两个学期,使得学生对理论不想学,实践应用时又缺乏理论做指导。2.学生学习的积极性不高,存在厌学现象现在,许多大学生学习动机功利性较强,只对他们认为将来在工作中用得着的课程感兴趣,而对其他课程则仅仅追求及格。虽然数据分析方法也是一
7、门应用性很强的学科,但其需要的基础理论要求比较高,而信息与计算科学专业的数据分析教材多以理论为主,学生普遍认为数据分析讲述的抽象的理论方法在一些实际工作中很少用到,即使用到,也可以借助现成的工具加以解决,更加之有的学生没有掌握好该课程的先修课程“概率论与数理统计”,导致本课程的学习更加困难。因此,很多学生对“数据分析”课程不感兴趣。3.部分学生课堂参与性不强课堂上由于种种原因,师生互动有限,整体学习效果一般。现在真正符合学生特点的数据分析教材也不多,多数教材存在与专业脱节、例题陈旧等不足。种种原因导致了“数据分析”教学内容的选择存在随意性和盲目性,甚至存在着教学内容因教材而设的现象,不能很好地
8、为专业素质的培养提供服务。4.教学方法与考核方式不科学现在主要的教学方法单一,教学手段单调,教师根据教学大纲完成教学任务,学生学习教师课堂上讲的东西;教师根据教材内容布置作业,学生完成作业,然后教师批改作业;最后进行期终考试,学生应付考试,拿到了学分。由此造成教师传授知识,学生被动地接受知识,学生能否运用数据分析的理论来解决实际的问题,则不得而知,不利于提高学生利用所学知识解决实际问题的能力。二、“数据分析”课程教学的几点体会1.优化教学内容,强化基础理论和基本方法的教学“数据分析”的理论与方法内容丰富,涉及面广,应用范围大。它的主要内容包含数据的描述性分析、多元回归分析、方差分析、主成分分析
9、、典型相关分析、聚类分析、判别分析等。数据分析各部分之间相互联系,具有系统的理论和方法,而且数据分析的理论研究还会进一步地发展。因而课堂教学内容的优化,将会对教师的上课效率与学生的学习效果产生极大的影响。例如,主成分分析与典型相关分析这两部分内容既有相同点又有各自的应用范围,可以将它们结合在一起进行讨论。同时,为了有助于学生今后的继续学习和方法的有效应用,应该重视数据分析基本理论、基本方法和基本步骤的教学和训练,使他们掌握数据分析基本理论和基本方法,掌握各主要内容的模型、概念与理论及其应用。如讲解线性回归模型时,对于参数的最小二乘估计和统计推断内容,应对一些定理和公式逐步推导,让学生不仅掌握了
10、定理的内容和证明技巧,搞清楚了有关的计算过程,而且为编写线性模型的统计计算程序以及改进最小二乘方法奠定基础。又如讲解聚类分析与判别分析时,要让学生了解它们都有各自的应用范围。聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中;而判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组。在实际应用中,又常常将聚类分析与判别分析结合应用,也就是先利用聚类分析方法将样品进行合适的分类,再运用判别分析方法将新出现的样品划分到已有的类别中去。由于“数据分析”内容较多,而课时又不足,所以在教学中可以适当淡化较复杂的基础理论证明
11、过程,加强教学内容的优化组织,在理论教学的基础上加强应用教学。2.加强案例教学,提高学生学习兴趣兴趣是学生最好的老师,只有学生对“数据分析”课程有了学习的兴趣与动力,学生才能学好该课程,才能将其理论知识与方法应用于实际。而案例教学是一种以学生为中心,对现实问题和某一特定事实进行交互式探索的过程,能够有效提高学生的学习兴趣。因而,在课堂教学中,我们应该从实际问题出发,精选具有充分代表性、源于实际问题的典型例题与案例,让学生对案例中的问题进行思考、分析、研究,选择适当的数据分析方法对问题进行分析,结合数学软件进行计算,最后对计算过程和结果进行讨论,形成最后的总结报告。例如,在讲解聚类分析与判别分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- C6应用数据分析模型微能力认证作业 12 C6 应用 数据 分析 模型 能力 认证 作业 12
限制150内