《数据分析课程教案.docx》由会员分享,可在线阅读,更多相关《数据分析课程教案.docx(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、广西民族师范学院数学与计算机科学系(部、中心)数据分析课程教案 课程代码:0410422501_ 总学时周学时: 51/3 开课时间:2015年8月31日第1周至第 17周 授课年级、专业、班级:信息本131 使用教材: MATLAB数据分析方法李柏年著 教研室: 基础数学教研室 授课教师:黄恒秋 一、课程教学计划表(宋体小四)章 次内 容讲 授实 践绪论数据分析概述00一MATLAB基础(四个综合案例)54二描述性分析51三回归分析54四判别分析54五主成分分析24六聚类分析(K-均值聚类)24七神经网络24总学时2625 二、教案正文(标题宋体小四)绪论(一) 教学目的:使学生对数据分析有
2、初步的认识、了解数据分析的市场需求与发展形势、了解数据分析所需掌握的技能以及职业发展规划与学习途径。(二)教学重、难点:1重点;2难点;(三)教学方法、手段:(供参考)教师讲授( ),课堂讨论( ),多媒体教学( ),当堂测验( ),提问式教学( ),实验( )。 内容见数据分析概述PPT第一章 MATLAB基础复习(一)教学目的:通过4个案例,复习MATLAB的基础知识及编程技能。(二)教学重、难点:1重点;MATLAB基本数据结构与编程技能。2难点;MATLAB编程技能。(三)教学方法、手段:(供参考)教师讲授( ),课堂讨论( ),多媒体教学( ),当堂测验( ),提问式教学( ),实验
3、( )。第1节 基础案例一、 矩阵的应用已知矩阵A=1 2 3 4;5 6 7 8;9 10 11 12;13 14 15 16;编写一个程序脚本或函数,命名为test1,其任务包括:1)定义矩阵A2)分别求矩阵A第1列和第4列元素值之和。3)分别求矩阵A第2行和第3行元素值之和。% 1) 定义矩阵A A=1 2 3 4;5 6 7 8;9 10 11 12;13 14 15 16; % 2)分别求矩阵A第1列和第4列元素之和 sum_c2=sum(A(:,1); sum_c4=sum(A(:,4); % 3)分别求矩阵A第2行和第3行元素之和 sum_r1=sum(A(2,:); sum_r
4、2=sum(A(3,:);二、 元胞数组的应用 以下为一个元胞数组矩阵的输出结果:B = 考勤日期 实到人数 班级人数 2013-01-01 39 40 2013-01-02 38 40 2013-01-03 37 40编写一个程序脚本或函数,命名为test2,其任务如下:1)定义矩阵B2)根据矩阵B,计算出勤率(实到人数/班级人数),并获得出勤率矩阵C,其输出结果参考如下所示:C = 考勤日期 出勤率 2013-01-01 0.9750 2013-01-02 0.9500 2013-01-03 0.9250 % 定义矩阵BB=考勤日期,实到人数,班级人数;2013-01-01,39,40;2
5、013-01-02,38,40;2013-01-03,37,40;% 定义矩阵C及计算出勤率C=cell(4,2);C1,1=考勤日期;C1,2=出勤率;for i=2:4 Ci,1=Bi,1; Ci,2=Bi,2/Bi,3;end三、 图像绘制以下2008年1月份前半个月的牛肉价格和猪肉价格数据的Excel文件截图编写一个函数,命名为test3,输入参数为文件名称变量filename,输出结果为对应文件中价格的平均值mean_price,同时绘制一个按日期从小到大排序的价格走势图。比如,分别输入“2008年1月前半个月的牛肉价格数据.xlsx”和“2008年1月前半个月的猪肉价格数据.xls
6、x”这两个文件,则输出对应的结果如下所示。function mean_price=test3(filename)% 输入:Excel文件名称% 输出:平均价格% 加载原始数据,并去掉首行后按日期排序,rawdata=xlsread(filename);rawdata=sortrows(rawdata(2:end,:),1);% 获取价格序列,并计算平均值Y=cell2mat(rawdata(:,2);mean_price=mean(Y);% 绘图X=1:length(Y);plot(X,Y);end 第2节 提高案例一、 试卷难度指数的计算今有一个班级某科目考试成绩的记录,试卷分5道大题:选择
7、(满10分)、填空(满15分)、判断(满5分)、计算(满49分)、应用(满21分)。电子表格中记录了该班级所有同学每道大题的得分,如下:任务为计算每道大题的难度指数(平均得分/总分)和试卷的平均难度指数(每道大题的难度指数的平均值)。function avg,C=cofin(name)% 预定义数组,用于存放各题难度指数和平均难度指数C=0 0 0 0 0 0;% 各题总分B=10,15,5,49,21;% 提取数据data=xlsread(name);A=data(:,4:8);% 计算各题得分均值avg=sum(A,1)/length(A(:,1);% 计算各题难度指数for i=1:5C
8、(i)=avg(i)/B(i);end% 计算平均难度指数C(6)=mean(C(1,1:5);end调用函数计算avg,C=cofin(难度指数计算.xls)二、 销售数据统计三个产品(产品ID分别用1、2、3来表示)2008年四个季度的销售量和销售金额数据,存放在文件名为salesdata的Excel文件中,数据截图如下编写一个无返回值的函数,命名为test4,任务如下:分别统计计算每个产品2008年的销售量总和及销售金额总和,并将统计结果整理,输出到Excel文件中,命名为test4_result.xlsx,其输出结果如下。function test4()% 评分说明:程序实现方法多种多
9、样,以下程序仅供参考% 加载数据及处理data=xlsread(salesdata.xlsx);data=data(:,1),data(:,3),data(:,4);% 定义统计数据矩阵及进行统计stat_data=zeros(3,4);for i=1:3 stat_data(i,1)=i; stat_data(i,2)=2008; stat_data(i,3)=sum(data(data(:,1)=i,2); stat_data(i,4)=sum(data(data(:,1)=i,3);end% 结果整理及输出field=产品ID,统计区间,销售量总和,销售金额总和;stat_data=ve
10、rtcat(field,num2cell(stat_data);xlswrite(test4_result.xlsx,stat_data)end调用函数计算 test4() 实验案例今有某班级的学生考勤登记表(1表示到勤、0表示缺勤)、课堂表现登记表(百分制)、平时作业登记表(A:100;A-:90;B+:80;B:70;B-:65;C:60,空缺记0分)、期末考试成绩表。规则如下:1) 考勤5次,满分100分,缺勤一次扣20分。2) 平时作业3次,作业成绩3次取平均值3) 平时成绩=0.5*作业成绩+0.3*考勤成绩+0.2*课堂表现成绩4) 期评成绩=0.7*期末考试成绩+0.3*平时成绩
11、。5) 如果期末成绩小于50分,平时成绩等于期末考试成绩,直接进入补考行列。请根据记录的数据,给出该班级每位同学的平时成绩和期评成绩。function test(name,num,c)% name-Excel文件名称% num-班级人数% c-作业次数% 作业处理,rawdata=xlsread(name,平时作业记分表);zuoye=rawdata(5:5+(num-1),4 5 6 7 8);A=zeros(length(zuoye(:,1),5);for i=1:length(zuoye(:,1) for j=1:5 if strcmp(zuoyei,j,A) A(i,j)=100; e
12、lseif strcmp(zuoyei,j,A-) A(i,j)=90; elseif strcmp(zuoyei,j,B+) A(i,j)=80; elseif strcmp(zuoyei,j,B) A(i,j)=70; elseif strcmp(zuoyei,j,B-) A(i,j)=65; elseif strcmp(zuoyei,j,C) A(i,j)=60; else A(i,j)=0; end endenddat=xlsread(name,学生考勤登记表);kaoqin=dat(1:num,6 10 15 18 21);kaoqin=sum(kaoqin,2);dat=xlsre
13、ad(name,课堂表现记分表);ketang=dat(1:num,4);C1=sum(A(1:num,:),2)/c;%作业C2=100*(kaoqin/5);%考勤C3=ketang;%课堂表现F1=0.5*C1+0.3*C2+0.2*C3;%平时成绩dat=xlsread(name,期末考试成绩);F2=dat(1:num,4);%考试成绩F=0.3*F1+0.7*F2;%期评总成绩total=F1,F2,F;total=roundn(total,-1);for i=1:length(total(:,1) if total(i,2) test(期评成绩计算数据.xls,34,3);第二章
14、 描述性分析(一)教学目的:要求学生掌握基本统计量分析的概念,包括均值、中位数、分位数、三均值、方差、标准差与变异系数、样本极差与四分位数极差、偏度与峰度;要求学生掌握基本的可视化图形实现,包括散点图、柱状图、饼图、直方图、子图;要求学生掌握总体分布的正态性检验方法,包括样本QQ图、Lilliefors检验;要求学生掌握基本的多维数据数字特征,包括样本均值向量、样本协方差矩阵、样本相关系数矩阵。要求学生掌握基本的数据变换方法,包括极差变换与标准化变换。(二)教学重、难点:1重点;基本统计量中的均值、中位数、分位数、方差、标准差与变异系数、偏度与峰度;可视化图形中的散点图、柱状图、饼图、直方图、
15、子图;正态性检验方法中的样本QQ图、Lilliefors检验;多维数据数字特征的样本均值向量、样本协方差矩阵、样本相关系数矩阵。数据变换方法中的极差变换与标准化变换。2难点;偏度与峰度的理解。(三)教学方法、手段:(供参考)教师讲授( ),课堂讨论( ),多媒体教学( ),当堂测验( ),提问式教学( ),实验( )。第1节 基本统计量与数据可视化一、 样本数据的基本统计量(一) 均值、中位数、分位数、三均值 1. 理论介绍(1) 均值公式: (2) 中位数公式:(3) p分位数公式:(4) 三均值公式 2.程序例子:例2.1.1(二)方差、标准差与变异系数 1.理论介绍(1)方差公式(2)标
16、准差公式(3)变异系数公式 2. 程序例子:例2.1.1 (三)极差、四分位数极差与异常点判别 1.理论介绍 (1)极差计算公式,(已大小排序)(2)四分位数极差R1=Q3-Q1。 (3)上截断点:Q1+1.5*R1 (4)下截断点:Q3-1.5*R1 2.程序例子:例2.1.3(四)偏度与峰度 1. 理论介绍(1)偏度公式 (2)峰度公式 2. 程序例子:例2.1.4二、样本数据可视化(一)理论介绍1.散点图plot2.柱状图bar3.饼图pie34.直方图hist5.子图subplot(二)程序实现 补充程序例子第2节 数据分布及检验(正态分布)一、 样本QQ图 设总体服从正态分布,来自总
17、体的样本为x1,x2,xn,其次序统计量,则平面上n个点的散点图称为样本QQ图 二、Lillifors正态分布检验lillietest 三、程序例子 补充程序例子 第3节 多维数据特征与数据变换一、 多维数据特征(一)理论介绍1.样本均值向量公式2.样本协方差矩阵3.样本相关系数矩阵 (二)程序实现function S,R,Z=SRZ()X=xlsread(data.xls); %获取Excel中的数值数据S=cov(X); % 计算样本协方差矩阵R=corrcoef(X); % 计算样本相关系数矩阵Z=zscore(X); % 计算样本标准化矩阵end二、数据变换(一)理论介绍(板书)1.极
18、差变换2.标准化变换 (二)、程序实现(补充例子)function Y,Z,Z1,Data=change()Data,=xlsread(data.xls);% 读取数值数据Y=zeros(size(Data); % 预定义极差变换矩阵Z=zeros(size(Data);% 预定义标准化变换矩阵for j=1:length(Data(1,:);% 循环对每列进行计算 Y(:,j)=(Data(:,j)-min(Data(:,j)/range(Data(:,j);% 极差 Z(:,j)=(Data(:,j)-mean(Data(:,j)/std(Data(:,j);% 标准化endZ1=zsco
19、re(Data);% 标准化变换命令,等价于Zend第三章 回归分析(一)教学目的:要求学生掌握一元线性回归模型、多元线性回归模型的基本概念及程序实现。(二)教学重、难点:1重点;一元线性回归模型、多元线性回归模型的基本概念及程序实现。2难点;理解回归模型的显著性检验相关概念及原理。(三)教学方法、手段:(供参考)教师讲授( ),课堂讨论( ),多媒体教学( ),当堂测验( ),提问式教学( ),实验( )。第1节 一元回归模型一、 一元线性回归模型引例:1)一则新闻中,国家旅游局长表示,到2020年中国旅游业总收入将超过3000亿美元。他是如何做出这样的预测的呢? 旅游总收入(Y) 居民平均
20、收入(X1) 2)子女的身高(Y) 父母的身高(X)变量之间的相互关系,主要有三种:1)确定的函数关系 Y=f(X)2)不确定的统计相关关系 3)没有关系 不用分析以上两种例子都属于第2种情况。(一) 一元线性回归模型的基本概念1.回归模型Y因变量(随机变量),x为自变量(确定的变量),为模型系数,。每给定一个x,得到Y的一个分布。2.回归方程(两边取数学期望) 每给定一个x,便有Y的一个数学期望值与之对应,他们是一个函数关系。 一般地,通过样本观测数据,可以估计出以上回归方程的参数,其一般形式为: 其中为对期望值及两个参数的估计。 3.回归方程的参数估计对总体(x,Y)进行n次独立观测,获得
21、n组数据(称为样本观测值) (x1,y1),(x2,y2),(xn,yn) (画出一个散点图和一条拟合直线进行解释) 如何对这些观测值给出最合适的拟合直线呢?最小二乘法,其基本思想是真实观测值与预测值(均值)总的偏差平方和最小,即 求解以上最优化问题,即得到: 其中于是建立经验公式模型 例3.1.1 除此之外,我们还可以使用多项式拟合的方式进行估计 x=23.80,27.60,31.60,32.40,33.70,34.90,43.20,52.80,63.80,73.40;y=41.4,51.8,61.70,67.90,68.70,77.50,95.90,137.40,155.0,175.0;%
22、 作散点图figure(name,散点图)plot(x,y,*) xlabel(x(职工工资总额) ylabel(y(商品零售总额) % 计算最佳参数Lxx=sum(x-mean(x).2);Lxy=sum(x-mean(x).* (y-mean(y);b1=Lxy/Lxx;b0=mean(y)-b1*mean(x);disp(回归方程y=b1*x+b0的参数估计)disp(b1=)disp(b1)disp(b0=)disp(b0)%多项式回归拟合命令应用于求解线性回归拟合。p,s=polyfit(x,y,1); %注意取n=1y1=polyval(p,x);x0=75;y0=polyval(
23、p,x0);Y,delta=polyconf(p,x0,s,0.05);I=Y-delta,Y+delta;figure(name,拟合图)plot(x,y,k*,x,y1,r-);disp(对x0=75进行预测)disp(y0=)disp(y0)disp(对x0=75的预测的置信区间)disp(I=)disp(I) 4. 回归直线的拟合优度 总离差平方和 回归平方和 残差平方和 可以证明: 取不同的值,必然不同,故RSS是由于Y与X有显著线性关系时,x取值不同而引起Y的变化。ESS是由于Y与X可能不是具有明显的线性关系及其他方面的因素产生的误差。 如果RSS远远大于ESS,说明是什么?说明是
24、回归的线性关系显著,可以用一个指标公式来计算 判决系数(可决系数),值越大,直线拟合越好 5. 显著性检验 (1)线性关系的检验 第1步:提出假设 两个变量之间的线性关系不显著 1为模型的自由度(模型的自变量个数) 误差的自由度(为样本个数) 两个变量之间的线性关系显著 第2步:计算检验统计量 第3步:作出决策 如果,拒绝原假设,表明两个变量之间线性关系是显著的。 如果,不拒绝原假设,没有证据表明两个变量之间线性关系是显著的。 (2)回归系数的检验 第1步:提出假设 第2步:计算检验统计量 第3步:作出决策 如果,拒绝原假设,表明两个变量之间存在显著的线性关系。 如果,不拒绝原假设,表明两个变
25、量之间不存在显著的线性关系。 6.残差正态性检验 QQ图及lillietest检验 7.预测 (1)点估计 (2)区间估计(二)、一元线性回归建模实例通过例3.1.7讲解完整的一元回归建模流程。最后总结一般的建模流程如下:1. 作散点图(plot命令)初步观察,散点图存在大致的线性关系2. 建立线性回归方程(ployfit命令计算回归系数和ployval命令计算函数值)3. 误差估计与可决系数分析4. 回归方程关系显著性F检验5. 回归关系显著性t检验6. 残差分析7. 预测% 1.绘制散点图,观察数据分布x=80 86 98 90 120 102 95 83 113 105 110 100;
26、 y=2350 2400 2720 2500 31502680 2630 2400 3080 2920 2960 2860;figure(name,散点图及拟合图)plot(x,y,*) xlabel(x(雏鹅重) ylabel(y(70日龄重) % 2.建立直线回归方程n= size(x,1); p,s=polyfit(x,y,1); y1=polyval(p,x); hold onplot(x,y1,r-) disp(-)disp(回归系数为:)disp(p) % 3.计算拟合优度TSS=sum(y-mean(y).2); %总离差平方和RSS=sum(y1-mean(y).2);%回归平
27、方和ESS=sum(y-y1).2) ; %残差平方和R2=RSS/TSS; %决定系数R2.disp(-)disp(决定系数为:)disp(R2=)disp(R2)% 4.线性关系显著性检验F=(n-2)*RSS/ESS; %计算的F统计量F1=finv(0.95,1,n-2); %查F统计量0.05的分位数F2=finv(0.99,1,n-2); %查F统计量0.01的分位数disp(-)disp(统计量F=)disp(F)disp(0.05分位数F1=)disp(F1)disp(0.01分位数F2=)disp(F2)% 5.回归系数显著性的检验T=p(2)/sqrt(ESS/(n-2)*
28、sqrt(sum(x-mean(x).2) ;%计算T统计量T1=tinv(0.95,n-2); %t统计量0.05的分位数T2=tinv(0.99,n-2); %t统计量0.01的分位数disp(-)disp(统计量T=)disp(T)disp(0.05分位数T1=)disp(T1)disp(0.01分位数T2=)disp(T2)% 6.残差检验figure(name,残差分析图)bar(x,y-y1); legend(残差);figure(name,正态分布样本QQ图)normplot(y-y1);h=lillietest(y-y1);disp(-)disp(残差正态性检验值h=)disp
29、(h)% 7.预测x1=85,95,115; yc=polyval(p,x1);disp(-)disp(预测值)disp(yc)Y,Delta=polyconf(p,x1,s); I1=Y-Delta,Y+Delta;disp(预测置信区间)disp(I1)二、一元非线性回归实例(一)非线性回归命令 1.函数定义fun=inline(f(x),参变量,x) 2.拟合命令nlinfit 3.预测命令nlpredci 4.回归置信区间命令nlparci(二)实例分析例.% 1.数据散点图及拟合图x=2:16;y=6.42,8.2,9.58,9.5,9.7,10,9.93,9.99,10.49,10
30、.59,10.6,10.8,10.6,10.9,10.76;figure(name,散点图及拟合图);plot(x,y,k*);% 2.曲线拟合% 2.1 函数定义 fun=inline(x./(b(1)*x+b(2),b,x); % 2.2 求解方程获得初始值%a,b=solve(6.42*(2*a+b)=2,10.76*(16*a+b)=16);b0=0.084,0.1436;% 2.3 拟合及预测beta,r,J=nlinfit(x,y,fun,b0); y1=x./(beta(1)*x+beta(2); hold onplot(x,y1,r-)legend(原始数据,拟合曲线)% 3.
31、预测x=17ypred=nlpredci(fun,17,beta,r,J);% 4.回归模型参数的95%的置信区间ci = nlparci(beta,r,J);% 5.结果输出disp(回归系数)disp(beta)disp(预测x=17)disp(ypred)disp(回归系数的置信区间)disp(ci)例.% 1.散点图及拟合图t=1:15;y=352 211 197 160 142 106 104 60 56 38 36 32 21 19 15;figure(name,散点图及拟合图);plot(t,y,k*);% 2.曲线拟合% 2.1 函数定义fun=inline(b(1)*exp(
32、b(2)*t),b,t); % 2.2 求解方程获得初始值%a,b=solve(a*exp(b)=352,a*exp(2*b)=211);beta0=587.22,-0.5118; % 2.3 拟合及预测beta,r,J=nlinfit(t,y,fun,beta0); y1=nlpredci(fun,t,beta,r,J); hold onplot(t,y1,r-),legend(原始数据,非线性回归)xlabel(t(照射次数) ylabel(y(残留细菌数)% 3.预测x=16ypred = nlpredci(fun,16,beta,r,J);% 4.回归模型系数的95%置信区间ci =
33、nlparci(beta,r,J);% 5.输出结果disp(回归系数)disp(beta)disp(预测x=16)disp(ypred)disp(回归模型系数的置信区间)disp(ci)第2节 多元线性回归模型一、多元线性回归模型(一) 多元线性回归模型的基本概念 1回归模型对于总体的n组观测值它应满足式其中相互独立,且设,记,则其矩阵形式可以表为:,其中即为待估计的向量 2. 回归方程两边取期望值,即得到其回归方程如下 其一般的形式如下: 其中分布为期望值及回归系数的估计。 3. 参数估计 (1)的参数估计(最小二乘法,过程略) ,则(2)的参数估计(推导过程略) ,其中 H称为对称幂等矩
34、阵4. 拟合优度判定系数 总离差平方和 回归平方和 残差平方和 可以证明: 拟合优度判定系数: 5. 显著性检验 (1)线性关系的检验 第1步:提出假设 线性关系不显著 p为模型的自由度(模型的自变量个数) n-p-1误差的自由度(为样本个数) 线性关系显著 第2步:计算检验统计量 第3步:作出决策 如果,拒绝原假设,表明线性关系是显著的。 如果,不拒绝原假设,没有证据表明线性关系是显著的。 或者通过计算p值 如果 其中为给定的显著水平 (2)回归系数的检验 第1步:提出假设 其中,而是主对角线上第k个元素的平方根。 第2步:计算检验统计量 第3步:作出决策 如果,拒绝原假设,表明两个变量之间
35、存在显著的线性关系。 如果,不拒绝原假设,表明两个变量之间不存在显著的线性关系。 或者通过计算p值 如果 其中为给定的显著水平 6.残差正态性检验 QQ图及lillietest检验 7.预测(1)点估计 (x0直接代入回归方程即可)(2)预测值的置信区间 其中,其的置信区间为 % 1.获取数据及处理data=xlsread(data.xls);x0=data(:,1:4);y=data(:,5);n,p=size(x0); x=ones(n,1),x0; % 2.调用多元线性回归命令% 返回值一次为回归系数、回归系数置信区间、残差、残差置信区间、统计量(% 判定系数、F统计量、F统计量对应的p值、方差的无偏估计)db,dbint,dr,drint,dstats=regress(y,x); disp(回归系数)disp(db)disp(回归系数置信区间)disp(dbint)disp(拟合优度判定系数)disp(dstats(1)disp(线性关系显著性检验p值)disp(
限制150内