金融统计统计描述精选PPT.ppt
金融统计统计描述金融统计统计描述第1页,此课件共46页哦统计描述方法统计描述方法统计描述方法统计描述方法是描述数据特征的表、图和数值等各种方法的总称实用中主要是图形法和数值法两种目的目的研究如何对客观现象的数量特征进行描述、概括,并通过图表等形式对所收集的数据进行加工处理和显示,进而得出反映客观现象的规律性数量特征第2页,此课件共46页哦第第1节节 统计描述的图形法统计描述的图形法主要内容主要内容原始数据图构成图频率分布图散点图第3页,此课件共46页哦常用的图形法常用的图形法原始数据图原始数据图按一定顺序显示各个体的数值常用的有线形图、柱状图等频率分布图频率分布图(Frequency distribution or Histogram)将样本分组,显示各组的个数构成图构成图(饼图饼图)将样本分组,显示各组的个数占样本总数的比率散点图散点图(Scatter plot)个体的一个变量值在横轴,另一个变量值在纵轴,用来揭示两个变量间的关系,是回归分析中变量取舍的重要参考第4页,此课件共46页哦图形法例:影响房价的因素图形法例:影响房价的因素对美国对美国321个商品房进行调查,获得如下数个商品房进行调查,获得如下数据据(数据来源:数据来源:Wooldridge,“Introductory Econometrics”)价格(price)、房间数(rooms)、面积(area)、建筑年代(age)等用图形法分析:价格、房间数、面积用图形法分析:价格、房间数、面积第5页,此课件共46页哦房屋价格的原始数据图(线形图)房屋价格的原始数据图(线形图)按一定顺序按一定顺序显示各个体显示各个体的数值的数值信息量大信息量大规律性小规律性小原始数据图原始数据图用于时间序用于时间序列数据时可列数据时可显示趋势显示趋势样本序号样本序号价格价格(万美元万美元)第6页,此课件共46页哦房屋价格的频率分布房屋价格的频率分布(Histogram)频率分布图将频率分布图将样本分组,显样本分组,显示各组的个数示各组的个数信息量小信息量小规律性强规律性强本图显示:本图显示:低价房偏多,低价房偏多,暗示研究结论更适暗示研究结论更适合解释低价房的价合解释低价房的价格格各价格组各价格组(万美元万美元)各价格组包含的房屋个数各价格组包含的房屋个数第7页,此课件共46页哦房间数的频率分布图房间数的频率分布图频率分布图将频率分布图将样本分组,显样本分组,显示各组的个数示各组的个数信息量小信息量小规律性强规律性强大部分房屋的大部分房屋的房间数为房间数为6、7各组包含的房屋个数各组包含的房屋个数各房间组各房间组(房间个数房间个数)第8页,此课件共46页哦房间数的构成图(饼图)房间数的构成图(饼图)饼图将样本分组,饼图将样本分组,显示各组的个数占显示各组的个数占样本总数的比率样本总数的比率7个房间的商品房最个房间的商品房最多,占总房屋数的多,占总房屋数的一半以上,其次是一半以上,其次是6个房间,约占个房间,约占1/3,占比最少的是占比最少的是10个个房间的商品房房间的商品房第9页,此课件共46页哦价格和房间数的散点图价格和房间数的散点图散点图显示两变量间散点图显示两变量间的关系的关系价格随房间数增加价格随房间数增加而上升,但趋势很而上升,但趋势很散乱,表明房间数散乱,表明房间数对房价的影响力比对房价的影响力比较有限较有限例:此房屋有例:此房屋有10个房间,价个房间,价格为格为5.4万美元万美元价格价格(万美元万美元)房间数房间数(个数个数)红线:红线:相关性相关性第10页,此课件共46页哦价格和面积的散点图价格和面积的散点图散点图显示两变量散点图显示两变量间的关系间的关系价格随面积增加而价格随面积增加而上升,趋势较强,上升,趋势较强,表明面积是影响房表明面积是影响房价的重要因素价的重要因素此房屋面积约此房屋面积约500平米,价格平米,价格为为10万美元万美元红线:红线:相关性相关性价格价格(万美元万美元)房屋面积房屋面积(m2)第11页,此课件共46页哦第第2节节 统计描述的数值法统计描述的数值法主要内容主要内容平均指标:算术平均数、几何平均数变异指标:标准差、离散系数相关指标:相关系数第12页,此课件共46页哦平均指标平均指标平均指标平均指标说明样本某一变量取值的一般水平或取值的集中趋势平均指标分为平均指标分为数值平均数数值平均数和和位置平均数位置平均数数值平均数:对统计数列的所有各项数据来计算的平均数,有算术平均数、几何平均数等位置平均数:根据样本中处于特殊位置上的个别单位或部分单位的数值确定的代表值,有中位数、众数数值平均数分为总体平均数和样本平均数数值平均数分为总体平均数和样本平均数第13页,此课件共46页哦样本平均数样本平均数样本平均数使用简单算术平均数公式计算样本平均数使用简单算术平均数公式计算式中:式中:为算术平均数为算术平均数 为样本个体总数为样本个体总数 为第为第 个个体的值个个体的值第14页,此课件共46页哦算术平均数的主要数学性质算术平均数的主要数学性质变量值与其算术平均数的离差之和等于变量值与其算术平均数的离差之和等于0变量值与其算术平均数的离差平方和最小变量值与其算术平均数的离差平方和最小表明样本平均值是不偏的(unbiased)统计量表明样本方差是衡量离散程度最准确的指标第15页,此课件共46页哦总体平均数(加权平均数)总体平均数(加权平均数)(此内容涉及概率论基础知识)(此内容涉及概率论基础知识)总体平均数即随机变量的期望值(总体平均数即随机变量的期望值()离散型随机变量的期望值连续型随机变量的期望值总体平均数例总体平均数例投一枚硬币,设 X 为结果的随机变量,正面取值1,反面取值0,则期望值第16页,此课件共46页哦总体平均数例:指数分布(总体平均数例:指数分布(1)(此内容涉及概率论基础知识)(此内容涉及概率论基础知识)某旧机器某旧机器平均平均1年发生损毁故障次数年发生损毁故障次数=12次,则次,则平均平均故障间隔故障间隔时间多长?时间多长?因为故障后即损毁,所以故障间隔时间就是该机器的使用寿命,因为故障后即损毁,所以故障间隔时间就是该机器的使用寿命,故障可随时发生,故使用寿命是随机变量故障可随时发生,故使用寿命是随机变量虽然已知虽然已知平均平均使用寿命为使用寿命为1个月,但是技术人员更关心的是:个月,但是技术人员更关心的是:具体具体使使用寿命为用寿命为1个月、个月、2个月、个月、3个月等的概率个月等的概率描述这些不同描述这些不同具体具体使用寿命的概率的函数称为密度函数使用寿命的概率的函数称为密度函数第17页,此课件共46页哦总体平均数例:指数分布(总体平均数例:指数分布(2)(此内容涉及概率论基础知识)(此内容涉及概率论基础知识)指数分布的概率密度函数指数分布的概率密度函数前述旧机器的概率密度函数前述旧机器的概率密度函数问题问题如果另一个旧机器的=4次/年,两者使用寿命的概率分布有什么区别?第18页,此课件共46页哦总体平均数例:指数分布(总体平均数例:指数分布(3)(此内容涉及概率论基础知识)(此内容涉及概率论基础知识)使用寿命(年)x概率 f(x)不同的年平均故障次数下,使用寿命的概率分布的区别:低(即故障率低)的机器,寿命短的概率较低,寿命长的概率较高第19页,此课件共46页哦几何平均数几何平均数几何平均数是算术平均数的变化方式,计算几何平均数是算术平均数的变化方式,计算方法为方法为几何平均数的使用几何平均数的使用对于随时间变化的变量,计算其各期的平均值,必须使用几何平均数例:GDP平均增长率、平均利率等第20页,此课件共46页哦几何平均数例:复利几何平均数例:复利单利与复利的本质区别单利与复利的本质区别单利:利息不计入下期增长基数复利:利息计入下期增长基数单利与复利的积累公式单利与复利的积累公式单利:复利:第21页,此课件共46页哦几何平均数与复利几何平均数与复利复利以几何平均数的形式反映了货币增值的复利以几何平均数的形式反映了货币增值的规律规律复利的利率等于几何平复利的利率等于几何平均数减去均数减去1第22页,此课件共46页哦复利例复利例一笔一笔3年期贷款第年期贷款第1、2年的年利率为年的年利率为5%,第第3年的年利率为年的年利率为10%,求该贷款的年平均,求该贷款的年平均利率。利率。解:解:第23页,此课件共46页哦变异指标变异指标变异指标变异指标样本中各个体数值背离分布中心的程度也可以衡量平均数代表性的大小变异指标的种类变异指标的种类极差、平均差、标准差其中最常用的是标准差平均指标和变异指标统称为基本统计量平均指标和变异指标统称为基本统计量第24页,此课件共46页哦样本标准差样本标准差样本标准差样本标准差样本各个体数值与样本平均数的离差平方的平均数的开平方根,标准差的平方称为方差样本标准差的特点样本标准差的特点不易受极端数值的影响,能综合反映差异程度用平方的方法消除各标志值与平均数离差的正负值问题,可方便地用于数学处理和统计分析运算第25页,此课件共46页哦样本标准差例:样本标准差例:12名商学院毕业生的起始月薪数据样本名商学院毕业生的起始月薪数据样本毕业生毕业生起始月薪起始月薪($)128502295033050428805275562710728908313092940103325112920122880第26页,此课件共46页哦起始月薪起始月薪 样本平均数样本平均数 对平均数的离差对平均数的离差 对平均数的离差的平方对平均数的离差的平方28502940-9081002950294010100305029401101210028802940-60360027552940-1853422527102940-2305290028902940-502500313029401903610029402940003325294038514822529202940-2040028802940-6036000301850第27页,此课件共46页哦离散系数离散系数离散系数离散系数指消除平均数影响后的变异指标,其形式为相对数。常用的离散系数为平均差系数和标准差系数标准差系数公式标准差系数公式离散系数的作用离散系数的作用用来对比不同水平的同类现象,特别是平均数代表性的大小标准差系数小的总体,其平均数的代表性大;反之,代表性小第28页,此课件共46页哦离散系数例离散系数例某年级一、二两班某门课的平均成绩分别为某年级一、二两班某门课的平均成绩分别为82分和分和76分,其成绩的标准差分别为分,其成绩的标准差分别为15.6分和分和14.8分,比较两分,比较两班平均成绩代表性的大小班平均成绩代表性的大小解解一班成绩的标准差系数为:一班成绩的标准差系数为:二班成绩的标准差系数为:二班成绩的标准差系数为:因为因为 ,所以一班平均成绩的代表,所以一班平均成绩的代表性比二班大性比二班大第29页,此课件共46页哦相关关系相关关系 相关关系(相关关系(Correlation)的定义)的定义指现象之间客观存在的、在数量上的变化受随机因素的影响,非确定性的依存关系。相关关系以相关系数度量相关关系的主要特点相关关系的主要特点相关关系表现为数量上的依存关系,即一个现象在数量上发发生变化,另一个现象也会相应发生数量上的变化现象之间数量依存关系的具体关系值是不固定的相关关系既有线性相关、也有非线性相关第30页,此课件共46页哦协方差(协方差(1)协方差(协方差(Covariance)衡量两随机变量间线性相关关系的数值。正值表示正相关,负值表示负相关样本协方差(样本协方差(Sample covariance)思考思考互相独立的两随机变量间的协方差为什么为0?第31页,此课件共46页哦协方差(协方差(2)总体协方差总体协方差如果如果X、Y 互相独立,则互相独立,则第32页,此课件共46页哦协方差(协方差(3):总体协方差例):总体协方差例投两次硬币投两次硬币X 表示第1次结果,正面取值1,反面取值0Y 表示第2次结果,正面取值1,反面取值0求协方差,并指出协方差为0的条件解解第33页,此课件共46页哦协方差(协方差(4):总体协方差例):总体协方差例第34页,此课件共46页哦相关系数相关系数样本相关系数样本相关系数(correlation coefficient)衡量两随机变量间线性相关关系的标准化数值,取值是正负1(含)之间的一个实数统计描述中一般使用相关系数表示两变量间的相关关系,作统计描述中一般使用相关系数表示两变量间的相关关系,作为标准化数值,可在不同变量间作比较为标准化数值,可在不同变量间作比较第35页,此课件共46页哦相关关系的种类与相关系数相关关系的种类与相关系数相关关系按相关的方向分为:相关关系按相关的方向分为:正相关:现象的数量同方向变动;相关系数0负相关:现象的数量反方向变动;相关系数0相关关系按相关的程度分为:相关关系按相关的程度分为:完全相关:一种现象的数量变化完全由另一个现象的数量变化所确定;|相关系数|=1不相关:现象之间彼此互不影响,其数量变化各自独立;相关系数=0不完全相关:界于前两者之间;第36页,此课件共46页哦相关关系分析中应注意的问题相关关系分析中应注意的问题例例1:Anscombes 四组图四组图统计学家统计学家Anscombe于于1973年设计的四组年设计的四组数据数据揭示的问题:单纯的基本统计量及相关关系揭示的问题:单纯的基本统计量及相关关系不一定真实反映数据的主要特征不一定真实反映数据的主要特征解决途径:在统计量分析的基础上,还要对解决途径:在统计量分析的基础上,还要对数据作图示描述数据作图示描述第37页,此课件共46页哦例例1(续续1)四组图的数据四组图的数据数据特点如下表数据特点如下表:(其中(其中 Mean:均值:均值 Variance:方差:方差 Correlation:相关系数):相关系数)数据表数据表(每组由(每组由x、y随机变量构成)随机变量构成)第38页,此课件共46页哦例例1(续续2)四组图的图示四组图的图示4组数据中,组数据中,X、Y的均值、方差及的均值、方差及X-Y相关系数都相同,但图示相关系数都相同,但图示的相关性截然不同。只有的相关性截然不同。只有Y1呈现通常认为的相关性呈现通常认为的相关性第39页,此课件共46页哦相关关系分析中应注意的问题相关关系分析中应注意的问题(续续)例例2:虚假相关虚假相关虚假相关(虚假相关(pseudo correlation)两随机变量间源于偶然的相关关系解决途径:针对社会经济现象的统计分析一解决途径:针对社会经济现象的统计分析一定要以一定的理论为基础定要以一定的理论为基础第40页,此课件共46页哦注:横轴-年份;纵轴(左)-美国GDP;纵轴(右)-太阳黑子;均为对11年平均值的偏离程度(百分比)Source:Modis,T.,2007,Sunspots,GDP and the stock market,Technological Forecasting&Social Change 74,1508-1514例例2(2(续续)虚虚假相关例:假相关例:太阳黑子太阳黑子与与GDPGDP的正的正相关相关第41页,此课件共46页哦本章总结本章总结应用统计研究中,对数据进行描述的步骤应用统计研究中,对数据进行描述的步骤(1)作图形法统计描述(2)作数值法统计描述作统计描述时应注意以下问题作统计描述时应注意以下问题(1)使用这两种方法时,应结合所描述出的特点作相关背景介绍,比如房价例中采样以低价房为主等(2)作出的图、表应规范,可参照后面内容第42页,此课件共46页哦规范的图形法统计描述(规范的图形法统计描述(1)相关背景介绍如:相关背景介绍如:本图显示,低价房本图显示,低价房偏多,因此本研究偏多,因此本研究结论主要合解释低结论主要合解释低价房的价格价房的价格各价格组各价格组(万美元万美元)各价格组包含的房屋个数各价格组包含的房屋个数图图1 房屋价格的分布图房屋价格的分布图图下方必须有编号和标题坐标轴必须有文字说明第43页,此课件共46页哦规范的图形法统计描述(规范的图形法统计描述(2)相关描述相关描述如:如:价格随面积增加而价格随面积增加而上升,趋势较强,上升,趋势较强,表明面积是影响房表明面积是影响房价的重要因素价的重要因素价格价格(万美元万美元)房屋面积房屋面积(m2)图图2 房屋价格与面积的关系房屋价格与面积的关系第44页,此课件共46页哦规范的数值法统计描述(规范的数值法统计描述(1)PRICE(价格万价格万$)AREAM(面积面积M2)Mean(平均值平均值)9.61 195.72 Median(中值中值)8.59 191.01 Maximum(最大值最大值)30.00 477.15 Minimum(最小值最小值)2.60 68.28 Std.Dev.(标准差标准差)4.32 64.56 表表1 房屋价格和面积的基本统计量房屋价格和面积的基本统计量表上方必须有编号和标题相关描述相关描述 表一般只要三根线第45页,此课件共46页哦规范的数值法统计描述(规范的数值法统计描述(2)PRICEAREAAGEROOMSBATHSNBHPRICE1.00 AREA0.65 1.00 AGE-0.33-0.05 1.00 ROOMS0.44 0.53-0.05 1.00 BATHS0.63 0.66-0.36 0.60 1.00 NBH-0.22-0.06 0.07-0.06-0.12 1.00 注:AREA=面积,AGE=房龄,ROOMS=房间数,BATHS=卫生间数,NBH=neighborhood=附近社区数表表2 房屋价格等相关变量间的相关系数房屋价格等相关变量间的相关系数第46页,此课件共46页哦