大数据的统计学08.pdf
《大数据的统计学08.pdf》由会员分享,可在线阅读,更多相关《大数据的统计学08.pdf(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区大数据的统计学基础第8周大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站http:/大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区关注炼数成金企业微信提供全面的数据价值资讯,涵盖商业智能与数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶紧掏出您的手机关注吧!大数据的统计学基础 讲师 何翠仪DATAGURU专业数
2、据分析社区统计推断 统计学:描述统计学与推断统计学根据样本数据推断总体数据的情况 样本均值总体均值 样本方差总体方差 样本比例总体比例大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区总体比例估计大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区样本比例估计总体比例 要求:1.样本要为简单随机样本 2.二项分布的条件成立 3.至少有5个成功,5个失败,即np=5,nq=5样本比例 是总体比例p的最好点估计(Point estimation)无偏而且最有效大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区例子 美国的“全国艾滋行为调查”访问了2673位成
3、人异性恋者的随机样本。其中,有170人承认,在前一年曾有超过一个性伴侣,占样本的6.36%。(这个结果可能会存在偏差,因为有人会不愿意把自己的性行为如实告诉别人,但我们在这里假设所有人都说了实话)根据以上的数据,我们可以推断,美国所有成年异性恋者中有不止一个性伴侣的比例大约是6.36%但是如果我们再做一次调查,得到的样本比例或许会不一样,假设是6.72%。那么我们应该使用哪个数据区估计总体比例呢?大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区点估计置信区间 刚才的例子中,如果实际上成年异性恋中,有6%的人不止一个性伴侣。则真实的总体比例p=0.06。“全国艾滋行为调查”的大小
4、为n=2673的样本,如果重复抽取多次的话,得到的样本比例 的分布会很接近于正态分布(中心极限定理)分布的均值:0.06 分布的标准差:(1)=0.060.942673 0.0046 所有的样本比例 中,约有95%会落在2个标准差之内,即(p-2*(1),p+2*(1))=(0.0508,0.0692)有95%的 跟p的差距的绝对值在2*(1)之内。换句话说,95%的(-2*(1),+2*(1))区间会包含正真的总体比例p大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区点估计置信区间 中心极限定理:样本比例 近似正态分布N(p,p(1-p)/n)样本比例落在尾部的概率非常小 样
5、本比例落在阴影尾部的总概率为 样本比例落在中间部分的概率为1-大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区置信区间名称解析 置信区间(confidence interval):用来估计总体参数真实值的一个区间,通常形式:估计值误差界限 误差界限(margin of error):估计值的最大误差,使用E表示 置信度(confidence level):1-临界值(critical values):/2 置信区间边界(confidence interval limits):置信上限,置信下限大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区置信区间 ,1,所以(
6、1)0,1 1 2=1 ,故 2 1 =5,nq=5 之前的例子中,样本比例 =0.0636。那么所有成年异性恋者中,有不止一个性伴侣的人所占的比例p的95%置信区间为:2 1 =0.0636 1.960.06360.93642673=0.0636 0.0092=(0.0544,0.0728)有95%的把握(0.0544,0.0728)会包含真正的总体比例大数据的统计学基础 讲师 何翠仪DATAGURU专业数据分析社区总体比例的区间估计 更精确的计算方法:(1)0,1 1 =2 1 2=+222 2 +22+2 0=1 30 点估计:样本均值 是总体均值的最好点估计无偏而且比其他统计量更有效大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计学 08
限制150内