《统计方法基础知识》课件.pptx
统计方法基础知识ppt课件无缒继菏彳拣鹈夫漳宅CATALOGUE目录统计学简介统计数据的收集与整理描述性统计概率与概率分布参数估计与假设检验方差分析相关分析与回归分析时间序列分析与预测01统计学简介统计学是一门研究数据收集、整理、分析和推断的科学,旨在探索数据背后的规律和趋势。统计学的方法和工具广泛应用于各个领域,如社会科学、经济学、生物学、医学等。统计学的基本概念包括总体、个体、样本、随机抽样、概率等。统计学的定义19世纪末,随着概率论的发展,统计学逐渐成为一门独立的学科。20世纪以来,随着计算机技术的飞速发展,统计学的应用领域不断扩大,方法也更加丰富多样。统计学起源于17世纪中叶,最初用于国家的人口普查和土地测量。统计学的发展历程在社会科学中,统计学用于研究社会现象和人类行为,如调查分析、民意测验等。在经济学中,统计学用于研究经济数据的规律和趋势,如市场预测、财务分析等。在生物学和医学中,统计学用于疾病诊断、药物研发和临床试验等。在物理学中,统计学用于研究自然现象和实验数据的分析,如物理实验数据分析等。01020304统计学在各领域的应用02统计数据的收集与整理统计数据的来源通过问卷调查、访谈等方式获取的原始数据。在科学实验、临床试验等实验活动中获取的数据。通过观察、监测等方式获取的数据,如气象观测数据。政府、企业、社会组织等公开的数据报告和资料。调查数据实验数据观测数据公开资料抽样调查普查实验法观察法统计数据的收集方法01020304从总体中选取一部分样本进行调查,以推断总体情况。对全体研究对象进行调查,以获取全面、准确的数据。通过实验设计和操作获取实验数据。通过观察和记录获取数据,如市场调研中的观察法。对数据进行预处理,如缺失值处理、异常值处理等。数据清洗将数据按照一定标准进行分类,以便更好地分析。数据分类将数据以图表、图像等形式展示,以便更好地理解和分析。数据可视化将数据以表格形式展示,以便进行数据处理和分析。数据表格统计数据的整理与展示03描述性统计每个数据值在数据集中出现的次数。频数频数与数据集总体的比值,表示数据值出现的相对频率。频率频数与频率所有数据值的总和除以数据量,表示数据的平均水平。平均数将数据从小到大排序后,位于中间位置的数据值。中位数出现次数最多的数据值。众数集中趋势的度量每个数据值与平均数的差的平方的平均数,表示数据值的离散程度。方差标准差变异系数方差的平方根,也是衡量离散程度的重要指标。标准差与平均数的比值,用于比较不同数据集的离散程度。030201离散程度的度量一种常见的概率分布,特点是中间高、两边低、左右对称。正态分布数据分布不对称,其中偏度表示分布的偏斜程度。偏态分布描述数据分布形态的峰部特征,峰度大于3时表示峰部尖锐,小于3时表示峰部平坦。峰度数据分布形态的描述04概率与概率分布描述随机事件发生的可能性大小的数值,取值范围为0,1。概率必然事件不可能事件互斥事件概率等于1的事件,表示该事件一定会发生。概率等于0的事件,表示该事件一定不会发生。两个或多个事件不能同时发生的事件。概率的基本概念描述离散随机变量的概率分布情况。离散概率分布只能取有限个或可数个值的随机变量。离散随机变量二项分布、泊松分布等。常见的离散概率分布P(X=k)=binomial(n,k,p),其中n是试验次数,k是成功次数,p是单次成功的概率。离散概率分布的数学表达形式离散概率分布ABCD连续概率分布连续概率分布描述连续随机变量的概率分布情况。常见的连续概率分布正态分布、指数分布、均匀分布等。连续随机变量可以取任何实数值的随机变量。连续概率分布的数学表达形式f(x)=k*g(x),其中k是常数,g(x)是概率密度函数。05参数估计与假设检验用单一的数值来估计未知参数或总体参数。例如,用样本均值来估计总体均值。用某个区间来估计未知参数或总体参数。例如,用样本均值加减2个标准差来估计总体均值。点估计与区间估计区间估计点估计小概率事件原理如果一个事件发生的概率很小,那么在一次试验中该事件就不应该发生。反证法原理先假设原假设成立,然后根据这个假设推导出与已知事实或理论相矛盾的结论,从而否定原假设。假设检验的基本原理只考虑一个方向的差异,例如只考虑两组数据平均值是否大于或小于某个值。单侧检验考虑两个方向的差异,例如考虑两组数据平均值是否显著不同。双侧检验单侧与双侧检验的决策06方差分析方差分析是通过比较不同组数据的分散程度来检验多个总体均值是否相等的一种统计方法。它通过将总变异分解为组内变异和组间变异,来评估不同因素对总体变异的影响。方差分析的基本思想是,如果各组的均值存在显著差异,那么组间变异会大于组内变异;反之,如果各组均值相同,则组间变异与组内变异的差异不显著。方差分析的基本思想在心理学研究中,方差分析用于研究不同实验条件、不同实验组别在心理指标上的差异。在社会科学领域,方差分析常用于研究不同群体在某项指标上的差异,例如不同地区、不同年龄段或不同职业的群体在收入水平、教育程度等方面的比较。在医学研究中,方差分析用于比较不同治疗方案或药物对患者的疗效,以及评估不同因素对患者健康状况的影响。方差分析的应用场景假设条件数据应符合正态分布、各组间独立、样本容量足够大且随机抽样。实施步骤首先,收集数据并整理成适合方差分析的表格;其次,进行方差齐性检验,确保各组数据具有相同的分散程度;然后,进行方差分析,比较各组数据的均值;最后,进行多重比较,确定哪些组之间的均值存在显著差异。方差分析的假设条件与实施步骤07相关分析与回归分析相关分析的概念与类型概念相关分析是研究变量之间关系的密切程度和变化规律的一种统计方法。类型线性相关、非线性相关、正相关、负相关等。模型y=a+bx+e,其中y是因变量,x是自变量,a和b是回归系数,e是误差项。参数估计最小二乘法、最大似然法等。概念一元线性回归分析是研究一个因变量与一个自变量之间线性关系的统计方法。一元线性回归分析多元线性回归分析是研究多个因变量与多个自变量之间线性关系的统计方法。概念Y=XB+E,其中Y是因变量矩阵,X是自变量矩阵,B是回归系数矩阵,E是误差项矩阵。模型最小二乘法、最大似然法等。参数估计多元线性回归分析08时间序列分析与预测将时间序列数据分解为趋势、季节性和随机波动三个部分,以便更好地理解数据背后的驱动因素。时间序列分解利用线性回归模型对时间序列数据进行趋势分析,找出数据随时间变化的规律。线性回归模型通过季节性分解方法,将时间序列中的季节性因素识别出来,并对其进行调整,以消除季节性影响。季节性分解时间序列的分解 时间序列的预测方法指数平滑法利用指数平滑法对时间序列数据进行预测,通过调整平滑系数来控制对历史数据的加权程度。ARIMA模型利用ARIMA模型对时间序列数据进行预测,通过识别和建模数据的时间依赖关系来预测未来值。神经网络和深度学习利用神经网络和深度学习技术对时间序列数据进行预测,通过训练模型来学习数据中的复杂模式。季节性差分通过季节性差分方法,消除时间序列中的季节性因素,使数据变得更加平稳。单位根检验通过单位根检验方法,检验时间序列数据是否存在单位根,以判断数据是否平稳。趋势和周期分析通过对时间序列数据进行趋势和周期分析,了解数据随时间变化的规律和周期性特征,以判断数据的平稳性。时间序列的平稳性检验THANKS感谢观看