《数据挖掘基础讲座课件.pptx》由会员分享,可在线阅读,更多相关《数据挖掘基础讲座课件.pptx(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘基础讲座概率统计、随机过程、信息论基础课程的性质短时间讲多内容数学分析讲辛钦(国立莫斯科大学)数据挖掘课程上所需要的概率统计、随机过程、信息论知识结合工作中数据挖掘、统计中的学习体会概率论随机变量和概率分布联合分布、条件分布和独立性概率分布的特征联合与条件分布特征一些重要的分布数理统计估计量的有限样本性质估计量的大样本性质(大数定律、中心极限定理)参数估计区间估计和置信区间信息论熵、相对熵、信息量、互信息渐进均分性(信息论中的大数定律)信息论与统计科尔莫戈罗夫复杂性(奥克姆剃刀)随机过程马尔可夫过程隐马尔可夫模型随机变量和概率分布离散随机变量:取值至多可数的随机变量为离散型的随机变量。
2、概率分布(分布律)且典型的离散随机变量分布0-1分布:且p+q=1,p0,q0,则称X服从参数为p的0-1分布,或两点分布,还可以表示成:典型的离散随机变量分布且二项二项分布分布:二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。典型的离散随机变量分布且泊松泊松分布分布:连续的随机变量分布分布函数分布函数:定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x,有:则称X为连续型随机变量,其中f(x)称
3、为X的概率密度函数,简称概率密度。型随机变量的概率密度f(x)有如下性质:典型的连续随机变量分布均匀分布均匀分布:若连续型随机变量X具有概率密度,则称均匀分布:典型的连续随机变量分布指数指数分布分布:典型的连续随机变量分布正态分布(高斯分布)正态分布(高斯分布):典型的连续随机变量分布正态分布(高斯分布)特点(为何如此重要)正态分布(高斯分布)特点(为何如此重要):中心极限定理的完美体现分布的值非常集中的分布在中心区域面积可以精确的计算出来典型的连续随机变量分布幂律分布幂律分布(长尾分布长尾分布):没有明确的代数式子分布趋向于0的速度远小于指数分布典型的连续随机变量分布判断方法判断方法:典型的
4、连续随机变量分布真实的分布真实的分布:社交网站用户数量和用户社交网站用户数量和用户关注度数量的分布关注度数量的分布网络终端结点之间网络终端结点之间RTT值的值的分布(密度函数)分布(密度函数)典型的连续随机变量分布幂律分布的重要幂律分布的重要:大量社会规律服从,实践中常遇到,大量社会规律服从,实践中常遇到,大数据大数据领领域经常遇到域经常遇到数学期望发散,不要用均值来替代整体分布数学期望发散,不要用均值来替代整体分布大数大数定律和中心极限定理不成立定律和中心极限定理不成立典型的连续随机变量分布幂律分布的应用幂律分布的应用:数学期望如果X是在概率空间(,P)中的一个随机变量,那么它的期望值EX的
5、定义是:方差方差:一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。为平均数,N为样本总数方差离散和连续随机变量方差计算:中位数中位数:对数据集中趋势的一个度量。定义定义:连续随机变量概率密度函数中,左边和右边刚好相等的位置。离散随机变量中的中间值。特点:数据约不平衡,中位数和数学期望相差越大。幂律分布下,观察样本数据的数学期望和中位数之间差值的变化。联合分布、条件分布和独立性协方差:涵义:协方差度量两个随机变量的线性相关性,正值代表同向移动,负值代表反向移动。独立协方差为0,反
6、过来不正确相关系数相关系数:sd(X),sd(Y)代表标准差条件数学期望离散变量:给定X的条件数学期望连续变量:联合概率密度函数Y边缘概率密度函数条件概率密度函数条件数学期望数理统计估计量的有限样本性质估计量的大样本性质(大数定律、中心极限定理)参数估计区间估计和置信度假设检验估计量性质无偏性W为参数u的一个估计量,h为函数有效性:样本方差小的那个估计量估计量性质一致性:估计量的趋势特性大数定律中心极限定理排除了原始分布的影响,只要期望方差存在。其存在有一定的假设中心极限定理随机变量独立服从同一分布期望、方差存在并有限幂律分布第三个条件不满足参数估计矩估计将参数表示成与X分布的某些期望有某种关
7、系,通常是 E(X)有关系的量,如果样本均值 是 E(X)的无偏并且一致估计量,是线性函数因此依然无偏,则可用样本矩 代替总体矩最大似然估计最大似然估计似然函数:关于 的函数区间估计和置信区间区间估计的必要性点估计+样本的标准差 不足以给出总体值落在相对于样本值的什么地方置信区间的理解问题充分统计量充分统计量2p83 充分统计量是一个关于样本D的函数s,其中包含了能够有助于估计某种参数 的所有相关的信息样本均值和样本(协)方差构成了真实均值和协方差的一个充分统计量充分统计量Hadoop适合处理的统计量信息论对充分统计量的估计信息论熵、相对熵、信息量、互信息渐进均分性(信息论中的大数定律)信息论
8、与统计学科尔莫戈罗夫复杂性(奥克姆剃刀)信息论初步熵、相对熵熵:相对熵:熵、相对熵相对熵:涵义:两个随机分布之间的距离的度量。互信息互信息:一个随机变量包含另一个随机变量信息量的度量。也即在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量充分统计量渐进均分性渐进均分定理:解释:几乎一切事件都令人同等的意外信息和统计费希尔信息在参数估计中的作用:参数值逼近的评估奥克姆剃刀奥克姆剃刀:简单性原理,是科学界常用的一个准则,具体表述为,如果多个理论同时都能解释某一现象,那么我们优先取利用假设最少的理论,这个理论被认为是最好的。越简洁的推论可能性就越高。根据复杂度来权衡所有可能的解释科尔莫戈罗夫
9、复杂度:一个数据串的复杂度可以定义为计算该数据串所需的最短二进制程序的长度。如果序列服从熵为H的分布,那么该序列的科尔莫戈罗夫复杂度近似等于熵H。算法复杂度 PK计算复杂度随机过程马尔可夫过程隐马尔可夫模型马尔科夫过程马尔可夫链马尔可夫链(MarkovChain),描述了一种状态序列,其每个状态值取决于前面有限个状态。状态迁移问题状态分类和状态空间分解马尔科夫链的极限形态和平稳分布生灭过程隐马尔科夫过程状态序列隐藏 观察序列 观察序列只和状态序列相关(独立输出假设)模型训练:给定一个模型,如何计算某个特定的输出序列的概率;给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列;给定足够量的观测数据,如何估计HMM模型算法参考文献1计量经济学,现代观点 J.M.Wooldridge.2信息论基础 ThomasM.Cover3应用随机过程 林元烈4模式分类 RichardO.Duda5数据之魅 PhilippK.Janert
限制150内