二维K-S检验的并行算法.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《二维K-S检验的并行算法.doc》由会员分享,可在线阅读,更多相关《二维K-S检验的并行算法.doc(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、二维K-S检验的并行算法K-S检验是一种常用的无参估计,用于检验两种经验分布是否起源于同一分布。一维K-S检验的做法比较简单,也很常用。随着数据处理的需要,人们类似地发展出了二维K-S检验的算法,并将之广泛用于天文、地理数据以及财政分析等领域。文章在Cook提出的双树结构算法的基础上进行改进,提出了并行算法。随着数据量的增大,这种算法的优点更加突出。一、K-S检验一维K-S检验:F,G是两个样本数分别为 n, m的采样,要判断它们是否起源于同一分布。统计量D是这两个样本在统计分布函数(cdf)上的最大差异。则一维情况满足:二维K-S检验:与一维K-S检验有类似的统计关系,人们已通过蒙特卡罗方法
2、证实了这一点。需要提出的是,这里的统计量D是一个象限中两种分布的点数比例的最大差异值;也就是说,要检查所有可能的象限划分,找出两个样本分占自己总数量比例差别最大的象限,这个最大差异值就是D。类似的统计关系如下:Z = D n1/2二、以前的算法 假设两种样本拥有n个数据点:1、考虑原点位于每个样本点上,这样的算法需要n2量级的运算量。2、考虑原点的坐标是一个点的横坐标和另一个点纵坐标的结合。如果采用这种算法,计算量将达到n3量级。对于大样本的数据,这种算法计算量太大,不适用。三、Cook的双树结构算法 征对传统算法计算量太大的问题,Cook(1999)提出了双树结构算法。这种算法只需要O(nl
3、ogn)的运算量。 先把数据按照y值的大小排序。对于一、二象限,沿y轴从上到下进行计算,构建出双树结构。在扫描中每遇到一个新的数据点就增加一个新节点。这样构建出的双树形结构,总是满足:(1)左子点x值母点x值右子点x值(2)子点y值母点y值(3)无论y值如何,只要x1x2, 则点1一定在点2的左边下面以第二象限为例,举一个简单的例子:111111111122223333233334433方框代表一组样本,圆圈代表另一组样本Ns:方框数 Nc:圆圈数(1) 从最左边的点(1,2)开始(注意它没有子点),原点在第一根线的位置t1= (1/ Ns-0 / Nc) 点(1,2)本身带来的比例差异del
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 二维 检验 并行 算法
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内