大数据分析的案例、方法与挑战4716134.docx
-
资源ID:48281564
资源大小:3.93MB
全文页数:93页
- 资源格式: DOCX
下载积分:30金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
大数据分析的案例、方法与挑战4716134.docx
大数据分析的案案例、方法与与挑战中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112数据分析者面临临的问题n 数据日趋庞大大,无论是入入库和查询,都都出现性能瓶瓶颈n 用户的应用和和分析结果呈呈整合趋势,对对实时性和响响应时间要求求越来越高n 使用的模型越越来越复杂,计计算量指数级级上升n 传统技能无法法应对大数据据:R、SAS、SQL中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC201122场景介绍n 信令监测是做做什么的?中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112体系架构n 数据库服务器器:HP小型机,1228G内存,48颗CPU,2节点RAC,其中中一个节点用用于入库,另外一个节节点用于查询询n 存储:HP虚虚拟化存储,>1000个盘n 入库节点n 入库方式常规路径sqqlldrn 大量使用表分分区设计n 数据量:每小小时写入2000G左右数数据磁盘物理理写大约为450G每小小时问题:1 入库库瓶颈 2 查询瓶颈中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112数据库设计n 物理上采用AASMn 大表全部按时时间分区,开开始时按小时时分区,但由由于数据量庞庞大,后来改改成15分钟分区区,最后变成每分分钟切换1个分区n 采用sqllldr方式入入库中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC201125入库故障描述n 由于数据量太太大,不得不不同时启用多多个处理机,产产生了多个入入库节点n 当入库节点分分别增加到22节点和4节点以后,ssqlldrr出现停顿现现象中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112AWR报告n中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112AWR报告n中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112AWR报告n中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112关于Buffeer Cacche中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112Latch中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112寻找Buffeer bussy waiit的根源n Sqlldrr和OCI方式同同时inseertn 多个节点同时时inserrtn 解决办法1 放弃使用OOCI2 对sqllldr进行垂垂直切分,尽尽量避免同时时多进程插入入同一张表中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112再看AWR中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112新的故障现象n Sqlldrr依然有停顿顿,次数较为为频密而持续续时间较短n HWM冲突问问题中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112关于HWM中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112针对HWM冲突突的优化措施施n 对于无法垂直直切分的特大大表,按照入入库节点号作作子分区中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112再看AWRn HWM冲突已已经被消除n Sqlldrr频密周期性性短暂停顿的的问题依旧中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112最终问题根源n AWR报告的的提示文件头部部竞争n 表空间大小与与自动扩展是是问题根源n 修正表空间设设置后问题消消失中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011218备选方案牺牺牲实时性换换取直接路径径插入n直接路径插入有有什么好处?n 为什么没有采采用直接路径径插入?中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011219备选方案交交换分区中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011220备选方案外外部表中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011221使用传统关系型型数据库遇到到的困难n All in one,并并非专门针对对数据分析设设计和优化n 设计复杂,调调优复杂,数数据分析师兼兼任DBAn 当数据规模增增加时,需要要扩展硬件,边边际成本指数数级上升,存存在无法突破破的物理瓶颈颈中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011222解决方案n 列式数据库,实实时数据库等等新的数据库库技术n 分布式集群:Hadooop,NoSQLL及其它分布布式数据库技技术n 混合使用各种种专业分析产产品中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011223场景:行为指纹纹识别n当q°当 q为0 时,ACC两个矢量完完全相关,即即两个号码的的交往圈相似似度最高当 q越接近0,说明明两个号码的的交往圈越相相似2012.4DTCC20112中山大学海量数数据与云计算算研究中心 黄志洪25为 90 时,AC两个矢量完全不相关,即两个号码的交往圈相似度最低基于分布式平台台运行海量数数据移动客户数据量量达到TB级云化Oracle数数据库中sqql语句可以以得到结果,但希望进一步提提高效率MapReduuce方法希望尝试多个相相似度计算结结果中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112云计算网络络发展的必然然结果中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112Hadoopn Hadoopp的主要功能能:HDFSS和Map-RReduceen HDFS实现现数据的分布布式存储,并并且实现冗余余备份n Map-Reeduce实实现计算任务务的分布化,尽尽量使到某个个节点的计算算任务主要面面对存储在本地的数据,以以减少跨节点点的网络数据据传送中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011228HDFS结构示示意图中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011229Map-Redduce示意意图中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011230HDFS与Maap-Redduce一起起工作中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011231Hiven 基于Hadooop的常用用数据分析工工具n 可以看成是SSQL到Map-RReducee的转换器n HiveQLL尚未能完全全支持SQLL 92n 外部应用可以以通过hivve客户端、JDDBC、ODBC等方方式访问Hiive中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011232HBasen 列式数据库,特特别适合作为为数据分析的的场景,可以以减少I/OOn 无真正索引n 自动分区n 增加新节点时时自动线性扩扩展n 使用Hbasse命令而非非SQLn 可以通过Jaava,REST,thrifft等接口访访问HBasse中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011233Hadoop体体系图中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011234NoSQLn NoSQL = Nott Onlyy SQLn High pperforrmancee, Hugge Stoorage, Highh Scallabiliity &&& Highh Avaiilabillityn NoSQL面面向的场景:事务性要求求不高,实时时性要求不高高,查询较为为简单,数据据海量n 可分布化,运运行在廉价的的PC集群上n 典型的NoSSQL产品,通通常某种产品品只适合某种种特定场景,常常要配搭使用用中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011235基于Hadooop的用户指指纹识别算法法n 求某个客户最最相似客户的的MapReeduce化化(以相关系系数为例):n Map()· Inputt: 某客户数值值、所有客户户数值· 将所有客户户随机平分到到 k台机器· Outpuut: k 个最大相关关系数(loocal)· Emit the kk 个跟某客客户最相似的的客户n Reducee( )· Inputt: Keyy: nulll; vaalues: k 个最最大相关系数数(locaal)· Outpuut: 最大大相关系数(globaal)· Emit the 最最大相关系数数、与某客户户最相似客户户中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011236数据分析者期待待的解决方案案n 完美解决性能能瓶颈,在可可见未来不容容易出现新瓶瓶颈n 过去所拥有的的技能可以平平稳过渡。比比如SQL、Rn 转移平台的成成本有多高?平台软硬件件成本,再开开发成本,技技能再培养成成本,维护成成本中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011237一种新的普适性性关联挖掘方方法n 海量,不一定定是指数据记记录多,有时时可能是变量量很多n 观察变量之间间是否具有联联系的传统回回归方法中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011238传统回归模型的的困难n 为什么一定是是线性?或某某种非线性模模型?n 过分依赖于分分析者的经验验n 对于非连续的的离散数据难难以处理中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011239网格方法n Sciennce上的的文章Deetectiing Noovel AAssociiationns in Largee Dataa Setssn 方法概要:用用网格判断数数据的集中程程度,集中程程度意味着是是否有关联关关系n 方法具有一般般性,即无论论数据是怎样样分布的,不不限于特定的的关联函数类类型,此判断断方法都是有效n 方法具有等效效性,计算的的熵值和噪音音的程度有关关,跟关联的的类型无关n MIC:thhe Maxximal Inforrmatioon Coeefficiientn MINE:MMaximaal Infformattion-bbased Nonpaaramettric EExplorrationn中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011240MIC值计算n 坐标平面被划划分为(x,y)网格G(未必等宽宽),其中xxy<n0.6n 在G上可以诱诱导出“自然概率密密度函数”p(x,yy),任何一一个方格(bbox)内的的概率密度函数值为这个方方格所 包含的样本本点数量占全全体样本点的的比例n 计算网格划分分G下的 muttual iinformmationn值 IG中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011241MIC值计算n 构造特征矩阵阵mxy,矩阵的元元素mxy=maxxIG/logg minx,y。max取遍所有可能的(xx,y)网格格Gn MIC=maax mxxy。Max取遍所所有可能的(x,y)对对中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011242MIC值计算n Mxy的计算算是个难点,数数据科学家构构造了一个近近似的逼近算算法以提高效效率http:/www.sscienccemag.org/ccontennt/supppl/20011/122/14/3334.60062.15518.DCC1在作者的网站上上,可以下载载MINE计算算MIC的程序序(Javaa和R)以及测试试用数据集http:/实验:WHO数数据集,垒球球数据集中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011243MIC的性质n 如果变量对xx,y存在函函数关系,则则当样本数增增加时,MIIC必然趋向向于1n 如果变量对xx,y可以由由参数方程cc(t)=x(t),y(t)所表达的曲曲线描画,则则当样本数增增加时,MIC必然趋于于1n 如果变量对xx,y在统计计意义下互相相独立,则当当样本数增加加时,MICC趋于0中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011244MIC观察中山大学海量数数据与云计算算研究中心 黄志洪