大数据分析的案例、方法与挑战4716134.docx
《大数据分析的案例、方法与挑战4716134.docx》由会员分享,可在线阅读,更多相关《大数据分析的案例、方法与挑战4716134.docx(93页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据分析的案案例、方法与与挑战中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112数据分析者面临临的问题n 数据日趋庞大大,无论是入入库和查询,都都出现性能瓶瓶颈n 用户的应用和和分析结果呈呈整合趋势,对对实时性和响响应时间要求求越来越高n 使用的模型越越来越复杂,计计算量指数级级上升n 传统技能无法法应对大数据据:R、SAS、SQL中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC201122场景介绍n 信令监测是做做什么的?中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112体系架构n 数据库服务器器:HP小型机,1228G内存,
2、48颗CPU,2节点RAC,其中中一个节点用用于入库,另外一个节节点用于查询询n 存储:HP虚虚拟化存储,1000个盘n 入库节点n 入库方式常规路径sqqlldrn 大量使用表分分区设计n 数据量:每小小时写入2000G左右数数据磁盘物理理写大约为450G每小小时问题:1 入库库瓶颈 2 查询瓶颈中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112数据库设计n 物理上采用AASMn 大表全部按时时间分区,开开始时按小时时分区,但由由于数据量庞庞大,后来改改成15分钟分区区,最后变成每分分钟切换1个分区n 采用sqllldr方式入入库中山大学海量数数据与云计算算研究中心
3、黄志洪2012.4DTCC201125入库故障描述n 由于数据量太太大,不得不不同时启用多多个处理机,产产生了多个入入库节点n 当入库节点分分别增加到22节点和4节点以后,ssqlldrr出现停顿现现象中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112AWR报告n中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112AWR报告n中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112AWR报告n中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112关于Buffeer Cacche中山大学海量数数据与云计算算研究中
4、心 黄志洪2012.4DTCC20112Latch中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112寻找Buffeer bussy waiit的根源n Sqlldrr和OCI方式同同时inseertn 多个节点同时时inserrtn 解决办法1 放弃使用OOCI2 对sqllldr进行垂垂直切分,尽尽量避免同时时多进程插入入同一张表中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112再看AWR中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112新的故障现象n Sqlldrr依然有停顿顿,次数较为为频密而持续续时间较短n HWM
5、冲突问问题中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112关于HWM中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112针对HWM冲突突的优化措施施n 对于无法垂直直切分的特大大表,按照入入库节点号作作子分区中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112再看AWRn HWM冲突已已经被消除n Sqlldrr频密周期性性短暂停顿的的问题依旧中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112最终问题根源n AWR报告的的提示文件头部部竞争n 表空间大小与与自动扩展是是问题根源n 修正表空间设设置后问
6、题消消失中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011218备选方案牺牺牲实时性换换取直接路径径插入n直接路径插入有有什么好处?n 为什么没有采采用直接路径径插入?中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011219备选方案交交换分区中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011220备选方案外外部表中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011221使用传统关系型型数据库遇到到的困难n All in one,并并非专门针对对数据分析设设计和优化n 设计复杂,调调优复杂,数数据分析师兼兼任D
7、BAn 当数据规模增增加时,需要要扩展硬件,边边际成本指数数级上升,存存在无法突破破的物理瓶颈颈中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011222解决方案n 列式数据库,实实时数据库等等新的数据库库技术n 分布式集群:Hadooop,NoSQLL及其它分布布式数据库技技术n 混合使用各种种专业分析产产品中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC2011223场景:行为指纹纹识别n当q当 q为0 时,ACC两个矢量完完全相关,即即两个号码的的交往圈相似似度最高当 q越接近0,说明明两个号码的的交往圈越相相似2012.4DTCC20112中山大学海
8、量数数据与云计算算研究中心 黄志洪25为 90 时,AC两个矢量完全不相关,即两个号码的交往圈相似度最低基于分布式平台台运行海量数数据移动客户数据量量达到TB级云化Oracle数数据库中sqql语句可以以得到结果,但希望进一步提提高效率MapReduuce方法希望尝试多个相相似度计算结结果中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112云计算网络络发展的必然然结果中山大学海量数数据与云计算算研究中心 黄志洪2012.4DTCC20112Hadoopn Hadoopp的主要功能能:HDFSS和Map-RReduceen HDFS实现现数据的分布布式存储,并并且实现冗余余
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 案例 方法 挑战 4716134
限制150内