大数据分析的案例方法与挑战.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《大数据分析的案例方法与挑战.docx》由会员分享,可在线阅读,更多相关《大数据分析的案例方法与挑战.docx(47页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据分析的案例、方法与挑战中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012数据分析者面临的问题n 数据日趋庞大,无论是入库和查询,都出现性能瓶颈n 用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高n 使用的模型越来越复杂,计算量指数级上升n 传统技能无法应对大数据:R、SAS、SQL中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC20122场景介绍n 信令监测是做什么的?中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012体系架构n 数据库服务器:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点用于入库,另外一个
2、节点用于查询n 存储:HP虚拟化存储,1000个盘n 入库节点n 入库方式常规路径sqlldrn 大量使用表分区设计n 数据量:每小时写入200G左右数据磁盘物理写大约为450G每小时问题:1 入库瓶颈 2 查询瓶颈中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012数据库设计n 物理上采用ASMn 大表全部按时间分区,开始时按小时分区,但由于数据量庞大,后来改成15分钟分区,最后变成每分钟切换1个分区n 采用sqlldr方式入库中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC20125入库故障描述n 由于数据量太大,不得不同时启用多个处理机,产生了多个入库节点n
3、当入库节点分别增加到2节点和4节点以后,sqlldr出现停顿现象中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012AWR报告n中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012AWR报告n中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012AWR报告n中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012关于Buffer Cache中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012Latch中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012寻找Buffer busy wait的根源n Sqll
4、dr和OCI方式同时insertn 多个节点同时insertn 解决办法1 放弃使用OCI2 对sqlldr进行垂直切分,尽量避免同时多进程插入同一张表中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012再看AWR中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012新的故障现象n Sqlldr依然有停顿,次数较为频密而持续时间较短n HWM冲突问题中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012关于HWM中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012针对HWM冲突的优化措施n 对于无法垂直切分的特大表,按照入库节点号作子
5、分区中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012再看AWRn HWM冲突已经被消除n Sqlldr频密周期性短暂停顿的问题依旧中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012最终问题根源n AWR报告的提示文件头部竞争n 表空间大小与自动扩展是问题根源n 修正表空间设置后问题消失中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201218备选方案牺牲实时性换取直接路径插入n直接路径插入有什么好处?n 为什么没有采用直接路径插入?中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201219备选方案交换分区中山大学海量数据与云计算
6、研究中心 黄志洪2012.4DTCC201220备选方案外部表中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201221使用传统关系型数据库遇到的困难n All in one,并非专门针对数据分析设计和优化n 设计复杂,调优复杂,数据分析师兼任DBAn 当数据规模增加时,需要扩展硬件,边际成本指数级上升,存在无法突破的物理瓶颈中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC201222解决方案n 列式数据库,实时数据库等新的数据库技术n 分布式集群:Hadoop,NoSQL及其它分布式数据库技术n 混合使用各种专业分析产品中山大学海量数据与云计算研究中心 黄志洪201
7、2.4DTCC201223场景:行为指纹识别n当q当 q为0 时,AC两个矢量完全相关,即两个号码的交往圈相似度最高当 q越接近0,说明两个号码的交往圈越相似2012.4DTCC2012中山大学海量数据与云计算研究中心 黄志洪25为 90 时,AC两个矢量完全不相关,即两个号码的交往圈相似度最低基于分布式平台运行海量数据移动客户数据量达到TB级云化Oracle数据库中sql语句可以得到结果,但希望进一步提高效率MapReduce方法希望尝试多个相似度计算结果中山大学海量数据与云计算研究中心 黄志洪2012.4DTCC2012云计算网络发展的必然结果中山大学海量数据与云计算研究中心 黄志洪201
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 案例 方法 挑战
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内