自下而上的数据仓库构建方法46667.pptx
《自下而上的数据仓库构建方法46667.pptx》由会员分享,可在线阅读,更多相关《自下而上的数据仓库构建方法46667.pptx(27页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、自下而上的数据仓库构建方法 童小军(XiaoJun Tong)思考数据统计系统的需求/本源 寻找一种简易统计分析思路 尝试一种简单简简易统计的简单实现和应用1童小军(XiaoJun Tong)2006 来北京从事搜索引擎研发工作 思考搜索的智能?2007 2008 在 FeedSky 从事博客搜索研发(Web2.0)2008 至今 北京暴风网际 搜索研发主管 2010 2012 对外经济贸易大学 UIBE 国际商学院 企业管理研究生在读微博:暴风搜索 数据平台发展几个阶段 2008 rsync,log文件,java分析,jsp 程序 2009 BI,数据仓库,syslog-ng,perl/py
2、thon 2010 4w+r=3h,闭环反馈,数据决策,报表驱动 2011 管理会计,内部成本/收益核算PV/$,ISO9001,PMI OPM33思考数据统计需求和本源?需求/本源?思考 数据统计,分析的需求/本源?使用 列举类推法 思考思考 需求/本源 举例:组织结构5思考 需求/本源 举例:质量优化6思考 需求/本源 举例:工业控制7思考 组织项目管理成熟度模型 OPM3模型第1维 成熟度的4个梯级分别是:标准化的(Standardizing)可测量的(Measuring)可控制的(Controlling)持续改进的(Continuously Improving)8思考 需求/本源 简易
3、的智能结构需求/本源=智能/结构商业智能BI性能指标:反馈周期?决策有效性?反馈成本?数据统计/分析 是自动控制系统和自学习,自调整系统的核心组成部分。9数据 构建方法 什么是自下而上?需求-展现-分析逻辑-数据结构 变化可能-越到底层越少 修改成本-越到底层越高10数据 构建思路 抽象分析-总结归纳-数据结构-各类逻辑-业务需求 保留全部可能性-总结需求的组成基本变量-总结固定逻辑和结构-设计满足各类需求的系统构建策略 自下而上,以不变应万变=自下而上构建=12Log 构建方法 四个 构建策略 1.数据公式:4w+r=2h 2.实时汇总:js-nginx+perl-syslog-ng-pyt
4、hon/perl-db 3.存储格式:一日一表 4.统计方法:2sql 方法 5.图表展现:模板引擎131.Log 数据公式:4w+r=2h 4W(who,when,where,what)+R(result)=3H(why?how?win?)log 统计:who=(uid,uname)用户维度 when=time,last_time,log_time 时间维度 where=(url/from_url,version,host,uip,system)空间维度 what=(click/search keyword,order filed)场景维度 result=(time,count,iscach
5、ed)结果维度=3H(why how win)为何?怎么办?如何赢?142.实时汇总:js+nginx+syslog-ng+perl 流程:js-nginx+perl-syslog-ng-python/perl-db JSflash:收集用户前端的感受 nginx+嵌入perl 模块:并发和并能 syslog-ng:log source(s_local);filter(f_cache);destination(d_cache_file);destination(d_cache_py);db:mysql:MyISAM 列式数据库:infobright(够用就行)153.存储格式:一日一表 1.一
6、日一个表结构,每日凌晨压缩 2.表结构 Mysql MyISAM 3.少量索引 4.压缩工具:myisampack 压缩 40%-50%自读 5.举例:search_log_20101011 click_log_20101011164.统计方法:2sql 方法 2sql 方法大部分 满足分析需求+程序(小部分)数据仓库-sql-数据集市-sql-展现结果 满足大部分的分析需求 sqltask 分析工具 原理。log库-统计库 配置可以在sql 客户端直接调试DEMO:#desc:搜索行为次数,实际无结果,实际无结果率相对,绝对 搜索无结果次数/搜索行为次数#source:127.0.0.1:3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自下而上 数据仓库 构建 方法 46667
限制150内