物流大数据处理.ppt
《物流大数据处理.ppt》由会员分享,可在线阅读,更多相关《物流大数据处理.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、物物 流流 大大 数数 据据 处处 理理物流大数据处理采集导入导入/预处理预处理 统计统计/分析分析挖掘挖掘1234567 潘潘 果果淘宝数据分析挖掘实践及变革淘宝数据分析挖掘实践及变革淘宝数据分析挖掘实践及变革淘宝数据分析挖掘实践及变革百度大数据分析系统架构百度大数据分析系统架构百度大数据分析系统架构百度大数据分析系统架构京东大数据实时处理技术京东大数据实时处理技术京东大数据实时处理技术京东大数据实时处理技术物流大数据处理简介物流大数据处理简介物流大数据处理简介物流大数据处理简介1 12 23 34 4目目 录录【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系你知
2、晓大数据在哪些方面有应用?你知晓大数据在哪些方面有应用?3132架构化1950-1970数字化1970-1990网络化1990-2010+物联网大数据Something Big is HappeningNOW移动互联网云计算4信息技术革命的小周期智慧化51:1 MarketingNanotargeting和Retargeting62IBM IBM 2013多渠道多渠道交通控制交通控制交易分析交易分析智慧的医智慧的医疗疗国土安全国土安全制造制造金融金融电电信信欺欺诈诈和和风险风险日志分析日志分析搜索搜索质质量量零售:流失、促零售:流失、促销销 Copyright 2011 Corporation
3、大数据在各行各大数据在各行各业业都可以都可以获获得得应应用用24 Copyright 2011 CorporationIBM IBM 2013获得突破性回报了解关于客户的一切作快速大量地创新产品和风险利用工具化的资产利用大数据能力可以帮助企利用大数据能力可以帮助企业获业获得突破性回得突破性回报报利用大数据独有的技术能力可视化和发现Hadoop执行零延迟的操数据仓库流计算文本分析整合和治理多媒体内容通过分析仸意大数据类型交易/应用数据机器数据社交媒体数据实时侦测欺诈411快杂大大数据的新思维13多数据源的集成浮动车GPS:20M/day手机位置信息:18M/day居民调查:80000户视频/图像
4、数据和元数据:100s of TB/dayGIS数据供水系统智能电网睡眠质量出租车运营数据:1M/day交通卡:19M/day高速路收费数据:0.5M/day社交网络情感分析部分数据来源:BeijingTOCC12大数据的新方法学数据极大丰富前提下的新分析思维和技术数据极大丰富前提下的新分析思维和技术采样数据采样数据 全集数据全集数据多数据源的整合多数据源的整合基于主观因果假设基于主观因果假设 相关关系相关关系大数据大数据+小算法小算法+上下文上下文+知识积累知识积累描述性分析描述性分析 预测性预测性和处方性分析和处方性分析实时性实时性 绝对的精确性绝对的精确性数据数据中介数据中介服服务务生态
5、系统数据拥有者数据拥有者大数据的数据中介数据技术公司 数据产品数据产品和服务和服务16大数据系统的设计权衡大体量基于采样的查询实时性流计算批量计算精确性惰性数据的即席查询Little data(个人计算)19城市计算增量计算内存计算案例一:大数据分析系统架构的搭建百度的数据规模 1001000PB 10100PB/天 千亿万亿 百亿千亿 十亿百亿/天 十亿百亿/天 100TB1PB/天数据总量数据处理量网页索引更新量请求日志离线在线离线分析与在线实验相结合快速迭代快速迭代是互联网产品的是互联网产品的主要创新手段主要创新手段算法A算法B算法B通过反馈来验证算法优劣搜索引擎的迭代5%5%Onlin
6、e LearningA/B test策略机器学习平台FeatureTraining数据网页网页库倒排表倒排表Data Mining想法原型系统快速开发测试产品部署运维开发框架互联网产品的迭代A/B测试,持续优化数据智能验证数据分析应用引擎云测试应用引擎数据架构技术互联网服务enable数据智能IT产业生产力的变化607080900010硬件Mainframe软件PCInternetInf+人+数据Cloud迭代的本质是让人参与系统进化,而Big Data为迭代指导方向,Infrastructure则加速迭代。软件+人互联网服务的典型技术特点超大规模快速迭代数据智能软件基础架构大数据数据中心、网
7、络、服务器数据中心计算云计算技术体系DiskFlashPipeK/VFileTable统一存储体系 平衡大容量、高并发、低延迟 不同访问模式通过组合满足统一访问与传输数据访问层P2PCDN分布式存储描述能力数据流优化控制流管理资源分配优先级、并发控制隔离、安全执行层模型层MapReduce表示层SQL-like翻译JoinSelectTop分布式计算BCDA实时存储与计算kNN查询平台向量计算引擎流式数据处理引擎PubSub引擎机器学习算法平台OLAP引擎复杂事件处理引擎分布式数据结构超大规模数据仓库图查询平台实时检索平台向量计算引擎VectorLayoutMap-ShuffleOperato
8、rs/CheckpointSIMDProgram复杂事件处理average(price)trigger(?,b,c)filter(b)pattern(a-b-c)condition(func(a,b,c)流式计算模型windowstepboundtimeM=Stream目标 1000PB 10亿维特征训练 100维条件查询 流式 触发式海量高维、多维实时更大、更复杂、更快!数据智能分布式存储与计算大规模人工辅劣标注系统人计算向量引擎MachineLearning算法Web Contents流式处理LogsPubSub推荐系统智能交通Apps自劢评估商业智能决策辅劣关于京东营销管理供应商管理仓储
9、管理财务系统客户数据网站前台关于京东 京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平台,全面提升用户体验台,全面提升用户体验。配送管理大规模数据处理更加容易ETL/企业数据仓库(Hive/Pig/MR)数据挖掘/建模(R、Mahout)搜索和推荐日志存储“Next Click”运营智能风险控制互动分析一些场景需要进一步的考量MapReduce批量处理=延迟较长无法满足用户的实时需求调度开销较大批处理与分析近实时分析实时流处理实时性离线准实时/实时实时处理时间分钟到小时毫秒到秒持续不断数据量TB-PBGB-TB持续编程模型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 物流 数据处理
限制150内