欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    大数据平台技术框架选型计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf

    • 资源ID:95702001       资源大小:528.86KB        全文页数:6页
    • 资源格式: PDF        下载积分:4.3金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4.3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据平台技术框架选型计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf

    大数据平台框架选型分析 一、需求 城市大数据平台,首先是作为一个数据管理平台,核心需求是数据的存和取,然后因为海量数据、多数据类型的信息需要有丰富的数据接入能力和数据标准化 处理能力,有了技术能力就需要纵深挖掘附加价值更好的服务,如信息统计、分 析挖掘、全文检索等,考虑到面向的客户对象有的是上层的应用集成商,所以要 考虑灵活的数据接口服务来支撑。二、平台产品业务流程 三、选型思路 必要技术组件服务:ETL 非/关系数据仓储 大数据处理引擎 服务协调 分析 BI 平台监管 四、选型要求 1 需要满足我们平台的几大核心功能需求,子功能不设局限性。如不满足全部,需要对未满足的其它核心功能的开放使用服务支持 2 国内外资料及社区尽量丰富,包括组件服务的成熟度流行度较高 3需要对选型平台自身所包含的核心功能有较为深入的理解,易用其 API或基于 源码开发 4 商业服务性价比高,并有空间脱离第三方商业技术服务 5些非功能性需求的条件标准清晰,如承载的集群节点、处理数据量及安全机 制等 五、选型需要考虑 简单性:亲自试用大数据套件。这也就意味着:安装它,将它连接到你的 Hadoop 安 装,集成你的不同接口(文件、数据库、B2B 等等),并最终建模、部署、执行一些大数 据作业。自己来了解使用大数据套件的容易程度 一一仅让某个提供商的顾问来为你展示它 是如何工作是远远不够的。亲自做一个概念验证。|广泛性:是否该大数据套件支持广泛使用的开源标准 一一不只是 Hadoop 和它的生态 系统,还有通过 SOAP 和 REST web服务的数据集成等等。它是否开源,并能根据你的特 定问题易于改变或扩展?是否存在一个含有文档、论坛、博客和交流会的大社区?特性:是否支持所有需要的特性?Hadoop 的发行版本(如果你已经使用了某一个)?你想要使用的 Hadoop 生态系统的所有部分?你想要集成的所有接口、技术、产品?请注 意过多的特性可能会大大增加复杂性和费用。所以请查证你是否真正需要一个非常重量级 的解决方案。是否你真的需要它的所有特性?陷阱:请注意某些陷阱。某些大数据套件采用数据驱动的付费方式(数据税”),也就 是说,你得为自己处理的每个数据行付费。因为我们是在谈论大数据,所以这会变得非常 昂贵。并不是所有的大数据套件都会生成本地 Apache Hadoop 代码,通常要在每个 Hadoop 集群的服务器上安装一个私有引擎,而这样就会解除对于软件提供商的独立性。还要考虑 你使用大数据套件真正想做的事情。某些解决方案仅支持将 Hadoop 用于 ETL 来填充数据 至数据仓库,而其他一些解决方案还提供了诸如后处理、转换或 Hadoop 集群上的大数据 分析。ETL 仅是 Apache Hadoop和其生态系统的一种使用情形。六、方案分析 自建套件 horton works 国内类 exadoop TDW+fi neBI 成本 100%开源 培训服务 3k/人 授权支持 100K 性能 单集群最大规 模达到 5600 台,处理数据 量可达百 P 级 功能 按需整合 HDFS 和 YARN 数据管理 从各种引擎访问数据 根据策略加载和管理数据 身份验证、授权和数据保护 大规模配置、管理、监控和 运营 Hadoop 群集 与您的数据分析工具集成 跨平台配置部署 易操 作性 安装复杂,操作需要 专业培训。图形设计界面,参数配置,易上手。应用 成熟 度 国外大客户较多 文档/社 区支 持 文档较多,社区一 般,相关专业培训较 多。官方社区比较活跃(英文)中文社区有 1 个文档较少,多为英文文档 文档较少,无 商用服务,无 任何技术支持 海量数据多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力有了技术能力就需要纵深挖掘附加价值更好的服务如信息统计分析挖掘全文检索等考虑到面向的客户对象有的是上层的应用集成商考虑灵活的数据接口服平台监管四选型要求需要足我们平台的几大核心功能需求子功能不设局限性如不足全部需要对未足的其它核心功能的开放使用服务支持国内外资料及社区尽量丰富包括组件服务的成熟度流行度较高需要对选型平台自身所包含的核心求的条件标准清晰如承载的集群节点处理数据量及安全机制等五选型需要考虑简单性亲自试用大数据套件这也就意味着安装它将它连接到你的安装集成你的不同接口文件数据库等等并最终建模部署执行一些大数据作业自己来了解使扩展 性 开源开放 开源开放 开源开放 移植 性 支持多操作系统 支持多操作系统 支持多操作系 统 支持多操作系 统 监控 优势 劣势 1、跟随产品阶段逐 步完善整合自定义 套件 2、自选流行组件,资料丰富 整合周期不可控 监控功能强大 Armbri 1、开源强大支持的开源套 件 2、配套商业服务支持 商业成本较咼 元 1、国产套件 2、交流支持方 便 3、商业服务较 灵活 依赖于打包服 务公司的支持 无 1、开源中文支 持 2、基于大数据 处理核心,灵 活组合其它组 件来适应不同 产品阶段及项 目 半定制套件,预学现用 七、相关资料 HDP(horto nworks)A Complete En terprise Hadoop Data Platform 开源工具汇总整理 类别 名称 备注 查询引擎 hoe nix Salesforce 公司岀品,Apache HBase之上的一个 SQL 中间层,完全使 用 Java编写 Sti nger 原叫 Tez,下一代 Hive,Hortonworks 主导开发,运仃在 YARN 上的 DAG 计算框架 Presto Facebook 开源 Shark Spark 上的 SQL 执行引擎 Pig 基于 Hadoop MapReduce的脚本语言 Cloudera Impala 参照 Google Dremel实现,能运行在 HDFS 或 HBase 上,使用 C+开发 Apache Drill 参照 Google Dremel实现 Apache Tajo 一个运行在 YARN 上支持 SQL 的分布式数据仓库 Hive 基于 Hadoop MapReduce的 SQL 查询引擎 流式计算 Facebook Puma 实时数据流分析 Twitter Rai nbird 分布式实时统计系统,如网站的点击统计 Yahoo S4 Twitter Storm Java 开发的一个通用的、分布式的、可扩展的、分区容错的、可插拔的 无主架构的流式系统 使用 Java 和 Clojure 实现 迭代计算 Apache Hama 建立在 Hadoop 上基于 BSP(Bulk Synchronous Parallel)的计算框架,模仿了 Google 的 Pregel。海量数据多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力有了技术能力就需要纵深挖掘附加价值更好的服务如信息统计分析挖掘全文检索等考虑到面向的客户对象有的是上层的应用集成商考虑灵活的数据接口服平台监管四选型要求需要足我们平台的几大核心功能需求子功能不设局限性如不足全部需要对未足的其它核心功能的开放使用服务支持国内外资料及社区尽量丰富包括组件服务的成熟度流行度较高需要对选型平台自身所包含的核心求的条件标准清晰如承载的集群节点处理数据量及安全机制等五选型需要考虑简单性亲自试用大数据套件这也就意味着安装它将它连接到你的安装集成你的不同接口文件数据库等等并最终建模部署执行一些大数据作业自己来了解使 Apache Giraph 建立在 Hadoop 上的可伸缩的分布式迭代图处理系统,灵感来自 BSPbulk synchronous parallel)禾口 Google 的 Pregel HaLoop 迭代的 MapReduce Twister 迭代的 MapReduce 离线计算 Hadoop MapReduce 经典的大数据批处理系统 Berkeley Spark DataTorre nt 使用 Scala 语言实现,和 MapReduce有较大的竞争关系,性能强于 MapReduce 基于 Hadoop2.X 构建的实时流式处理和分析平台,每秒可以处理超过 10 亿个实时事件 键值存储 evelDB Google 开源的咼效 KV 编程库,注意它只是个库 RocksDB Facebook开源的,基于 Google 的 LevelDB,但提高了扩展性可以运行 在多核处理器上 HyperDex 下一代 KV 存储系统,支持 strings、integers、floats、lists、maps 和 sets 等丰富的数据类型 TokyoCab inet 日本人 Mikio Hirabayashi(平林干雄)开发的一款 DBM 数据库,注意 它只是个库(大名鼎鼎的 DBM 数据库 qdbm 就是 Mikio Hirabayashi 开 发的),读写非常快 Voldemort 一个分布式键值存储系统,是 AmazonDynamo的一个开源克隆,LinkedIn 开源 Amaz on Dyn amo 亚马逊的 KV 模式的存储平台,无主架构 Tair 淘宝岀品的高性能、分布式、可扩展、高可靠的 KV 结构存储系统,专 为小文件优化,并提供简单易用的接口(类似 Map),Tair 支持 Java 和 C 版本的客户端 Apache Accumulo 一个可靠的、可伸缩的、高性能的排序分布式的 KV 存储系统,参照 Google Bigtable 而设计,建立在 Hadoop、Thrift 和 Zookeeper 之上。Redis 使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、单机版 KV 数据库。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持 OceanBase 支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百 TB 数据上的跨行跨表事务 Amazon SimpleDB 一个可大规模伸缩、用 Erla ng 编写的咼可用数据存储 Vertica Cassa ndra HyperTable 惠普 2011 收购 Vertica,Vertica 是传统的关系型数据库,基于列存储,同时支持 MPR 使用标准的 SQL 查询,可以和 Hadoop/MapReduce进行集 成 Hadoop 成员,Facebook 于 2008 将 Cassandra 开源,基于 O(1)DHT 的完 全 P2P 架构 搜索引擎公司 Zvents 针对 Bigtable 的 C+开源实现 Fou ndati onDB 支持 ACID 事务处理的 NoSQL 数据库,提供非常好的性能、数据一致性 和操作弹性 海量数据多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力有了技术能力就需要纵深挖掘附加价值更好的服务如信息统计分析挖掘全文检索等考虑到面向的客户对象有的是上层的应用集成商考虑灵活的数据接口服平台监管四选型要求需要足我们平台的几大核心功能需求子功能不设局限性如不足全部需要对未足的其它核心功能的开放使用服务支持国内外资料及社区尽量丰富包括组件服务的成熟度流行度较高需要对选型平台自身所包含的核心求的条件标准清晰如承载的集群节点处理数据量及安全机制等五选型需要考虑简单性亲自试用大数据套件这也就意味着安装它将它连接到你的安装集成你的不同接口文件数据库等等并最终建模部署执行一些大数据作业自己来了解使 HBase Bigtable 在 Hadoop 中的实现,最初是 Powerset公司为了处理自然语言 搜索产生的海量数据而开展的项目 文件存储 CouchDB 面向文档的数据存储 MongoDB 文档数据库 Tachyon 加州大学伯克利分校的 AMPLab 基于 Hadoop 的核心组件开发岀一个更快 的版本 Tachyon,它从底层重构了 Hadoop 平台。KFS GFS 的 C+研源版本 HDFS GFS 在 Hadoop 中的实现 资源管理 Twitter Mesos Hadoop Yarn Google Borg 的翻版 类似于 Mesos 日志收集系 统 Facebook Scribe Facebook开源的日志收集系统,能够从各种日志源上收集日志,存储到 一个中央存储系统(可以是 NFS 分布式文件系统等)上,以便于进行 集中统计分析处理,常与 Hadoop 结合使用,Scribe 用于向 HDFS 中 Push 日志 Cloudera Flume Cloudera 提供的日志收集系统,支持对日志的实时性收集 ogstash 日志管理、分析和传输工具,可配合 kibana、ElasticSearch 组建成日 志查询系统 kiba na 为日志提供友好的 Web 查询页面 消息系统 StormMQ ZeroMQ 很底层的高性能网络库 RabbitMQ Apache ActiveMQ 在 AMQP 基础上完整的,可复用的企业消息系统 能力强劲的开源消息总线 Jafka 开源的、高性能的、跨语言分布式消息系统,最早是由 Apache 孵化的 Kafka(由 LinkedIn 捐助给 Apache)克隆而来 Apache Kafka Linkedin 于 2010 年 12 月份开源的分布式消息系统,它主要用于处理活 跃的流式数据,由 Scala 写成 分布式服务 ZooKeeper 分布式锁服务,PoxOS 算法的实现,对应 Google 的 Chubby RPC Apache Avro Facebook Thrift Hadoop 中的 RPC RPC 支持 C+/Java/PHP等众多语言 集群管理 Nagios 监视系统运行状态和网络信息的监视系统 Gan glia UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的 节点。Apache Ambari Hadoop 成员,管理和监视 Apache Hadoop集群的开源框架 基础设施 _evelDB Google 顶级大牛开发的单机版键值数据库,具有非常高的写性能 SSTable RecordIO 源于 Google,orted String Table 源于 Google Flat Buffers Protocol Buffers 针对游戏开发的,高效的跨平台序列化库,相比 Proto Buffers 开销更 小,因为 Flat Buffers 没有解析过程 Google 公司开发的一种数据描述语言,类似于 XML 能够将结构化数据序 列化,可用于数据存储、通信协议等方面。它不依赖于语言和平台并且 海量数据多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力有了技术能力就需要纵深挖掘附加价值更好的服务如信息统计分析挖掘全文检索等考虑到面向的客户对象有的是上层的应用集成商考虑灵活的数据接口服平台监管四选型要求需要足我们平台的几大核心功能需求子功能不设局限性如不足全部需要对未足的其它核心功能的开放使用服务支持国内外资料及社区尽量丰富包括组件服务的成熟度流行度较高需要对选型平台自身所包含的核心求的条件标准清晰如承载的集群节点处理数据量及安全机制等五选型需要考虑简单性亲自试用大数据套件这也就意味着安装它将它连接到你的安装集成你的不同接口文件数据库等等并最终建模部署执行一些大数据作业自己来了解使 Con siste nt Hashi ng 可扩展性极强。1997 年由麻省理工学院提岀,目标是为了解决因特网中的热点(Hot spot)问题,初衷和 CARP 十分类似,基本解决了在 P2P 环境中最为关 键的冋题 如何在动态的网络拓扑中分布存储和路由。Netty BloomFilter JBOSS提供的一个 java 开源框架,提供异步的、事件驱动的网络应用程 序框架,用以快速开发高性能、高可靠性的网络服务器和客户端程序。布隆过滤器,1970 年由布隆提岀,是一个很长的二进制矢量和一系列随 机映射函数,可以用于检索一个元素是否在一个集合中,优点是空间效 率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除 困难。搜索引擎 Nutch 开源 Java 实现的搜索引擎,诞生 Hadoop 的地方。.ucene 一套信息检索工具包,但并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能。SoIrCloud 基于 Solr 和 Zookeeper的分布式搜索,Solr4.0 的核心组件之一,主 要思想是使用 Zookeeper作为集群的配置信息中心 Solr Solr 是基于 Lucene 的搜索。开源的(Apache2 协议),分布式的,RESTful 的,构建在 Apache Lucene ElasticSearch 之上的的搜索引擎。一个基于 SQL 的全文检索引擎,可结合 MySQL PostgreSQL做全文检索,Sphi nx 可提供比数据库本身更专业的搜索功能,单一索引可达 1 亿条记录,1000 万条记录情况下的查询速度为 0.x 秒(毫秒级)。Lin kin 公司开发的一个开源分布式实时半结构化数据库,在全文索引的 Sen seiDB 基础圭寸装了 Browse Query Language(BQL,类似 SQL)的查询语法。数据挖掘 Mahout Hadoop 成员,目标是建立一个可扩展的机器学习库 aas Open Stack 美国国家航空航天局和 Rackspace合作研发的,以 Apache 许可证授权 云平台管理的项目,它不是一个软件。这个项目由几个主要的组件组合 起来完成一些具体的工作,旨在为公共及私有云的建设与管理提供软件 的开源项目。6 个核心项目:Nova(计算,Compute),Swift(对象存 储,Object),Glanee(镜像,Image),Keystone(身份,Identity),Horizon(自助门户,Dashboard),Quantum&Melange(网络&地址管 理),另外还有右干社区项目,女口 Rackspace(负载均衡)、Rackspace (关系型数据库)。Docker 应用容器引擎,让开发者可打包应用及依赖包到一个可移植的容器中,然后发布到 Linux 机器上,也可实现虚拟化。Kuber netes Google 开源的容器集群管理系统 mctfy Google 开源的 Linux 容器 监控管理 Dapper Google 生产环境下的大规模分布式系统的跟踪系统 Zipki n Twitter 开源的参考 Google Dapper 而开发,使用 Apache Cassandra 做 为数据存储系统 海量数据多数据类型的信息需要有丰富的数据接入能力和数据标准化处理能力有了技术能力就需要纵深挖掘附加价值更好的服务如信息统计分析挖掘全文检索等考虑到面向的客户对象有的是上层的应用集成商考虑灵活的数据接口服平台监管四选型要求需要足我们平台的几大核心功能需求子功能不设局限性如不足全部需要对未足的其它核心功能的开放使用服务支持国内外资料及社区尽量丰富包括组件服务的成熟度流行度较高需要对选型平台自身所包含的核心求的条件标准清晰如承载的集群节点处理数据量及安全机制等五选型需要考虑简单性亲自试用大数据套件这也就意味着安装它将它连接到你的安装集成你的不同接口文件数据库等等并最终建模部署执行一些大数据作业自己来了解使

    注意事项

    本文(大数据平台技术框架选型计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf)为本站会员(H****o)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开