欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    大数据计算平台建设方案.doc

    • 资源ID:3366544       资源大小:59.55KB        全文页数:7页
    • 资源格式: DOC        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据计算平台建设方案.doc

    大数据计算平台建设方案1.1 需求概述根据应用,这个项目数据量30T,企业数据量非常大,需要大量并发,网络爬虫爬取的企业数据信息存储在数据中心。 此数据量跟企业记录相关。 同时,需要对清洗后的记录和计算好的推荐结果进行存储,但是这些数据不放在数据中心。此项目之后会做成实时计算,需要用到流式计算的相关计算和调度。计算量很大,可以多部署 DCS 进程,提高计算并发度,作业调度也要采用分部署调度架构。1.2 总体设计云数据采集中心与大数据计算平台的关系是,云数据采集中心提供存储和计 算资源,通过 API 的方式访问资源,大数据计算平台主要实现核心算法,包括图 像匹配算法,挖掘算法,智能推荐算法,知识学习算法等等,也能够通过 API的方式建立统计应用、智能推荐应用等等。大数据计算平台 的需要的数据:包括网上实时爬取得、二次计算分析而获取的等等,都通过通用接口存储在云数据采集中心的分布式存储平台中(分布式文件 系统(S2DFS)、分布式数据库(D2B)。计算时候,通过接口发起作业,由云 数据采集中心的作业调度服务进程(JSS)负责调度,由数据计算服务进程(DCS) 负责计算处理,并把结果反馈给大数据计算平台的各个应用。根据 2.1.2 小节对 S2DFS分布式文件系统的详细介绍,本章节就不重复叙述, 由于要增加新的存储设备,对于新设备上安装分布式文件系统是否继续选用 S2DFS 还是 HDFS,我们需要回答以下几个问题:第一,预算增加及扩展问题:要部署 HDFS,还得单独购买两台高性能设备 作为 HDFS 的元数据库服务器(注:两台设备,构成主备;配置不能 比我们现在选择的设备配置差,不然就会成为瓶颈,如果差了,数据 节点就扩展不了几台。)。第二,学习成本及进度问题:要使用 HDFS,必须熟悉它的 API,以及后面 带来的整个 HDFS 集群部署维护等工作,这个与可利用的团队资源相 冲突;S2DFS 提供标准的 POSIX 协议接口,应用程序代码不需作任 何改变就可以执行。如果采用 HDFS,为了保证应用系统的透明,那 么统一接口的底层必须要写两种代码,第一是对面 S2DFS,第二是面 对 HDFS。新增加了开发、维护、测试的时间。第三,空间浪费及孤岛问题:S2DFS 与 HDFS 是两套不同体系的文件系统, 他们之间设备及存储空间是不能共用的,后面增加的6台,设备存储与前面部署的 10 台设备通过对原始数据处理压缩后,存储空间还有多余。二者构成了孤岛,同时造成空间浪费。第四,应用场景问题:HDFS 对存储网页等文件比较友好,毕竟它的基因就 是为互联网搜索而开发出来的。1.3 数据模型设计数据模型主要主企业数据模型与投资商数据模型两个部分。1.1.1 企业数据模型字段名备注name公司名称econ_kind企业类型regist_capi注册资本scope经营范围term_start营业开始日期term_end营业结束日期belong_org所属工商局oper_name法人start_date成立日期status在业employees.job_title主要人员职位employees.sex主要人员性别employees.name主要人员姓名branches.name分支机构名称changerecords.change_item变更项目changerecords.change_date变更日期changerecords.before_content变更前内容changerecords.after_content变更后内容partners.stock_name股东姓名partners.stock_type股东类型partners.identify_type证照/证件类型partners.identify_no证照/证件号码partners.should_capi_items.shoud_capi认缴出资额partners.should_capi_items.invest_type出资方式partners.should_capi_items.should_capi_date出资时间partners.real_capi_items.real_capi实缴出资额partners.real_capi_items.invest_type出资方式partners.real_capi_items.real_capi_date实缴时间1.1.2 投资商数据模型字段名备注name投资商名称econ_kind企业类型regist_capi注册资本scope经营范围term_start营业开始日期term_end营业结束日期belong_org所属工商局oper_name法人start_date成立日期status在业employees.job_title主要人员职位employees.sex主要人员性别employees.name主要人员姓名branches.name分支机构名称changerecords.change_item变更项目changerecords.change_date变更日期changerecords.before_content变更前内容changerecords.after_content变更后内容partners.stock_name股东姓名partners.stock_type股东类型partners.identify_type证照/证件类型partners.identify_no证照/证件号码partners.should_capi_items.shoud_capi认缴出资额partners.should_capi_items.invest_type出资方式partners.should_capi_items.should_capi_date出资时间partners.real_capi_items.real_capi实缴出资额partners.real_capi_items.invest_type出资方式partners.real_capi_items.real_capi_date实缴时间Investment_industry投资行业investment投资金额

    注意事项

    本文(大数据计算平台建设方案.doc)为本站会员(阿宝)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开