《2022年大数据与数据采集 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据与数据采集 .pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、题目: 大数据与数据采集姓名:孙伟学号:2014300526 班级:02011402 摘要:大数据浪潮正在席卷全球, 成为一种新的生产力。 大数据技术不仅仅指获得海量数据,更重要的意义是通过对海量数据的分析、整合来获得隐藏在数据背后的有价值的信息。而大数据作为一种崭新的思维方式更将给我们的社会带来新的变革。关键词:大数据,数据分析,数据采集1. 大数据的概念大数据( Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高, 或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。2. 大数据的发展最早提出大数据时代已经到来的
2、机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出, 数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。大数据迅速成为了计算机行业争相传诵的热门概念,也引起了行业内的高度关战略。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 5 页 - - - - - - - - - 虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。未来,大数据的整体态势和发展趋势, 只要体现在几个方面:
3、 大数据与学术、 大数据与人类的活动,大数据的安全隐私、关键应用、系统处理和整个产业的影响。大数据整体态势上,数据的规模将变得更大,数据资源化、数据的价值凸显、数据私有化出现和联盟共享。 随着大数据的发展, 数据共享联盟将逐渐壮大成为产业的核心一环。大数据的发展会催生许多新兴职业,会产生数据分析师、数据科学家、数据工程师, 有非常丰富的数据经验的人才会成为稀缺人才。随着大数据的共享越来越大,隐私问题也随之而来,比如说每天产生的通话、位置等等,但这给带来了便利的同时也给带来了个人隐私的问题。数据资源化, 大数据在国家各企业和社会层面成为最重要的战略资源,成为新的战略制高点和抢购的新焦点。3. 大
4、数据的分类3.1. 按照数据分析的实时性,分为实时数据分析和离线数据分析两种实时数据分析一般用于金融、 移动和互联网 B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、 推荐引擎的计算等, 应采用离线分析的方式, 通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据, 传统的 ETL工具往往彻底失效, 主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。3.2. 按照大数据的数据量,分为内存级别、海量级别三种、BI 级别。这里的内存级别指的是数据
5、量不超过集群的内存最大值海量级别指的是对于数据库和BI 产品已经完全失效或者成本过高的数据量BI 级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI 数据库之中进行分析。4. 大数据的特点4.1 海量性企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50 倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数 PB不等。简而言之,存储 1PB数据将需要两万台配备 50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。名师资料总结 - - -精品资料欢迎下载 - - - - - -
6、- - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 5 页 - - - - - - - - - 4.2 易变性大数据具有多层结构, 这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据, 大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。 传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。 目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。4.3 多样性一个普遍观点认为, 人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。 然而,数据多样性的增加主要是由于新型
7、多结构数据,以及包括网络日志、 社交媒体、 互联网搜索、 手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。4.4 高速性高速描述的是数据被创建和移动的速度。在高速网络时代, 通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据, 还必须知道如何快速处理、 分析并返回给用户, 以满足他们的实时需求。根据IMS Research 关于数据创建速度的调查,据预测,到 2020 年全球将拥有 220 亿部互联网连接设备。5 大数据采集技术5.1. 数据采集与大数据采集区别5.2
8、 传统数据采集的不足名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 5 页 - - - - - - - - - 传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据 CAP理论,难以保证其可用性和扩展性。5.3 大数据采集新的方法5.3.1 系统日志采集方法很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的
9、 Chukwa ,Cloudera 的 Flume,Facebook的 Scribe 等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。5.3.2 网络数据采集方法网络数据采集是指通过网络爬虫或网站公开API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用 DPI 或 DFI 等带宽管理技术进行处理。5.3.3 其他数据采集方法对于企业生产经营数据或学科研究数据等保密性要求较高的
10、数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。5.3.4 大数据采集平台 1)Apache Flume Flume 是 Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume 使用 JRuby来构建,所以依赖Java 运行环境。 2)Fluentd Fluentd是另一个开源的数据收集框架。 Fluentd 使用 C/Ruby开发, 使用 JSON文件来统一日志数据。 它的可插拔架构, 支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。Treasure Data ,Inc 对该产品提供支持和维护。
11、3)Logstash Logstash 是著名的开源数据栈ELK (ElasticSearch, Logstash , Kibana)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 5 页 - - - - - - - - - 中的那个 L。Logstash 用 JRuby开发,所有运行时依赖JVM 。4)Splunk Forwarder Splunk 是一个分布式的机器数据平台,主要有三个角色:Search Head 负责数据的搜索和处理,提供搜索时的信息抽取;Indexer 负责数据的存储和索引;Forwarder ,负责数据的收集,清洗,变形,并发送给Indexer 。参考文献:1 涂子沛大数据广西师范大学出版社2012年 7 月2 维克托迈尔 - 舍恩伯格著盛扬燕周涛译大数据时代浙江人民出版社 2013年 1 月 1 日3 熊怡“大数据”点亮智慧未来4 金宗泽冯亚丽纪博张希高快大数据分析中的关联挖掘2014年名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 5 页 - - - - - - - - -
限制150内