大数据分析、挖掘与应用13636.pptx
《大数据分析、挖掘与应用13636.pptx》由会员分享,可在线阅读,更多相关《大数据分析、挖掘与应用13636.pptx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 大数据分析、挖掘与应用数据挖掘与智能信息系统实验室数据挖掘与智能信息系统实验室 一、大数据分析与挖掘 大数据的基本概念大数据的基本概念 比较有代表性:比较有代表性:1)3V 1)3V 定义,即认为大数据需满足定义,即认为大数据需满足3 3 个特点:规模性个特点:规模性(Volume)(Volume)、多样性、多样性(Variety)(Variety)和高速性和高速性(Velocity)(Velocity)。2)4V 2)4V 定义,即尝试在定义,即尝试在3V 3V 的基础上增加一个新的特性。关的基础上增加一个新的特性。关于第四个于第四个V V 的说法并不统一,的说法并不统一,IDC IDC
2、认为大数据还应当具有认为大数据还应当具有价值性价值性(Value)(Value),大数据的价值往往呈现出稀疏性的特点。,大数据的价值往往呈现出稀疏性的特点。而而IBM IBM 认为大数据必然具有真实性认为大数据必然具有真实性(Veracity)(Veracity)。3)3)维基百科对大数据的定义则简单明了:大数据是指利用维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。时间的数据集。二、大数据处理架构大数据处理模式大数据处理模式 1 1)流处理)流处理(Stream Processi
3、ng)(Stream Processing),即直接处理,即直接处理 流处理的基本理念是数据的价值会随着时间的流流处理的基本理念是数据的价值会随着时间的流逝而不断减少。因此,尽可能快地对最新的数据做出分析逝而不断减少。因此,尽可能快地对最新的数据做出分析并给出结果是所有流数据处理模式的共同目标。并给出结果是所有流数据处理模式的共同目标。2 2)批处理)批处理(Batch Processing)(Batch Processing),即先存储后处理,即先存储后处理 Google Google 公司在公司在2004 2004 年提出的年提出的MapReduceMapReduce编程模编程模型是最具代
4、表性的批处理模式。型是最具代表性的批处理模式。MAPREDUCE执行流程图 MapReduceMapReduce模型首先将用模型首先将用户户的原始数据源的原始数据源进进行分行分块块,然后分然后分别别交交给给不同的不同的MapMap任任务务区区处处理。理。MapMap任任务务从从输输入入中解析出中解析出Key/ValueKey/Value对对集合,然后集合,然后对这对这些集合些集合执执行用行用户户自行定自行定义义的的MapMap函数得到中函数得到中间结间结果,并将果,并将该结该结果写入果写入本地硬本地硬盘盘。ReduceReduce任任务务从硬从硬盘盘上上读读取数据之后,会根取数据之后,会根据据
5、key key 值进值进行排序,将具有相同行排序,将具有相同key key 值值的的组织组织在一起。在一起。最后用最后用户户自定自定义义的的ReduceReduce函数会作用于函数会作用于这这些排好序的些排好序的结结果并果并输输出最出最终结终结果。果。MapReduceMapReduce的核心的核心设计设计思想:思想:1)1)将将问题问题分而治之;分而治之;2)2)把把计计算推到数据而不是把数据推到算推到数据而不是把数据推到计计算,有效的算,有效的避免数据避免数据传输过传输过程中程中产产生的大量通生的大量通讯讯开开销销。MapReduceMapReduce模型模型简单简单,且,且现实现实中很多
6、中很多问题问题都都可用可用MapReduceMapReduce模型来表示。因此模型来表示。因此该该模型公开后,立模型公开后,立刻受到极大的关注,并在生物信息学、文本挖掘等刻受到极大的关注,并在生物信息学、文本挖掘等领领域得到广泛的域得到广泛的应应用。用。大数据处理的基本流程大数据处理的基本流程 1)1)数据抽取与集成数据抽取与集成 2)2)数据分析数据分析 面临着一些新的挑战:数据量大并不一定意味面临着一些新的挑战:数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多着数据价值的增加,相反这往往意味着数据噪音的增多;大数据时代的算法需要进行调整,准确率不再是大数据应大数据时代的
7、算法需要进行调整,准确率不再是大数据应用的最主要指标用的最主要指标;数据结果好坏的衡量。数据结果好坏的衡量。3 3)数据解释)数据解释(可视化技术可视化技术)三、天体光谱大数据分析与挖掘 我国已建造一台大天区面积多目标光纤光谱望远镜我国已建造一台大天区面积多目标光纤光谱望远镜(LAMOSTLAMOST),是国家重大科学工程项目,也是世界上光谱),是国家重大科学工程项目,也是世界上光谱获取率最高的望远镜。预计获取率最高的望远镜。预计LAMOSTLAMOST所观测到的光谱数据容所观测到的光谱数据容量将有可能达到量将有可能达到4TB4TB;巡天所覆盖的波段为;巡天所覆盖的波段为37003700埃至埃
8、至90009000埃,即其观测属性可达数千维,是典型的高维数据;数据类埃,即其观测属性可达数千维,是典型的高维数据;数据类型:图像和型:图像和FITSFITS文件等。文件等。科学目标科学目标:“星系红移巡天星系红移巡天”、“恒星和银河系的恒星和银河系的结构结构 特征特征”和和“多波段认证多波段认证”。天体光谱大数据分析处理主要内容天体光谱大数据分析处理主要内容:预处理预处理(去噪、去噪、归一化等归一化等)、分类与识别分类与识别、测量(红移等参数)测量(红移等参数)等。等。一条SEYFERT 2 光谱数据图(红移为0)天体光天体光谱谱是天体是天体电电磁磁辐辐射按照波射按照波长长的有序排列,的有序
9、排列,蕴蕴含着天体的重要物含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、理信息,例如:天体的化学成份、天体的表面温度、直径、质质量、光度量、光度以及天体的以及天体的视视向运向运动动和自和自转转。天文学家和天体物理学家通天文学家和天体物理学家通过过分析天体光分析天体光谱谱的信息,不的信息,不仅仅可以研究宇宙中物可以研究宇宙中物质质的分布特征,的分布特征,还还可以研究天体的形可以研究天体的形成和随成和随时间时间的演化等重大科学的演化等重大科学问题问题。由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,LAMOSTLAMOST巡巡天计划的一个重要任务是要发现一
10、些新的、特殊类型天计划的一个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体光的天体,因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。挖掘值得研究和探索的新应用领域。面向特定任务的数据挖掘是当前数据挖掘面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以领域发展的趋势之一。以LAMOSTLAMOST项目为背景,对天体项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有光谱数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,而且可
11、直接应用到重要的理论价值,而且可直接应用到LAMOSTLAMOST中,为国中,为国家重大科学工程提供技术支撑。家重大科学工程提供技术支撑。近年来主持承担的部分课题1 1 海量高维天体光谱数据挖掘及其并行化研究(海量高维天体光谱数据挖掘及其并行化研究(6127226361272263),国家自),国家自然科学基金,然科学基金,2013.1-2016.12,2013.1-2016.12,(在研)(在研)2 2 面向面向LAMOST LAMOST 天文光谱特征线的数据挖掘方法研究(天文光谱特征线的数据挖掘方法研究(6107314561073145),),国家自然科学基金,国家自然科学基金,2011.
12、1-2013.12,2011.1-2013.12,(在研)(在研)3 3 面向天文光谱的数据挖掘算法性能分析与并行化研究面向天文光谱的数据挖掘算法性能分析与并行化研究(6111112031761111120317),国家自然科学基金委国际合作与交流项目,),国家自然科学基金委国际合作与交流项目,2011.6-2011.12,2011.6-2011.12,(结题)(结题)4 4 基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术(6077301460773014),国家自然科学基金,),国家自然科学基金,2008.1-2010.12,
13、2008.1-2010.12,(结题)(结题)5 5 基于数据网格的分布式数据挖掘方法研究(基于数据网格的分布式数据挖掘方法研究(6091112047860911120478),国家),国家自然科学基金委国际合作与交流项目,自然科学基金委国际合作与交流项目,2009.9-2010.3,2009.9-2010.3,(结题)(结题)6 6 基于背景知识的数据挖掘方法及其在基于背景知识的数据挖掘方法及其在LAMOSTLAMOST中的应用(中的应用(6057307560573075),),国家自然科学基金,国家自然科学基金,2006.1-2008.12,2006.1-2008.12,(结题)(结题)7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 挖掘 应用 13636
限制150内