天体光谱数据挖掘技术.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《天体光谱数据挖掘技术.ppt》由会员分享,可在线阅读,更多相关《天体光谱数据挖掘技术.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、天体光谱数据挖掘技术天体光谱数据挖掘技术太原科技大学计算机科学与技术学院张继福太原科技大学计算机科学与技术学院张继福太原科技大学计算机科学与技术学院张继福太原科技大学计算机科学与技术学院张继福 20082008年年1111月月一、概一、概 述述 1)数据挖掘数据挖掘数据挖掘数据挖掘 2 2)天体光谱数据挖掘)天体光谱数据挖掘)天体光谱数据挖掘)天体光谱数据挖掘 3 3)课题的研究意义)课题的研究意义)课题的研究意义)课题的研究意义二、主要研究工作二、主要研究工作 1 1)基于约束基于约束基于约束基于约束FPFP树的天体光谱数据相关性分析树的天体光谱数据相关性分析树的天体光谱数据相关性分析树的天
2、体光谱数据相关性分析 2 2)基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘 数据挖掘数据挖掘 定义:数据挖掘就是从大量的、不完全的、有噪声的、模定义:数据挖掘就是从大量的、不完全的、有噪声的、模定义:数据挖掘就是从大量的、不完全的、有噪声的、模定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含的、未知的、潜在的有用糊的、随机的数据中,提取隐含的、未知的、潜在的有用糊的、随机的数据中,提取隐含的、未知的、潜在的有用糊的、随机的数据中,提取隐含的、未知的、潜在的有用信息和知识,为决策支持
3、服务。信息和知识,为决策支持服务。信息和知识,为决策支持服务。信息和知识,为决策支持服务。主要任务:关联规则、分类、聚类、离群数据等。主要任务:关联规则、分类、聚类、离群数据等。主要任务:关联规则、分类、聚类、离群数据等。主要任务:关联规则、分类、聚类、离群数据等。常用的方法有:关联规则、决策树、神经网络、遗传算法、常用的方法有:关联规则、决策树、神经网络、遗传算法、常用的方法有:关联规则、决策树、神经网络、遗传算法、常用的方法有:关联规则、决策树、神经网络、遗传算法、粗糙集、模糊集、概念格、统计分析等。粗糙集、模糊集、概念格、统计分析等。粗糙集、模糊集、概念格、统计分析等。粗糙集、模糊集、概
4、念格、统计分析等。天体光谱数据挖掘天体光谱数据挖掘 我国正在建造一台大天区面积多目标光纤光谱望远我国正在建造一台大天区面积多目标光纤光谱望远我国正在建造一台大天区面积多目标光纤光谱望远我国正在建造一台大天区面积多目标光纤光谱望远镜(镜(镜(镜(LAMOSTLAMOST),是国家重大科学工程项目,也是世界),是国家重大科学工程项目,也是世界),是国家重大科学工程项目,也是世界),是国家重大科学工程项目,也是世界上光谱获取率最高的望远镜。上光谱获取率最高的望远镜。上光谱获取率最高的望远镜。上光谱获取率最高的望远镜。预计预计预计预计LAMOSTLAMOST所观测到的光谱数据容量将有可能达所观测到的光
5、谱数据容量将有可能达所观测到的光谱数据容量将有可能达所观测到的光谱数据容量将有可能达到到到到4TB4TB。急需一种新的以计算机为主的数据分析技术急需一种新的以计算机为主的数据分析技术急需一种新的以计算机为主的数据分析技术急需一种新的以计算机为主的数据分析技术,分析分析分析分析和识别如此庞大的海量光谱数据。和识别如此庞大的海量光谱数据。和识别如此庞大的海量光谱数据。和识别如此庞大的海量光谱数据。天体光谱数据处理主要内容天体光谱数据处理主要内容天体光谱数据处理主要内容天体光谱数据处理主要内容:预处理预处理预处理预处理(去噪、归一化去噪、归一化去噪、归一化去噪、归一化等等等等)、分类与识别分类与识别
6、分类与识别分类与识别、测量(红移等参数)测量(红移等参数)测量(红移等参数)测量(红移等参数)等。等。等。等。一条一条Seyfert 2 光谱数据图光谱数据图(红移为红移为0)天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的
7、光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问题形成和随时间的演化等重大科学问题。主要的方法主要的方法主要的方法主要的方法 交叉相关分析与主成分分析(交叉相关分析与主成分分析(交叉相关分析与主成分分析(交叉相关分析与主成分分析(PCAPCA)、人工神经网络、)、人工神经网络、)、人工神经网络、)、人工神经网络、小波变换、贝叶斯统计、小波变换、贝叶斯统计、小波变换、贝叶斯统计、小波变换、贝叶斯统计、SVMSVM等。等。等。等。典型的成果典型的成果典型的成果典型的成果 1 1)AutoclassAutoclass,基于贝叶斯统计的一种光谱分类方,基于贝
8、叶斯统计的一种光谱分类方,基于贝叶斯统计的一种光谱分类方,基于贝叶斯统计的一种光谱分类方法,发现了一些以前未注意的光谱类型和谱线;法,发现了一些以前未注意的光谱类型和谱线;法,发现了一些以前未注意的光谱类型和谱线;法,发现了一些以前未注意的光谱类型和谱线;2 2)GulatiGulati等人采用两层等人采用两层等人采用两层等人采用两层BPBP神经网络方法,用于恒星神经网络方法,用于恒星神经网络方法,用于恒星神经网络方法,用于恒星光谱次型的分类;光谱次型的分类;光谱次型的分类;光谱次型的分类;3 3)EllisEllis等人采用交叉相关分析对光谱进行分类;等人采用交叉相关分析对光谱进行分类;等人
9、采用交叉相关分析对光谱进行分类;等人采用交叉相关分析对光谱进行分类;4 4)邱波等人采用基于粗糙集的方法,进行了恒星光)邱波等人采用基于粗糙集的方法,进行了恒星光)邱波等人采用基于粗糙集的方法,进行了恒星光)邱波等人采用基于粗糙集的方法,进行了恒星光谱的分类识别;谱的分类识别;谱的分类识别;谱的分类识别;5 5)覃冬梅等人采用基于主分量分析法的二维恒星特)覃冬梅等人采用基于主分量分析法的二维恒星特)覃冬梅等人采用基于主分量分析法的二维恒星特)覃冬梅等人采用基于主分量分析法的二维恒星特征空间的快速光谱识别方法;征空间的快速光谱识别方法;征空间的快速光谱识别方法;征空间的快速光谱识别方法;6 6)
10、刘中田等人提出基于小波特征的)刘中田等人提出基于小波特征的)刘中田等人提出基于小波特征的)刘中田等人提出基于小波特征的MM型星自动识别型星自动识别型星自动识别型星自动识别方法等。方法等。方法等。方法等。课题的研究意义课题的研究意义课题的研究意义课题的研究意义 由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,LAMOSTLAMOST巡天巡天巡天巡天计划的一个重要任务是要发现一些新的、特殊类型的天体,计划的一个重要任务是要发现一些新的、特殊类型的天体,计划的一个重要任务是要发现一些新的、特殊类型的天体,计划的一
11、个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体光谱数据中发现因此,如何利用数据挖掘技术从海量天体光谱数据中发现因此,如何利用数据挖掘技术从海量天体光谱数据中发现因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探未知的、特殊的天体及天体规律是数据挖掘值得研究和探未知的、特殊的天体及天体规律是数据挖掘值得研究和探未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。索的新应用领域。索的新应用领域。索的新应用领域。面向特定任务的数据挖掘是当前数据挖掘领域发展的面向特定任务的数据挖掘是当前数据挖掘领域发展的
12、面向特定任务的数据挖掘是当前数据挖掘领域发展的面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以趋势之一。以趋势之一。以趋势之一。以LAMOSTLAMOST项目为背景,对天体光谱数据挖掘项目为背景,对天体光谱数据挖掘项目为背景,对天体光谱数据挖掘项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,技术进行了研究,其研究成果不仅具有重要的理论价值,技术进行了研究,其研究成果不仅具有重要的理论价值,技术进行了研究,其研究成果不仅具有重要的理论价值,而且可直接应用到而且可直接应用到而且可直接应用到而且可直接应用到LAMOSTLAMOST中,为国家重大科学工程提供中
13、,为国家重大科学工程提供中,为国家重大科学工程提供中,为国家重大科学工程提供技术支撑。技术支撑。技术支撑。技术支撑。退回引言引言引言引言关联规则描述了属性之间的关联程度,也就是说有效地描关联规则描述了属性之间的关联程度,也就是说有效地描关联规则描述了属性之间的关联程度,也就是说有效地描关联规则描述了属性之间的关联程度,也就是说有效地描述了数据集属性之间的相关性关系。述了数据集属性之间的相关性关系。述了数据集属性之间的相关性关系。述了数据集属性之间的相关性关系。利用关联规则来描述天体光谱数据特征与其物理化学性质利用关联规则来描述天体光谱数据特征与其物理化学性质利用关联规则来描述天体光谱数据特征与
14、其物理化学性质利用关联规则来描述天体光谱数据特征与其物理化学性质之间存在的、未知的相关性是可行性的,具有重要的应用之间存在的、未知的相关性是可行性的,具有重要的应用之间存在的、未知的相关性是可行性的,具有重要的应用之间存在的、未知的相关性是可行性的,具有重要的应用价值。价值。价值。价值。频繁模式集的生成频繁模式集的生成频繁模式集的生成频繁模式集的生成是提高关联规则挖掘效率的关键。是提高关联规则挖掘效率的关键。是提高关联规则挖掘效率的关键。是提高关联规则挖掘效率的关键。频繁模式生成主要有:频繁模式生成主要有:频繁模式生成主要有:频繁模式生成主要有:AprioriApriori和和和和FPFP两类
15、算法。两类算法。两类算法。两类算法。AprioriApriori算法算法算法算法 优点优点优点优点:思路比较清晰,以递归统计为基础,剪枝生成频繁思路比较清晰,以递归统计为基础,剪枝生成频繁思路比较清晰,以递归统计为基础,剪枝生成频繁思路比较清晰,以递归统计为基础,剪枝生成频繁集;集;集;集;缺点缺点缺点缺点:在生成频繁模式过程中,需要产生大量的候选项和在生成频繁模式过程中,需要产生大量的候选项和在生成频繁模式过程中,需要产生大量的候选项和在生成频繁模式过程中,需要产生大量的候选项和多次遍历数据库,多次遍历数据库,多次遍历数据库,多次遍历数据库,I/OI/O代价太高,难以适应海量高维数据。代价太
16、高,难以适应海量高维数据。代价太高,难以适应海量高维数据。代价太高,难以适应海量高维数据。FPFP算法算法算法算法 优点优点优点优点:(l)(l)通过对通过对通过对通过对FPFP树的递归访问,产生频繁模式集,仅需树的递归访问,产生频繁模式集,仅需树的递归访问,产生频繁模式集,仅需树的递归访问,产生频繁模式集,仅需要构造要构造要构造要构造FPFP树和条件树和条件树和条件树和条件FPFP树,不需要产生候选项集;树,不需要产生候选项集;树,不需要产生候选项集;树,不需要产生候选项集;(2)(2)对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第对事务数据库仅需两次遍
17、历,第l l次遍历产生频繁次遍历产生频繁次遍历产生频繁次遍历产生频繁l-l-项集,第项集,第项集,第项集,第2 2次遍历用于构造次遍历用于构造次遍历用于构造次遍历用于构造FPFP树,从而降低了访问数据树,从而降低了访问数据树,从而降低了访问数据树,从而降低了访问数据库的次数。库的次数。库的次数。库的次数。缺点缺点缺点缺点:FP:FP树需要占用大量内存。树需要占用大量内存。树需要占用大量内存。树需要占用大量内存。约束约束约束约束FPFP树及其构造树及其构造树及其构造树及其构造 一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识 数据挖掘是从宏观角度利用积累的
18、巨量数据进行知识数据挖掘是从宏观角度利用积累的巨量数据进行知识数据挖掘是从宏观角度利用积累的巨量数据进行知识数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象的高级阶段,是一项高级的智能活动,因此数据挖掘抽象的高级阶段,是一项高级的智能活动,因此数据挖掘抽象的高级阶段,是一项高级的智能活动,因此数据挖掘抽象的高级阶段,是一项高级的智能活动,因此数据挖掘过程离不开背景知识的支持。过程离不开背景知识的支持。过程离不开背景知识的支持。过程离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不
19、开背景知识的支持。面向关联规则挖掘的背景知识实际上是描述数据集中面向关联规则挖掘的背景知识实际上是描述数据集中面向关联规则挖掘的背景知识实际上是描述数据集中面向关联规则挖掘的背景知识实际上是描述数据集中的对象与属性之间、属性与属性之间的约束关系,因此采的对象与属性之间、属性与属性之间的约束关系,因此采的对象与属性之间、属性与属性之间的约束关系,因此采的对象与属性之间、属性与属性之间的约束关系,因此采用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。用一阶谓词逻辑描述关联规则挖掘中的背景知识
20、是可行的。定义定义定义定义3-1 3-1 设设设设r r 是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,f f 是是是是表示关系表到属性的映射的函词,表示关系表到属性的映射的函词,表示关系表到属性的映射的函词,表示关系表到属性的映射的函词,k k 是支持度是支持度是支持度是支持度(0k10k1),则背景知识),则背景知识),则背景知识),则背景知识G G可由如下谓词公式,通过逻辑可由如下谓词公式,通过逻辑可由如下谓词公式,通过逻辑可由如下谓词公式,通过逻辑运算符组成合适公式。运算符组成合适公式。运算符组成
21、合适公式。运算符组成合适公式。(1)Interesting(1)Interesting(f(rf(r)(2)(2)support(f(r),ksupport(f(r),k)Interesting(Interesting(f(rf(r)(3)(3)Interested(f(rInterested(f(r)Interesting(Interesting(f(rf(r)(4)(4)P(f(rP(f(r)Q(f(rQ(f(r)Interesting(Interesting(f(rf(r)定义定义定义定义3-3 3-3 设设设设D D为交易数据库,为交易数据库,为交易数据库,为交易数据库,minmin为
22、最小支持度,为最小支持度,为最小支持度,为最小支持度,G G为背为背为背为背景知识,如果景知识,如果景知识,如果景知识,如果L L是一频繁模式,且是一频繁模式,且是一频繁模式,且是一频繁模式,且G G(L L)=True=True,则称,则称,则称,则称L L为约束频繁模式。为约束频繁模式。为约束频繁模式。为约束频繁模式。CFP-treeCFP-tree及构造及构造及构造及构造 定义定义定义定义3-4 3-4 设设设设G G为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树FP-treeFP-tree,如果从根节点到叶子节点
23、的路径中,所描述的任一频繁,如果从根节点到叶子节点的路径中,所描述的任一频繁,如果从根节点到叶子节点的路径中,所描述的任一频繁,如果从根节点到叶子节点的路径中,所描述的任一频繁模式模式模式模式P P,使得,使得,使得,使得G G(P P)=True=True,则称,则称,则称,则称FP-TreeFP-Tree为约束频繁模为约束频繁模为约束频繁模为约束频繁模式树式树式树式树CFP-treeCFP-tree。构造思想与方法构造思想与方法构造思想与方法构造思想与方法:只有数据库中的事务只有数据库中的事务只有数据库中的事务只有数据库中的事务T T满足满足满足满足G G所构造出的所构造出的所构造出的所构
24、造出的FP-TreeFP-Tree,才能包含用户感兴趣的约束频繁模式,可采用两次扫描数才能包含用户感兴趣的约束频繁模式,可采用两次扫描数才能包含用户感兴趣的约束频繁模式,可采用两次扫描数才能包含用户感兴趣的约束频繁模式,可采用两次扫描数据库来完成据库来完成据库来完成据库来完成CFP-treeCFP-tree的构造的构造的构造的构造 。定理定理定理定理2-1 2-1 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、minmin为最小支持度、为最小支持度、为最小支持度、为最小支持度、G G为背景知识,所构造出的约束为背景知识,所构造出的约束为背景知识,所构造出
25、的约束为背景知识,所构造出的约束FPFP树为树为树为树为CFP-treeCFP-tree,则从,则从,则从,则从CFP-treeCFP-tree提取出的任意频繁模式提取出的任意频繁模式提取出的任意频繁模式提取出的任意频繁模式P P,一定是满足,一定是满足,一定是满足,一定是满足G G(P P)=true=true(即约束频繁模式)。(即约束频繁模式)。(即约束频繁模式)。(即约束频繁模式)。定理定理定理定理2-2 2-2 设设设设D D为一个交易数据库、为一个交易数据库、为一个交易数据库、为一个交易数据库、minmin为最小支持度、为最小支持度、为最小支持度、为最小支持度、G G为背景知识,所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 天体 光谱 数据 挖掘 技术
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内