天体光谱数据挖掘技术幻灯片.ppt





《天体光谱数据挖掘技术幻灯片.ppt》由会员分享,可在线阅读,更多相关《天体光谱数据挖掘技术幻灯片.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、天体光谱数据挖掘技术第1页,共52页,编辑于2022年,星期五一、概一、概 述述 1)数据挖掘数据挖掘 2 2)天体光谱数据挖掘)天体光谱数据挖掘)天体光谱数据挖掘)天体光谱数据挖掘 3 3)课题的研究意义)课题的研究意义)课题的研究意义)课题的研究意义二、主要研究工作二、主要研究工作 1 1)基于约束基于约束基于约束基于约束FPFP树的天体光谱数据相关性分析树的天体光谱数据相关性分析树的天体光谱数据相关性分析树的天体光谱数据相关性分析 2 2)基于概念格的天体光谱离群数据挖掘基于概念格的天体光谱离群数据挖掘 第2页,共52页,编辑于2022年,星期五 数据挖掘数据挖掘 定义:数据挖掘就是从大
2、量的、不完全的、有噪声的、模糊的、定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含的、未知的、潜在的有用信息和知识,随机的数据中,提取隐含的、未知的、潜在的有用信息和知识,随机的数据中,提取隐含的、未知的、潜在的有用信息和知识,随机的数据中,提取隐含的、未知的、潜在的有用信息和知识,为决策支持服务。为决策支持服务。为决策支持服务。为决策支持服务。主要任务:关联规则、分类、聚类、离群数据等。主要任务:关联规则、分类、聚类、离群数据等。主要任务:关联规则、分
3、类、聚类、离群数据等。主要任务:关联规则、分类、聚类、离群数据等。常用的方法有:关联规则、决策树、神经网络、遗传算法、常用的方法有:关联规则、决策树、神经网络、遗传算法、常用的方法有:关联规则、决策树、神经网络、遗传算法、常用的方法有:关联规则、决策树、神经网络、遗传算法、粗糙集、模糊集、概念格、统计分析等。粗糙集、模糊集、概念格、统计分析等。粗糙集、模糊集、概念格、统计分析等。粗糙集、模糊集、概念格、统计分析等。第3页,共52页,编辑于2022年,星期五天体光谱数据挖掘天体光谱数据挖掘 我国正在建造一台大天区面积多目标光纤光谱望远镜我国正在建造一台大天区面积多目标光纤光谱望远镜我国正在建造一
4、台大天区面积多目标光纤光谱望远镜我国正在建造一台大天区面积多目标光纤光谱望远镜(LAMOSTLAMOST),是国家重大科学工程项目,也是世界上光谱获),是国家重大科学工程项目,也是世界上光谱获),是国家重大科学工程项目,也是世界上光谱获),是国家重大科学工程项目,也是世界上光谱获取率最高的望远镜。取率最高的望远镜。取率最高的望远镜。取率最高的望远镜。预计预计预计预计LAMOSTLAMOST所观测到的光谱数据容量将有可能达到所观测到的光谱数据容量将有可能达到所观测到的光谱数据容量将有可能达到所观测到的光谱数据容量将有可能达到4TB4TB。急需一种新的以计算机为主的数据分析技术急需一种新的以计算机
5、为主的数据分析技术急需一种新的以计算机为主的数据分析技术急需一种新的以计算机为主的数据分析技术,分析和识别如分析和识别如分析和识别如分析和识别如此庞大的海量光谱数据。此庞大的海量光谱数据。此庞大的海量光谱数据。此庞大的海量光谱数据。天体光谱数据处理主要内容天体光谱数据处理主要内容天体光谱数据处理主要内容天体光谱数据处理主要内容:预处理预处理预处理预处理(去噪、归一化等去噪、归一化等去噪、归一化等去噪、归一化等)、分类与识别分类与识别分类与识别分类与识别、测量(红移等参数)测量(红移等参数)测量(红移等参数)测量(红移等参数)等。等。等。等。第4页,共52页,编辑于2022年,星期五 一条一条一
6、条一条Seyfert 2 Seyfert 2 光谱数据图光谱数据图光谱数据图光谱数据图(红移为红移为红移为红移为0)0)天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天
7、体的视向运动和例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转自转自转自转。天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问宙中物质的分布特征,还可以研究天体的形成和随时间的演化等
8、重大科学问题题题题。第5页,共52页,编辑于2022年,星期五主要的方法主要的方法 交叉相关分析与主成分分析(交叉相关分析与主成分分析(交叉相关分析与主成分分析(交叉相关分析与主成分分析(PCAPCA)、人工神经网络、小波)、人工神经网络、小波)、人工神经网络、小波)、人工神经网络、小波变换、贝叶斯统计、变换、贝叶斯统计、变换、贝叶斯统计、变换、贝叶斯统计、SVMSVM等。等。等。等。典型的成果典型的成果 1 1)Autoclass Autoclass,基于贝叶斯统计的一种光谱分类方法,基于贝叶斯统计的一种光谱分类方法,基于贝叶斯统计的一种光谱分类方法,基于贝叶斯统计的一种光谱分类方法,发现了
9、一些以前未注意的光谱类型和谱线;发现了一些以前未注意的光谱类型和谱线;发现了一些以前未注意的光谱类型和谱线;发现了一些以前未注意的光谱类型和谱线;2 2)Gulati Gulati等人采用两层等人采用两层等人采用两层等人采用两层BPBP神经网络方法,用于恒星光谱次型的神经网络方法,用于恒星光谱次型的神经网络方法,用于恒星光谱次型的神经网络方法,用于恒星光谱次型的分类;分类;分类;分类;3 3)EllisEllis等人采用交叉相关分析对光谱进行分类;等人采用交叉相关分析对光谱进行分类;等人采用交叉相关分析对光谱进行分类;等人采用交叉相关分析对光谱进行分类;4 4)邱波等人采用基于粗糙集的方法,进
10、行了恒星光谱的分类识)邱波等人采用基于粗糙集的方法,进行了恒星光谱的分类识)邱波等人采用基于粗糙集的方法,进行了恒星光谱的分类识)邱波等人采用基于粗糙集的方法,进行了恒星光谱的分类识别;别;别;别;5 5)覃冬梅等人采用基于主分量分析法的二维恒星特征空间的)覃冬梅等人采用基于主分量分析法的二维恒星特征空间的)覃冬梅等人采用基于主分量分析法的二维恒星特征空间的)覃冬梅等人采用基于主分量分析法的二维恒星特征空间的快速光谱识别方法;快速光谱识别方法;快速光谱识别方法;快速光谱识别方法;6 6)刘中田等人提出基于小波特征的)刘中田等人提出基于小波特征的)刘中田等人提出基于小波特征的)刘中田等人提出基于
11、小波特征的MM型星自动识别方法型星自动识别方法型星自动识别方法型星自动识别方法等。等。等。等。第6页,共52页,编辑于2022年,星期五课题的研究意义课题的研究意义课题的研究意义课题的研究意义 由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,由于天文界对宇宙的认识还比较有限,LAMOSTLAMOST巡天计划的一巡天计划的一巡天计划的一巡天计划的一个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用个重要任务是要发现一些新
12、的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。体规律是数据挖掘值得研究和探索的新应用领域。体规律是数据挖掘值得研究和探索的新应用领域。体规律是数据挖掘值得研究和探索的新应用领域。面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势面向特定
13、任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以之一。以之一。以之一。以LAMOSTLAMOST项目为背景,对天体光谱数据挖掘技术进行项目为背景,对天体光谱数据挖掘技术进行项目为背景,对天体光谱数据挖掘技术进行项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,而且可直接应了研究,其研究成果不仅具有重要的理论价值,而且可直接应了研究,其研究成果不仅具有重要的理论价值,而且可直接应了研究,其研究成果不仅具有重要的理论价值,而且可直接应用到用到用到用到LAMOSTLAMOST中,为国家重大科学工程提供技术支撑。中,为国家重大科学工程提供技术支撑。中,为国家重大科学工程
14、提供技术支撑。中,为国家重大科学工程提供技术支撑。退回第7页,共52页,编辑于2022年,星期五引言引言关联规则描述了属性之间的关联程度,也就是说有效地描述关联规则描述了属性之间的关联程度,也就是说有效地描述关联规则描述了属性之间的关联程度,也就是说有效地描述关联规则描述了属性之间的关联程度,也就是说有效地描述了数据集属性之间的相关性关系。了数据集属性之间的相关性关系。了数据集属性之间的相关性关系。了数据集属性之间的相关性关系。利用关联规则来描述天体光谱数据特征与其物理化学性质之利用关联规则来描述天体光谱数据特征与其物理化学性质之利用关联规则来描述天体光谱数据特征与其物理化学性质之利用关联规则
15、来描述天体光谱数据特征与其物理化学性质之间存在的、未知的相关性是可行性的,具有重要的应用价值。间存在的、未知的相关性是可行性的,具有重要的应用价值。间存在的、未知的相关性是可行性的,具有重要的应用价值。间存在的、未知的相关性是可行性的,具有重要的应用价值。频繁模式集的生成频繁模式集的生成频繁模式集的生成频繁模式集的生成是提高关联规则挖掘效率的关键。是提高关联规则挖掘效率的关键。是提高关联规则挖掘效率的关键。是提高关联规则挖掘效率的关键。第8页,共52页,编辑于2022年,星期五频繁模式生成主要有:频繁模式生成主要有:频繁模式生成主要有:频繁模式生成主要有:AprioriApriori和和和和F
16、PFP两类算法。两类算法。两类算法。两类算法。AprioriApriori算法算法算法算法 优点优点优点优点:思路比较清晰,以递归统计为基础,剪枝生成频繁集;思路比较清晰,以递归统计为基础,剪枝生成频繁集;思路比较清晰,以递归统计为基础,剪枝生成频繁集;思路比较清晰,以递归统计为基础,剪枝生成频繁集;缺点缺点缺点缺点:在生成频繁模式过程中,需要产生大量的候选项和多在生成频繁模式过程中,需要产生大量的候选项和多在生成频繁模式过程中,需要产生大量的候选项和多在生成频繁模式过程中,需要产生大量的候选项和多次遍历数据库,次遍历数据库,次遍历数据库,次遍历数据库,I/OI/O代价太高,难以适应海量高维数
17、据。代价太高,难以适应海量高维数据。代价太高,难以适应海量高维数据。代价太高,难以适应海量高维数据。FPFP算法算法算法算法 优点优点优点优点:(l)(l)通过对通过对通过对通过对FPFP树的递归访问,产生频繁模式集,仅需要构树的递归访问,产生频繁模式集,仅需要构树的递归访问,产生频繁模式集,仅需要构树的递归访问,产生频繁模式集,仅需要构造造造造FPFP树和条件树和条件树和条件树和条件FPFP树,不需要产生候选项集;树,不需要产生候选项集;树,不需要产生候选项集;树,不需要产生候选项集;(2)(2)对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第对事务数据库仅需两次遍历,第对事务数据库
18、仅需两次遍历,第l l次遍历产生频繁次遍历产生频繁次遍历产生频繁次遍历产生频繁l-l-项集,项集,项集,项集,第第第第2 2次遍历用于构造次遍历用于构造次遍历用于构造次遍历用于构造FPFP树,从而降低了访问数据库的次数。树,从而降低了访问数据库的次数。树,从而降低了访问数据库的次数。树,从而降低了访问数据库的次数。缺点缺点缺点缺点:FP:FP树需要占用大量内存。树需要占用大量内存。树需要占用大量内存。树需要占用大量内存。第9页,共52页,编辑于2022年,星期五约束约束FP树及其构造树及其构造 一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识一阶谓词逻辑与背景知识 数据挖掘是
19、从宏观角度利用积累的巨量数据进行知识抽象数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象的高级阶段,是一项高级的智能活动,因此数据挖掘过程离不的高级阶段,是一项高级的智能活动,因此数据挖掘过程离不的高级阶段,是一项高级的智能活动,因此数据挖掘过程离不的高级阶段,是一项高级的智能活动,因此数据挖掘过程离不开背景知识的支持。开背景知识的支持。开背景知识的支持。开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。关
20、联规则挖掘过程也离不开背景知识的支持。面向关联规则挖掘的背景知识实际上是描述数据集中的对象面向关联规则挖掘的背景知识实际上是描述数据集中的对象面向关联规则挖掘的背景知识实际上是描述数据集中的对象面向关联规则挖掘的背景知识实际上是描述数据集中的对象与属性之间、属性与属性之间的约束关系,因此采用一阶谓词逻与属性之间、属性与属性之间的约束关系,因此采用一阶谓词逻与属性之间、属性与属性之间的约束关系,因此采用一阶谓词逻与属性之间、属性与属性之间的约束关系,因此采用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。辑描述关联规则挖掘中的背景知识是可行的。辑描述关联规则挖掘中的背景知识是可行的。辑描述关联
21、规则挖掘中的背景知识是可行的。第10页,共52页,编辑于2022年,星期五 定义定义定义定义3-1 3-1 设设设设r r 是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,是交易数据库中的关系表名个体变量,f f 是表是表是表是表示关系表到属性的映射的函词,示关系表到属性的映射的函词,示关系表到属性的映射的函词,示关系表到属性的映射的函词,k k 是支持度(是支持度(是支持度(是支持度(0k10k1),),),),则背景知识则背景知识则背景知识则背景知识G G可由如下谓词公式,通过逻辑运算符组成合适可由如下谓词公式,通过逻辑运算符组成合适可
22、由如下谓词公式,通过逻辑运算符组成合适可由如下谓词公式,通过逻辑运算符组成合适公式。公式。公式。公式。(1)Interesting(f(r)(1)Interesting(f(r)(2)support(f(r),k)(2)support(f(r),k)Interesting(f(r)Interesting(f(r)(3)Interested(f(r)(3)Interested(f(r)Interesting(f(r)Interesting(f(r)(4)P(f(r)(4)P(f(r)Q(f(r)Q(f(r)Interesting(f(r)Interesting(f(r)定义定义定义定义3-3 3
23、-3 设设设设D D为交易数据库,为交易数据库,为交易数据库,为交易数据库,minmin为最小支持度,为最小支持度,为最小支持度,为最小支持度,G G为背景知为背景知为背景知为背景知识,如果识,如果识,如果识,如果L L是一频繁模式,且是一频繁模式,且是一频繁模式,且是一频繁模式,且G G(L L)=True=True,则称,则称,则称,则称L L为约束为约束为约束为约束频繁模式。频繁模式。频繁模式。频繁模式。第11页,共52页,编辑于2022年,星期五 CFP-treeCFP-tree及构造及构造及构造及构造 定义定义定义定义3-4 3-4 设设设设G G为背景知识,对于任意频繁模式树为背景
24、知识,对于任意频繁模式树为背景知识,对于任意频繁模式树为背景知识,对于任意频繁模式树FP-treeFP-tree,如,如,如,如果从根节点到叶子节点的路径中,所描述的任一频繁模式果从根节点到叶子节点的路径中,所描述的任一频繁模式果从根节点到叶子节点的路径中,所描述的任一频繁模式果从根节点到叶子节点的路径中,所描述的任一频繁模式P P,使得使得使得使得G G(P P)=True=True,则称,则称,则称,则称FP-TreeFP-Tree为约束频繁模式树为约束频繁模式树为约束频繁模式树为约束频繁模式树CFP-CFP-treetree。构造思想与方法构造思想与方法构造思想与方法构造思想与方法:只有
25、数据库中的事务只有数据库中的事务只有数据库中的事务只有数据库中的事务T T满足满足满足满足G G所构造出的所构造出的所构造出的所构造出的FP-TreeFP-Tree,才能包含,才能包含,才能包含,才能包含用户感兴趣的约束频繁模式,可采用两次扫描数据库来完成用户感兴趣的约束频繁模式,可采用两次扫描数据库来完成用户感兴趣的约束频繁模式,可采用两次扫描数据库来完成用户感兴趣的约束频繁模式,可采用两次扫描数据库来完成CFP-CFP-treetree的构造的构造的构造的构造 。第12页,共52页,编辑于2022年,星期五 定理定理定理定理2-1 2-1 设设设设D D为一个交易数据库、为一个交易数据库、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 天体 光谱 数据 挖掘 技术 幻灯片

限制150内