太阳物理研究中机器学习方法的运用,天文学论文.docx
《太阳物理研究中机器学习方法的运用,天文学论文.docx》由会员分享,可在线阅读,更多相关《太阳物理研究中机器学习方法的运用,天文学论文.docx(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、太阳物理研究中机器学习方法的运用,天文学论文摘 要: 太阳物理研究已经进入大数据时代, 而机器学习作为大数据研究的一种良好工具已经获得越来越多的认可.本文评述了自2007年以来机器学习在太阳物理中的应用.从结果上看, 近期4年这一领域的研究明显增加.所利用的数据包括地面和空间的各种仪器、各种类型和波段的太阳观测资料.研究领域涵盖太阳耀斑、日冕物质抛射、太阳黑子等太阳物理研究的主要方面.当前固然获得一些很好的结果, 但尚未有突破性的进展.使用的机器学习方式方法牵涉分类、回归、聚类、降维以及深度学习等手段, 但经典的算法, 尤其是分类方式方法仍然占据主导地位.这意味着机器学习在太阳物理的应用还处于
2、起步阶段, 但同样也意味着在这一领域还有很多工作能够深切进入开展. 本文关键词语: 太阳物理; 太阳活动; 机器学习; 深度学习; Abstract: Solar physics has entered the era of big data, and machine learning has gained more and more recognition as a good tool for big data research. This paper reviews the application results of machine learning in solar physics s
3、ince 2007. Our studies have shown that research in this field has increased significantly during the last four years. Massive solar observation data obtained from various instruments on the ground and in space have been applied, and the topics have covered major aspects of solar physics, such as sol
4、ar flares, coronal mass ejections, sunspots. Although some good results have emerged and proved that machine learning is suitable for data analysis of solar physics, there has not been a breakthrough yet. The machines learning methods that used in this field involve classification, regression, clust
5、ering, dimensionality reduction, and deep learning. However, classical algorithms, especially classical classification method is more popular. This means that the application of machine learning in solar physics is still in its infancy, but it also means that there is still a lot of work in this fie
6、ld that can be studied in the future. Keyword: solar physics; solar activity; machine learning; deep learning; 1、 引言 天文学是以观测为基础的科学, 作为天文学重要组成部分的太阳物理学, 其观测技术在21世纪有了宏大的发展. 太阳是唯逐一颗能够进行高空间、时间、光谱分辨率和高偏振精度观测的恒星.太阳观测方式方法的进步, 一方面为研究太阳磁场、流场精细构造等太阳物理基本问题提供了强有力的手段;另一方面更是极大推动了太阳观测在空间天气监测预报中的应用, 十分是对各种太阳活动的短时标现象
7、高时空分辨率观测, 以及对太阳活动现象演化经过的长时间监测.当下, 太阳观测已经发展到从地面到空间, 从高能到射电, 从成像到光谱全方位、多角度、多波段的观测体系, 这为太阳物理学家带来史无前例的海量数据. 太阳物理学以及天文学的很多其他分支, 本质上都是数据驱动的科学.而怎样从海量的数据中挖掘互相关联的物理信息, 研究物理经过的本质, 成为太阳物理学家所面临的史无前例的挑战. 毫无疑问, 太阳物理已经进入大数据时代, 然而单纯依靠人类大脑去处理如此宏大的数据, 去挖掘海量物理量之间复杂的内在关联事实上已经成了研究方式方法的瓶颈.当代计算机技术的飞速发展, 尤其是日新月异的机器学习技术为我们提
8、供了一种新的思路和方式方法. 从广义上讲, 机器学习是一门人工智能的科学.对于科学研究, 我们希望计算机能代替人类自动地从海量的数据中挖掘和总结其背后固有的规律, 进而加深我们对研究对象 (如太阳) 的认识和理解. 机器学习远非一个全新的概念, 早在20世纪50年代就开场起步.但正是由于海量数据的出现以及计算能力的显着提升, 才最终促成机器学习技术的腾飞.尤其2021年以来, 机器学习快速应用到各个领域, 其成果已经让越来越多的科学家认识到这种技术革命将为科学研究方式方法论注入新的活力.但我们也必须看到, 固然机器学习在很多科研领域的应用发展迅猛, 但在天文学, 尤其是太阳物理学的研究方式方法
9、上的应用还并不广泛. 本文利用由美国宇航局赞助, 并由哈fo-史密森天体物理中心管理的SAO/NASA天体物理数据系统 (SAO/NASA Astrophysics Data System, ADS) 1) , 对2007年以来的机器学习在太阳物理研究应用方面的文献进行了检索, 使用了太阳物理和机器学习领域多个关键字的组合 (如Solar, Solar Activities, Flare, CME, Sunspot, Machine Learning, Deep Learning, Classification, Cluster, Dimension Reduction等) 进行屡次检索, 并
10、最终由人工剔除了华而不实的重复文献和无关文献, 获得了最后选定的68篇文献.本文固然未检索ADS数据库收录之外的文献, 但我们以为这些文献基本上反映了这一领域过去十多年的发展情况.图1显示了随着年份相关文献数量上的变化, 从中能够清楚地看到, 其总量并不多, 但2021年后, 机器学习在太阳物理研究方式方法上的应用明显增加, 如此图1所示. 本文分析、归纳了这些文献牵涉的太阳物理研究问题以及使用的机器学习方式方法, 并对现有技术方式方法的特点以及将来的发展做了评述和瞻望.文献中直接采用分类算法的文献达33篇, 占据近50%的比例.事实上, 分类算法在机器学习算法中, 相对更为成熟、应用更为广泛
11、, 其应用效果在诸多方式方法中也较为突出.在太阳物理研究的应用中, SVM分类器算法的应用最为普遍 (19篇) , 该算法被广泛地应用于各种太阳活动区域的检测和预报, 如耀斑4,8,10,19,21,28,35,38,41、CME42,43,44,45,46,47、冕洞和暗条53,54等.遗憾的是, 各文献都仅给出实验的性能比拟, 未深切进入分析SVM获得成功的原因和理论根据.我们仔细阅读了文献中SVM的实验方式方法, 发现这些实验中SVM性能较优的原因主要是基于SVM的最佳分割面特性, 以及它在小样本训练集条件下的分类误差风险最小的统计学习特性.换句话讲, 在SVM获得较好性能的应用中, 所
12、处理的数据主要还是针对较短时段和局部观测的小样本数据.固然能得到较高的TSS值, 但TSS值与测试数据集的选择密切相关, 对不同的测试对象, 其性能随之变化, 故其有效应用于新数据的泛化能力还有待考察. 分类算法中另一个采用较多的算法是随机森林算法 (8篇) .这类算法被应用于耀斑6,8,31、黑子3、冕洞及暗条53,54,64等的研究.它们的成功仍然离不开其理论基础, 也就是讲, 当某种太阳活动的影响因素较为明确, 但因素间的互相关系和影响程度尚未清楚明晰的情况下, 集成学习的方式方法 (如RF) 往往能够获得不错的效果. 图3 (网络版彩图) 按机器学习算法分类的文献比例 Figure 3
13、 (Color online) Literature distribution by machine learning algorithms. (2) 各种算法的应用尚处于初期试验阶段 在基于机器学习的太阳活动分析文献中, 另一个突出的特点是:很多文献对同一组数据常会应用多种算法进行处理和分析, 再来比拟性能优势.例如Sadykov等人31比拟了3种机器学习分类算法:SVM KNN和RF对耀斑预测的准确度, 结果表示清楚, 他们采用的基于SVM的预报方式方法对于M和X级耀斑预报结果优于SWPC/NOAA的预报结果.Florios等人8使用MLP SVM和RF算法, 比拟它们对M1和C1级耀斑爆
14、发预测的性能, 结论是RF对所选择的测试样本性能最佳, 其次是基于熵目的函数的MLP.Nishizuka等人19开发了一种利用机器学习的耀斑预测模型, 也比拟了3种机器学习算法:SVM, KNN和极端随机树.结果表示清楚KNN算法的性能最好.Reiss等人54将机器学习算法与图像分割技术结合使用, 在图像分割的基础上, 分别应用SVM, DT和RF分类算法对冕洞和暗条进行分类等. 此类对方式方法和性能比拟的文献超过10篇, 表示清楚当前在太阳活动观测数据的处理中, 太阳物理学家处在对各种机器学习方式方法的尝试和验证阶段, 尚未构成较为成熟的解决方案.不同的数据得到的结果并不一致. (3) 预处
15、理和特征提取方式方法需要新的突破 数据预处理和特征提取对于形式辨别问题起着至关重要的作用.在基于机器学习的太阳活动数据分析文献中, 各类问题的分析研究都牵涉特征提取与选择如Alipour和Safari52用图像的矩特征描绘叙述强度、质心、方向等属性, 以及其他形态构造特性, 他们先将时间切片上反映出来的暗化构造投影到Zernike矩空间进行预处理, 然后再由SVM对矩特征集进行分类, 用于CBPs自动检测.Raboonik等人21也采用Zernike矩预处理并结合SVM算法对数据进行分析, 利用SDO/HMI磁图计算了M级和X级耀斑在爆发前18 h的发生概率Teng51利用Mercer核函数,
16、 将SDO/HMI的偏振数据从原始参数空间投影到高维特征空间, 将非线性回归问题有效地转化为线性回归问题后, 再用于光球磁场反演.Reiss等人53研究了使用Haralic等人在1979年提出的基于共生矩阵的纹理特征表示方式方法, 来分析SDO图像中冕洞和暗条所包含的纹理信息, 通过结合一阶统计量和形状度量, 测试了几个分类器, 找到了最合适的决策规则对冕洞和暗条进行区分. 上述工作将数据预处理和特征提取与机器学习算法有效结合, 并获得了较好的效果.但大多数工作是基于当前已把握的物理关系, 通过算法从原始数据中计算相关物理量, 交由机器学习算法进行判别.对于怎样将这些物理量进一步进行特征选择和
17、降维, 构成愈加合适于最终判别和预测的特征向量的方式方法和应用, 所查阅文献鲜有牵涉.由此可见, 对于物理机制尚未明确的太阳活动, 观测数据中的哪些信息是对物理现象的最佳解释, 以及怎样对这些信息进行融合应用的方式方法亟待研究, 这也正是太阳物理研究关注的核心问题.由此, 我们可以以设想, 太阳物理研究需要具有更好抽象能力以及干扰抑制能力的机器学习算法, 这也对天文信息处理提出了更高层次的要求和挑战, 为机器学习研究提供了愈加广阔的前景和空间. (4) 深度学习太阳物理研究中遭到关注和应用 自2021年以来, 随着人工智能技术的发展和应用, 在太阳活动分析和研究中, 深度学习算法也随之遭到关注
18、和应用.天文学家们开场探寻求索用新的技术手段, 分析和处理太阳活动观测数据, 尤其是从海量的观测数据中挖掘和获取尚未明确和得到公认的物理机制. Hernandez38将深度卷积神经网络 (Convolutional Neural Networks, CNN) 应用于太阳耀斑预测, 并研究了这一技术在自动辨别、预测分类和回归等问题上的优点, 及其在挖掘磁场能量存储和释放的机制上的可能性. Jonas等人39在处理2018年5月到2020年5月SDO观测到的3000多个活动区、8.5 TB数据时, 构建了一个预先定义了卷积核构造的CNN, 并用线性分类器训练各个卷积核参数.用于分析和发现太阳耀斑的
19、物理经过和触发机制. Huang等人2采用深度CNN构建耀斑预报模型, 该深度CNN包括两组卷积、线性校正和池化层 (每个卷积层都包含64个11 11像素大小的卷积滤波器) , 网络从磁图中提取耀斑形式特征, 然后再将所提取的特征作为输入送至一个3层的全连接ANN进行分类, 进而将活动区磁图分为耀斑爆发和非耀斑爆发两类. Asensio Ramos等人50则设计了一个名为DeepVel的端到端的深度神经网络, 该网络采用全卷积体系构造, 由20个级联的 残差块 构成, 由于输入和输出间的跳连, 残差块构造能够很大程度提升网络训练速度77, 该网络能够接受任意尺寸的图像, 能够从两帧连续图像中得
20、到大气中每一个像素、每一个时间步长以及3个不同高度的速度估计. D az Baso和Asensio Ramos49基于上述DeepVel网络基本架构, 训练了一个用于SDO/HMI图像分辨率加强的深度CNN.为实现分辨率提升, 新的网络在原网络的输出层之前参加了一个上采样层, 较之另一种在输入层之后参加上采样层的方案, 具有更快的训练速度. 深度学习的有效应用, 在于深度学习的关键思想是从给定的数据中自动、分层地提取高层次的特征通过逐层特征变换, 将样本在原空间的特征表示变换到一个新特征空间, 进而使分类或预测愈加容易.与人工规则构造特征的方式方法相比, 从数据直接学习特征表示, 更能够刻画数
21、据中丰富的内在联络, 有利于从原始数据直接获取有效信息, 是对经典机器学习方式方法的有益补充.另一方面, 也避免了物理意义不明确情况下, 人工特征工程所带来的局限和困难.对太阳物理研究从观测获得认知的特点而言, 是一种极有前景的方式方法和途径. (5) 所采用的方式方法以经典原型算法为主 太阳物理研究当前所采用的机器学习方式方法主要牵涉有监督学习 (以分类算法和回归算法为代表) 和无监督学习 (以聚类算法和降维算法为代表) , 强化学习算法尚未有文献采用.所采用的各种方式方法也仅仅是典型方式方法当中的一少部分.很多愈加灵敏和较为复杂的算法尚未被应用. 分类算法中, 以经典的SVM, KNN,
22、DT, RF算法为主, 贝叶斯方式方法、基于关联规则的分类的方式方法还未见报道. 回归算法中, 逻辑回归和最小绝对值收缩和选择算法 (Least Absolute Shrinkage And Selection Operator LASSO) 得到应用, 岭回归、弹性网络、局部散点平滑估计等经典算法尚未应用. 聚类算法中, 所查阅的文献仅有K-means算法的应用, 层次聚类、期望最大化、DBSCAN等经典算法尚未应用. 降维算法中, 仅有PCA方式方法得到应用, 线性判别分析、局部线性嵌入等经典方式方法尚未应用. 异常检测算法在所查阅的文献中没有应用案例. 深度学习模型中, 仅有CNN应用的
23、文献, 其他如循环神经网络、变分自编码器、生成对抗网络等较新的模型尚未有应用报道. 能够看出, 机器学习方式方法在太阳物理中的应用尚处于初期试验阶段, 只是用经典方式方法做了一些实验, 还未构成比拟成熟的针对某一应用十分合适的方式方法固然有一些文献对同一应用的不同算法进行了比拟1,2,3,4,5,6,7,8,9, 但仍处于比拟浅层次的结果和指标 (如TSS) 之间的比照, 深层次的机理还未深切进入分析并获得结论.随着机器学习的发展和在其他领域的成功应用, 也提出了很多更为复杂或者更新颖的算法, 这些算法有可能在以上提到的太阳物理应用领域获得更好的效果;也有望拓展到其他尚未使用机器学习方式方法的
24、领域. 5、 总结与瞻望 从对2007年以来的相关工作的总结、分析能够看出:机器学习方式方法在太阳物理研究方式方法中的应用逐步开展, 自2021年开场有明显增长, 但总体仍不够活泼踊跃.所处理的数据覆盖了世界主要观测机构和观测设备采集的各类型数据.应用中最多的目的分别是:耀斑、日冕物质抛射、黑子、磁场, 并由单一现象的研究向关联性分析发展.采用的数据以磁场为主, 并向多种数据融合方向发展.符合太阳活动以磁场为核心, 以耀斑和日冕物质抛射为主要对象的研究特点78. 机器学习方式方法主要集中在基于分类和聚类的预报方面, 在回归 (尤其是高维度非线性回归) 、维度约简、异常数据检测和处理等重要的应用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 农业相关
限制150内