长足寄蝇生物信息综合数据库的搭建,计算机应用技术论文.docx
长足寄蝇生物信息综合数据库的搭建,计算机应用技术论文现今生物信息技术尤其是在昆虫学领域,迫切需要将生物学基础研究全经过的信息通过计算机技术和手段进行综合存储,同时将生物形态学与分子生物学数据结合起来,根据研究领域的特点和科研成果沟通需要,实现信息沟通与分享、多格式信息存储、生物信息决策与KDD应用等方面信息. 1设计背景 本文以 中国长足寄蝇亚科的系统分类研究 的需求为出发点,以全面合理的存储寄蝇数据、提升现有寄蝇研究成果和数据分享性为目的,力务实现通过计算机手段对国内外寄蝇研究的现有成果进行总结与分类,实现寄蝇信息的高效管理等而搭建长足寄蝇生物信息综合数据库. 相比拟常见的单一数据库形式,该系统的数据仓库由关系数据库和多维数据库共同组建.数据展现平台用Java基于MVC设计形式实现,并将该平台分为Web层、服务层和数据访问层.访问关系数据库数据采用开源的Ibatis框架,将各种SQL语句存放在配置文件中进行统一维护通过JDBC DAO访问关系数据库;同时,对多维数据集访问的脚本语言的也具备Java接口用最实用的C语言.用C后对多维数据库的访问速度则明显改良. 数据存储方面,该系统兼容并济,采用关系形式ROLAP和多维形式MOLAP相结合,即混合形式HOLAP.数据检索方面,针对唯一索引、主键索引和聚集索引3种任取其一均不能知足生物系统海量信息检索的复杂性和高效行,在该系统中采取了唯一索引、主键索引及聚集索引相结合的方式. 2数据存储与检索 系统模型是统一业务系统的核心,模型设计的好坏直接关系到系统建设的成败.在建模时需要将寄蝇亚科研究的现有成果进行存储,并对其进行全面总结、分类和分析. 2.1元数据设计 系统形态学、分子生物学、物种形态信息标准、分类研究历史和生物综合防治和科学考察全经过信息采集等信息根据生物信息化元数据标准建设.包括生物本体53类元数据信息,共515个元数据属性.寄蝇科、亚科、族、属、种的基本研究成果和分类检索成果、物种基本信息和研究历史.包括:形式标本,鉴定和订正已经知道种、发现和记述新种、新纪录种外部形态、绘制头部与外生殖器构造特征图;补充未记载雌性或雄性标本. 27种形态分类描绘叙述属性、分子生物学研究的成果和实验经过.包括:DNA、引物PCR反响图片、测序线粒体COI和28SrRNA基因片断成果与数据、同源分析比对和分子系统树成果等.检视标本采集经过信息、标本管理信息、保存和储存状态和标本分类研究信息和生物形态/生境信息.系统形态分类研究.包括:板图、头胸、腹尾器.其他信息包括寄蝇进化、生态利用和害虫生物控制根据和解决对策、生境特征、科学考察信息、生物地理、自然地理情况(经纬度、行政区位置、海拔、自然区划、地貌、国内/外分布)和研究程度和研究文献等基础生物本体信息. 2.2信息存储类型 信息存储类型有简单文本属性信息、板图图片、实验图片、科考图片、系统发育树研究成果信息对象、基因分子数据大对象格式、统计与热门图形、自定义、分享格式数据、各类格式研究与沟通文档对象等. 生物信息化数据库建库、元数据与采集标准建立.包括中国寄蝇科寄蝇信息数据库元数据标准和生物信息数据采集工作标准与指导方式方法及野外科学考察研究描绘叙述信息. 2.3数据设计与挖掘 系统一共包括53个表,包括5种信息、族属代码、人员权限、公共代码等相关表格.图1所示是族属E-R图,该模型主要描绘叙述了物种的分族、分属情况,以及其国内外分布情况. 图2所示是物种信息E-R图,该模型以物种无主题,主要描绘叙述了和物种信息有关的地域、地貌、生物地理分布等有关信息. 3数据挖掘 数据挖掘是指从大量数据中提示出隐藏的、未知的事物的特性或是规律,根据这些规律制定出适宜的算法,然后根据算法进行数据的检索.数据挖掘的功能主要是描绘叙述和预测2方面,包括概念描绘叙述、关联、分类、聚类、演变分析等.以上功能也是现今应用于生物信息数据挖掘的几个主要方面.本系统建设中主要应用聚类、分类和关联分析算法. 3.1聚类分析 本系统使用聚类的目的是:通过聚类分析实现寄蝇分类,进而推断出系统发育树.根据实际情况和需求,由于寄蝇亚科各族属种之间的进化关系本身就是模糊的,相较于划分法、层次法等传统聚类非此即彼的 硬划分 ,模糊聚类的 软划分 显然更适用寄蝇信息数据库.系统聚类的实现决定采用基于模糊等价关系建立系统发育树,进而实现对寄蝇实体族属种等的分类,通过建立系统发育树一目了然的展现分类效果. 1)动态聚类方式方法的流程(如此图3所示).通过比照发现,系统聚类是一次构成分类结果,对分类方式方法的要求很高,相应的计算量也很大.天经地义的,该系统选用动态聚类方式方法. 2)模糊等价关系的采用.从数学上讲,一个确切的分类通常是由一个明确的等价关系确定.类似的,一个模糊的分类,可以以利用一个模糊的等价关系实现. 3)基于模糊等价关系的动态聚类的优化.通过优化、动态聚类经过、获取样本向量和构造模糊类似矩阵,建立模糊等价关系矩阵,最后对模糊等价关系矩阵执行动态聚类的算法,得出最后分类,聚类经过结束.根据得出的分类,即能够推断出系统发育树.实践证明,基于模糊等价关系的动态聚类建立的系统发育树是值得信赖的. 3.2分类分析 分类分析是基于事先开创建立的分类模型,实现某个未知的数据项到数据库中已经知道类的映射.显然,人们不可能把每一个寄蝇实体的每一个属性值都通过生物实验来获取.利用已经知道寄蝇实体的相关属性值,通过分类挖掘,便能够对一个蝇类样本的特定属性值进行预测,进而解决实验经过不能解决的问题,是本系统使用分类分析的主要目的.从预测准确率、速度、强健性和可伸缩性等全方位衡量的话,没有一种算法是完全优秀的. 实际上,在本系统中用到的分类分析算法是微软决策树算法.该算法由SQL Server 2008中的analysis service组件提供.实践证明,微软决策树算法对离散的和连续的属性预测表现均出色.足以应付该系统中的分类挖掘问题.在这里不做具体介绍. 4结束语 本系统以国家自然科学基金 中国长足寄蝇亚科的系统分类研究 的需求为出发点,以对寄蝇生物研究经过中产生的海量数据处理为主要任务,通过计算机手段实现了寄蝇数据的生物信息化. 以下为参考文献: 1陆舟.Struts2技术内幕:深切进入解析Struts架构设计与实现原理M.北京:机械工业出版社,2020:80-256. 2李刚.轻量级Java EE企业应用实战Struts2+Spring3+Hibernate整合开发M.北京:电子工业出版社,2018:30-236. 3甘文丽,刘为超.基于Struts2和Ajax的企业级Web应用开发J.工矿自动化,2020(2):23-26. 4常革新,任永昌.Struts2框架校验文件自动生成技术J.计算机技术与发展,2020(1):305-321. 5薛峰,梁锋,徐书勋,等.基于Spring MVC框架的Web研究与应用J.合肥工业大学学报:自然科学版,2020,35(3):337-340. 6廖福保.扩展Spring MVC模块的Web应用J.实验室研究与探寻求索,2020(10):70-73. 7严厉,俞永强.The spring prediction barrier in ENSO hindcast experiments using the FGOALS-g modelJ.中国海洋湖沼学报:英文版,2020(6):1093-1104. 8ZHANG Chaolei,LIU Yazheng,ZHOU Leyu,et al.Secondary hardening,austenite grain coarsening and surfacedecarburization phenomenon in Nb-bearing spring steelJ.钢铁研究学报:英文版,2020(3):47-51. 9ZHANG Chaolei,ZHOU Leyu,LIU Yazheng.Heredity in the Microstructure and Mechanical Properties of Hot-rolled Spring Steel Wire 60Si2MnA during Heat Treatment ProcessJ.材料科学技术:英文版,2020(1):82-88. 10张春田,陈小琳.中国长足寄蝇亚科的系统分类研究J.沈阳师范大学学报:自然科学版,2008,26(4):封二. 11徐海根.中国生物多样性元数据库的研究与开发J.兰州大学学报:自然科学版,1999,35(4):103-108. 12徐海根,包浩生.中国生物多样性核心元数据标准的讨论J.中国环境科学,2000,20(2):106-110. 13吴善杰.关于模糊聚类分析方式方法的进一步考虑J.华北科技学院学报,2008,5(1):108-111. 14李刚成,刘赞波,曾庆光.一种基于模糊聚类的构造进化树方式方法J.计算机应用,2018,29(3):836-838. 15刘星毅.一种新的决策树分裂属性选择方式方法J.计算机技术与发展,2008,18(5):70-72.