《湖南省大学生创新创业训练项目结题报告书.docx》由会员分享,可在线阅读,更多相关《湖南省大学生创新创业训练项目结题报告书.docx(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、湖南省大学生创新创业训练工程结题报告书工程名称:基于知识图谱的古代中医典籍结构化研究工程编号:工程负责人:郑汀华专业班级:18级软件工程01班所在学院:信息科学与工程学院起止年 月:2020. 06月至 2021. 11月电 话:E-mai1: 填表日期:2021. 11.05湖南师范大学一、基本情况工程名称基于知识图谱的古代中医典籍结构化研究工程类型创新训练团 创业训练口 创业实践口成果形式论文、软件著作权和竞赛成 果立项时间2020年 6月 29日完成时间2021年 11月 13日验收时间2021年 11月 14日项 目 主 要 研 究 人 员序号姓名学号专业班级所在学院工程分工1郑汀华1
2、8级软件工程01班信息科学与工程 学院负责人,知识图 谱建模、算法模 型2陈莹18级软件工 程01班信息科学与工程 学院材料分析及建模3谢张杰19级软件工 程班信息科学与工程 学院切词算法及语义 算法的研究45二、工程执行情况简介内容提示:工程的目的和意义,工程成果的主要内容、重要观点或对策建议,创新特色、实践意 义和社会影响,发表论文及获得专利情况,研究过程中财务执行情况,团队成员分工和合作情况, 研究报告和过程记录的完整情况。(限定在1500字左右,附件另附) 工程目的和意义:古代中医典籍所蕴含的知识极为丰富,对当今医学也有很重大的意义,但由于古今的语法、 词义存在差异,且典籍知识零碎,大
3、量古代中医典籍得不到很好的利用。金匮要略又是一部 论述杂病诊治的古籍,所蕴含的中医知识繁多复杂,极具代表性。因此我们从金匮要略入手, 研究目的如下:(1)寻找适合古代中医典籍的分词器,对金匮要略进行处理,提取其中的古汉语词汇并对 其进行分类;(2)尝试用知识图谱的方法对分词器提取出的实体关系进行构建,以知识图谱的形式将零碎的 中医知识联系起来;(3)制作基于知识图谱的中药药方查询系统,为用户提供一个中药药方的自查平台。工程成果的主要内容:古代中医典籍是中华文明传承的载体之一,其中囊括了丰富的医疗知识,然囿于年代相隔久 远,使用背景迥然,古汉语与现代汉语在词义与语法等各个方面都相去甚远、颇有悬殊
4、,并且古 代中医典籍中的知识零碎,导致大量古代中医典籍得不到很好的利用。因此,工程构建了一个面 向古代中医典籍的知识图谱,增强其可读性,以便能够从中更加快捷地获取相应的医疗知识。首先,利用HanLP提供的命名实体识别功能和CRF算法对古代中医典籍进行大量数据获取, 得到基本的中医典籍内容实体库;然后,对古汉语进行依存句法分析判断两个实体之间的关系, 得到基于本体库的内容关系库;接着,使用数据清洗得到结构化数据,且运用并改进Trans*系列 模型尝试对中医典籍存在的三实体和二实体关系进行知识表示;最后,在实验局部构建了能在诊 疗过程中提供一定辅助作用的知识图谱,并对Trans*系列模型进行结果评
5、估,最终采用TransH 模型进行知识表示。基于工程中构建的知识图谱(主要是针对金匮要略),使用Neo4j图数据库、图嵌入技术 等工具及技术,并且运用到了所采集并得到清洗的数据集,开发了中药药方推荐系统。 发表论文、软著和竞赛情况:1、基于工程实践内容和实验结果撰写论文基于知识图谱的古代中医典籍结构化构建研究,已 经被国家期刊软件所录用。2、基于推荐系统开发,参加湖南省程序设计竞赛,因为工程成员的时间较为紧张,主动放弃省 赛资格,止步于校赛三等奖。3彳页目负责人将项%过程掌握的知识图谱技术用于另一个工程软件的开发,申请了软著云端 智能爬架Android端管理控制软件研究过程中财务执行情况:考虑
6、到本工程的基本内容是在个人电脑上通过模型搭建和编码就能完成,所以对于工程支出 这一块主要是跟计算机设备有关。在研究过程中财务总执行情况为支出16820元,其中论文版面费为12000元(论文版面较多, 初步计算为这个金额,具体费用得等论文正式出刊才能确定),审稿费用为100元,此两项尚未 报账。剩余资金局部,有一局部用于解决某个成员的计算机在跑模型的过程中出现硬盘损坏等问 题,就对其进行相应的维修以及硬盘的购置,属于实验耗材费和小型计算机外部设备费用。用一 局部用于购买摄像头进行二次开发,属于实验耗材费。还有一局部用于软著一级代理办理费用。总体而言,财务执行较为合理,由于论文版面较多可能存在超支
7、情况。团队成员分工合作情况:工程前期大家按照分工安排认真执行,考虑到科研方面的情况,数据处理主要集中在工程前 期,算法分析、知识图谱建模主要在前期学习和后期搭建,系统开发局部主要在后期进行开发和 完善。我组的工程成员局部主要是18级和19级同学,对于工程的参与程度还是比拟高的,2020 年由于疫情的影响,导致成员之间的交流较少,工程进度稍微滞后,疫情结束返校之后就开始马 不停蹄的进行工程任务的执行。2021年由于工程的论文成果较为丰硕,论文版面较多,不能如 期完成论文的投递,所以申请了延期。但现在已经按照分工完成了各自方向上的任务,论文即将 出刊。在以后的工程申请和实践中,更需要综合考虑组员的
8、专业构成以及工程的参与人数,我组由 于专业都是软件工程较为单一,对数据处理过程中求助了其他学校读中医专业和古代汉语的同 学,同时由于研究的内容难度较大,任务重,在知识图谱建模及系统开发过程中还邀请了其他同 学一起进行系统的开发。所幸工程圆满如期完成,感谢那些帮助过我们的同学及老师。研究报告和过程记录:认真完成工程过程记录本,按时向指导老师汇报工程进度与成果进展,积极沟通小组的困惑和难 题,指导老师们也给予了很大的帮助,并专门分配一个研究生学长带我们入门学习。三、研究总结报告内容提示:预定计划执行情况,工程研究和实践情况,工程取得的主要成绩和收获,工程工作有 哪些缺乏,有哪些问题尚需深入研究,工
9、程工作中的困难、问题和建议。(限定在1000字左右, 附件另附)计划执行情况:原先因为对于组员个人计划的盲目自信,工程申请了一年期,预计于2021年4月结题。但 因为疫情期间,小组成员之间缺乏沟通,导致工程存在一定的进度滞后。在2021年由于工程的 论文成果丰硕,导致撰写论文的版面过多,论文的投递较晚,同时由于工程负责人还有其他工程 的开发任务,导致不能按时结项,故申请延期,现各项工程任务已经基本完成,工程也有多项成 果,其中一项竞赛成果,由于参加湖南省程序设计竞赛的时间与负责人参与其他比赛的时间冲突 还有其他工程成员忙于课程设计和考研等,便放弃参与省赛,止步于校赛。工程研究和实践情况:基于知
10、识图谱的古代中医典籍结构化构建,工程主要利用HanLP提供的命名实体识别功能 和CRF算法对古代中医典籍金匮要略进行大量数据获取,得到基本的中医典籍内容实体库; 对古汉语进行依存句法分析判断两个实体之间的关系,得到基于本体库的内容关系库;使用数据 清洗得到结构化数据,且运用并改进Trans*系列模型尝试对中医典籍存在的三实体和二实体关系 进行知识表示;采用TransH模型进行知识表示并构建了能在诊疗过程中提供一定辅助作用的知 识图谱。在研究过程中,前期的数据获取采用word2vec切词模型进行切词,发现结果并不喜人,后 来结合已有文献采用Hanlp工具包和CRF算法进行数据获取,在后期撰写论文
11、时,为了更好对 比实验结果,采用Tran *系列模型进行结果评估,并用流行的数据比照指标如Fl、accuracy recall 等进行实验验证和评估。工程过程中获得的工程管理经验以及知识图谱的一些相关技术属于工程的过程资产,工程负 责人将此用于其他工程中,也获得了丰富的工程成果。工程工作的缺乏和需要深入研究的问题:1、首先是错误预估了工程执行时间,因为之前考虑到我组主要为2018级和2019级同学,大家 处于第二学年,第一学年的阶段,应该有大量时间参与到工程研究过程中。但实际情况是, 在升入第三学年以后,有一局部同学考虑到升学情况不得不提前开始备战考研。而作为负责 人的我,也有其他的学科竞赛和
12、夏令营等事件占据了大局部的空闲时间。而且由于工程中只 有三个人以及专业的单一性导致某些研究变得较为困难。2、原先设想的是不止是对金匮要略进行结构化研究,还要加入其他的古代中医典籍。但由 于在对古代汉语进行语义识别的道路上的探索时间较长,并且不同的古代中医典籍内容不同 导致的建模过程也不同,加上时间有限,故没有做更大的尝试,十分可惜。3、此外,对三实体关系五元组的知识表示还是一个值得深入研究的问题,采用Trans*系列模型 得到的结果也不理想,后来也没有提出更好的方法。没有解决此问题较为可惜。工程工作中困难和建议:主要的困难还是在于同学的时间有限,后期的实验也相对困难导致的。相关从学生角度的建议
13、在 于分一局部的课时给相关的工程研究,这样产生的问题在于这些学分不能固定给每位同学,因为 有局部同学不参与工程,并且存在跨专业合作的工程。另外过早的开始工程,会存在学生需要大 量时间入门的情况,过晚申请工程又存在学生面临毕业和升学的问题,所以更好的方式大概属于 实验室统一做一件事情,传承推进一系列工程,更加有意义。四、经费使用情况一经费合计15000元,其中,学校配套资助8000元,学院(所)配套资助。元,其他经费7000y L 经费支出情况:预计共支出:16820元,其中论文的版面费和审稿费还未报账。实验材料及耗材费:882元,用于购买摄像头二次开发以及计算机设备维修。计算机小型存储设备费:858元,用于购买计算机外部设备移动硬盘和U盘。论文版面费:12000元,发表论文基于知识图谱的古代中医典籍结构化构建研究。审稿费:100元,用于世界科学技术-中医药现代化审稿费。软著一级代理办理费用:2980元,用于软件著作权一级代理办理,包含加急费用。五、学院评审意见内容提示:院系专家组对结题的意见,包括对工程研究工作和研究成果的评价等。专家组组长(签章):六、学校创新创业训练计划领导小组审核意见负责人(签章):
限制150内