《《毕业设计答辩》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《毕业设计答辩》PPT课件.ppt(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室毕业设计答辩题目:面向教师简历的关系抽取姓名:丁效指导教师:秦兵2009-06-261哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室提纲n课题介绍n系统总体介绍n关键技术n实验结果分析与改进2哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室提纲n课题介绍课题介绍n系统总体介绍n关键技术n实验结果分析与改进3哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室课题介绍n传统关系抽取方法l有指导关系抽取n核方法l无指导关系抽取
2、n序列模式学习算法n面向教师简历关系抽取l没有标注语料(无法采用机器学习方法)l引入搜索引擎机制4哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室课题介绍n教师简历的实体类型:5哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室课题介绍n本课题定义了7种教师简历实体关系:6哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室提纲n课题介绍n系统总体介绍系统总体介绍n关键技术n实验结果分析与改进7哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室系统总体介绍开始教师简历实体关系
3、抽取数据数据预处理(分词、词性标注、教师简历实体识别)建立索引库特征提取模型构造与测试性能评估结束特征模型改进否是达到要求?最终方法和模型8哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室提纲n课题介绍n系统总体介绍n关键技术关键技术n实验结果分析与改进9哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室关键技术n教师简历实体识别模块l基于动态词典的实体识别n技术:双数组Trie树n姓名、院系、职称、职务、性别、学位、学科l基于模板的实体识别n技术:正则表达式n电子邮箱:bA-Z0-9._%-+A-Z0-9.-+.A-Z2,4b10
4、哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室关键技术n特征提取l实体类型特征n选出有可能构成目标关系的候选实体对l实体距离特征n计算出候选实体对在一篇文档中的距离l实体共现概率特征n计算出候选实体对在语料中共同出现的概率n互信息模型11哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室关键技术n搜索引擎的引入12哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室关键技术n插件机制13哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室关键技术n教师简历关系数据库14哈工大
5、信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室提纲n课题介绍n系统总体介绍n关键技术n实验结果分析与改进实验结果分析与改进15哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室实验结果分析与改进n人工标注200篇HTML文档作为测试集n处理6类教师简历实体关系l“姓名电子邮箱”l“姓名性别”l“姓名职称”l“姓名职务”l“姓名学科”l“姓名学位”16哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室实验结果分析与改进n实验结果17哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室实验结果分析与改进n增加过滤规则,对“姓名电子邮箱”关系的改进l将学校名与邮箱后缀映射n技术:维护一张映射表n例如:“哈工大”映射成“”l将教师姓名与邮箱前缀映射n技术:IR实验室拼音模块n例如:“孙大烈”映射成“sdl”l例子:哈工大计算机学院孙大烈老师邮箱:18哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室实验结果分析与改进n改进后的结果对比19哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室哈工大信息检索研究室谢谢!Q&A20
限制150内