欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    基于汉语构架网的语义角色自动标注——自动标注算法研究毕业论文.docx

    • 资源ID:29908662       资源大小:217.19KB        全文页数:6页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于汉语构架网的语义角色自动标注——自动标注算法研究毕业论文.docx

    山西大学商务学院BUSINESS COLLEGE OF SHANXI UNIVERSITY 2015届本科毕业论文基于汉语构架网的语义角色注释 姓名 指导教师 专业软件工程学院名称信息学院二一六年十一月基于汉语构架网的语义角色自动标注自动标注算法研究 内容摘要:基于构架的语义角色标注是根据一个文本句中的目标谓词所激起的构架与相关句子成分之间的语义关系而赋予这些句子成分一定的语义信息的方法。论文在基于汉语构架网(CFN)的基础上,提出了基于PT-GF匹配和最大熵分类器的语义角色自动标注方法,并对该方法进行了有效性验证。关键词:构架本体 语义标注 文本匹配 最大熵1. 引言语义标注,从本体角度是添加实例,丰富本体的过程;从语义网的角度是语义信息的发布过程,即用户依据一定的本体为页面添加语义信息。基于构架的语义角色标注(Semantic Role Labeling)是浅层语义分析的一种可行性方案,通过分析句子的论元结构,标记出句子中某个动词的所有论元,根据句子中的目标谓词所激起的构架与相关的句子成分之间的语义关系而赋予这些句子成分的语义角色信息。国外的基于构架下的语义角色标注开始于Dan Gildea和DanJurafsky,他们实验所用的语料是Berkeley大学开发的FrameNet。FrameNet是以构架语义为标注的理论基础,对英语国家的语料库进行部分标注,试图描述一个词汇单元(主要为动词)的构架以及这些构架之间的关系。国内的语义角色标注研究起步较晚,较早的研究者刘挺等主要参照英文进行标注;刘怀军等主要进行“语义角色分类研究”。本体构架网是一个支持性内容,它构建了某一领域本体的大体构架,给出了这一领域知识的宏观结构。它类似于词典,构建了一个某一领域所有本体的构架网络体系,这些本体构架根据其之间的不同联系,构成了纵向的继承关系、总分关系;横向的因果关系、起始关系、参见关系等;词元即目标词,词元库包含了某一构架下所有的目标谓词,当文本中出现了这些词时,我们优先将其选择为中心词;语义角色标注例句库是语料库的核心内容,具体标记了所有例句中目标词和其论元成分在文本中的位置、路径等特征和<构架元素、短语类型、句法功能>三元组的具体标注,并对同一个目标词的各个特征进行了总结。 2. CFN语义角色的自动标注CFN中语义角色自动标注是在对语料库例句进行统计、分析和自动学习的基础上,利用一定的算法和模型给输入文本的各个谓语参数赋予语义的过程。语义角色自动标注一般分为3个阶段:·首先分词、·词性标注、·语义角色标注 图1 计算机图2 软盘 2.1 CFN语义角色自动标注流程由于汉语构架网的建设仍然处于初级阶段,本文所讲的自动标注是在已知给定文本的目标词及其所属构架前提下,并对各短语进行识别、词性标注和句法分析等技术的基础上,探讨语义角色进行自动标注问题,所采用流程如图3所示。2.2 PT-GF的语义角色匹配运算基于PT-GF的语义角色自动标注是综合考虑短语类型、短语相对于目标词位置、句法功能三个因素以及这三个方面对句子相似度影响的权重,利用余弦算法对输入文本和例句文本的相似度进行计算。2.2.1 语义角色自动标注最大熵原理是在1957年由E.T.Jaynes 提出的,主要思想是在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。最大熵语义角色标注是在统计学的基础上发展起来的,以句子中词、短语或语块为标注的基本单元,根据一定语言学知识列出该词汇单元的各种特征,标注单元与该单元的语义角色类型组成学习实例,使用某种学习算法对这些实例进行自动学习,以对新的实例进行预测。参照我国现有的最大熵研究成果,简单特征、复合特征和扩展特征总结如表1所示表一 数据表分析算法数据集C4.5SPRINTILASDT总数MONK46301995Balance Scale17414254370Breast7557261582.2.2相似度计算利用余弦算法分别对输入文本和例句文本的短语类型、短语相对于目标词位置、句法功能的相似度进行计算。3 基于PT-GF算法的标注实例我们以“我县不少单位和个人以私自户外接电等手段偷大肆电。”作为输入文本,经过预处理处理后。4. 结语在文中我们基于汉语构架网以法律领域为例分别用PT-GF匹配和最大熵模型对输入文本进行了自动标注。在PT-GF匹配模型中,我们以短语为基本单位根据权重对文本短语的词性、相对于目标词位置和句法功能进行匹配,因此分词和短语选择技术对结果影响比较大。在最大熵模型中,我们以语义角色特征或组合特征为条件进行概率统计,因此特征提取的准确度以及组合特征的选择比较关键。因此如何克服这些技术的缺陷和约束,成为我们以后研究自动语义角色标注的方向。参考文献1 周庆荣,张泽廷,朱美文,等固体溶质在含夹带剂超临界流体中的溶解度J化工学报2 Mesquita A C, Mori M N, Vieira J M, et al Vinyl acetate polymerization by ionizing radiationJ Radiation Physics and Chemistry, 2002, 63: 4653 蒋挺大亮聚糖M北京:化学工业出版社, 2001: 127Network Resources Annotation Based on Chinese FrameNet OntologyAbstract:Tim-Berners first proposed the concept of Semantic Web in 2001.But with further research, more and more researchers noted the gap between todays network and the Semantic Web. On one hand, a large number of HTML document in current World Wide Web is prepared for human reading, not for machine processing. Web knowledge marked by natural language and HTML that the computer can not use the semantic information knowledge, can not meet the high demands of users. On the other hand, Semantic Web required network resources added semantic knowledge to the document. The machine can handle the document. Information extraction, word segmentation, POS tagging, syntactic analysis, semantic annotation technologies are relatively mature, the semantic annotation of network resources more and more attract peoples attention, and is becoming an important part of Semantic Web study.Key words:Framenet for ontology; Semantic annotation; Web annotation; Text-matching; Maximum entropy; Annotation process

    注意事项

    本文(基于汉语构架网的语义角色自动标注——自动标注算法研究毕业论文.docx)为本站会员(豆****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开