基于条件随机场的汽车领域术语抽取_李丽双.pdf





《基于条件随机场的汽车领域术语抽取_李丽双.pdf》由会员分享,可在线阅读,更多相关《基于条件随机场的汽车领域术语抽取_李丽双.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 卷第期 年月大 连 理 工 大 学 学 报 ,文章编号:()基于条件随机场的汽车领域术语抽取李 丽 双,党 延 忠,张婧,李丹(大连理工大学 计算机科学与技术学院,辽宁 大连 ;大连理工大学 管理科学与工程学院,辽宁 大连 )摘要:中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用 采用条件随机场(,),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和值分别达到 、和
2、与其他方法比较说明所提出的汽车领域术语抽取方法是有效的关键词:信息抽取;领域术语抽取;汽车领域术语;条件随机场中图分类号:文献标志码:收稿日期:;修回日期:基金项目:国家自然科学基金资助项目(,)作者简介:李丽双(),女,副教授 :引言术语是代表特定学科领域基本概念的语言单元,可以是词也可以是词组,在我国又称为名词或科技名词 术语抽取是信息处理领域中一项重要的研究任务,在词典编撰、领域本体构建、机器翻译等领域都有重要的应用目前比较常用的术语抽取方法主要有三大类:一是基于规则的方法,主要是根据语言学及领域知识制定相应的规则模板,与规则模板匹配的视为术语,此方法受限于规则模板的质量,不够灵活 二是
3、基于统计的方法,又分为基于统计量度和统计机器学习的方法 目前常用的统计量参数有频率、假设检验(检验、卡方检验等)、似然比、信息熵和互信息 文献 通过计算字串的互信息得到候选术语,最终取得 的值 文献 提出一种基 于 质 子 串 分 解 的 算 法,利 用 和 参数来进行术语的抽取由于没有大规模的标注语料,基于统计机器学习方法的中文领域术语抽取的研究不多,文献 和 基于条件随机场()对科技术语和军事领域术语进行抽取,值分别达到 和 文献 利用隐马尔可夫模型对计算机术语进行识别文献 将语言学方法和统计方法进行一体化处理,同时考虑了词所在句子的术语度,利用 进行计算机领域术语抽取,值为 三是统计与规
4、则相结合的方法,文献 首先利用语言学规则获取候选术语,再利用统计的方法进行过滤文献 首先利用 和互信息获取候选术语,然后根据术语的词性规则和词典特征进行过滤,最终值达到 本文主要就汽车领域的术语抽取任务展开讨论,分析该领域术语的特点及抽取难点,利用目前较为流行的条件随机场()模型,选取词、词性、词典及频率等特征进行汽车领域术语的抽取 汽车领域的术语抽取 汽车领域术语本文利用有监督的统计机器学习方法进行领域术语抽取,需要一定规模的带标签的训练语料由于没有标注好的汽车领域标准语料,需要人工标注 目前缺少一个关于汽车领域术语的统一标准,本文对 汽车行业名词术语汇编 中和汽车零部件相关的 个术语进行了
5、学习和分析,统计得到单词型术语占,由两个单词组成的复杂术语占,三词术语占,四、五、六词术语分别占、,七词及以上术语占,即复杂术语一般由个单词组成,占全部术语的,符合中文术语的一般性特点 为了方便人工标注,本文分析了汽车领域术语的特点并借助前人对领域术语特点的研究成果,制定了一定的标注标准,凡是符合标注标准的词都被视为汽车领域的术语标注标准如下:()描述或表示汽车的词,一般是随着汽车领域的产生和发展而出现的,比如“轿车”“两厢车”等,由于汽车领域外来词汇比较多,通常情况下人们会用外文直接描述,像类似于“”(运动型多用途汽车)“”(休闲车)等英文单词或缩略词也归于汽车领域术语()表示汽车零部件或组
6、成成分的词,如“底盘”“后视镜”,另外像“气门”“活塞”等机械领域的词,虽然不是专属于汽车领域的,但也是描述汽车结构或功能所必需的,视为领域术语()与汽车相关的系统或结构,如“防抱死制动系统”“高压共轨系统”等,相应的英文缩略词同样作为术语()一些词在通用领域也有应用,但是在汽车领域表示特定的含义,如“抬头”“塌屁股”描述的是汽车的某种状态,可作为汽车术语()要遵循术语应尽可能详细和完整的原则,如类似“升缸发动机”“四行程发动机缸内燃油直喷技术”,要将其作为一个整体()描述汽车品牌及其型号的词语在本文中不作为领域术语,可单独作为一类词进行识别()文章中若出现英文缩写和中文译文联合使用的情况,按
7、两个术语分别标注如“(防抱死制动系统)”,标注为“”和“防抱死制动系统”两个术语 汽车领域术语抽取任务的特点通过对汽车领域术语特点的分析可以看出领域术语在结构上比较复杂,所以与一般的命名实体识别相比,领域术语的自动抽取具有其特殊性,具体表现在:()没有明确的关于领域术语的定义,不能清晰地界定术语的边界 目前已有的词典或是词表不足以涵盖全部的术语,而且随着技术的进步,新的产品或应用会不断增多,相应的术语表示也会不断丰富比如“绿色汽车”“零公里”是近几年提出的概念()由于汽车领域引入国外技术比较多,在表述时多采用音译词或是英文缩写,比如“皮卡”(“”的音译)“”(休闲车),而且由于使用习惯等原因,
8、在表述时使用的不同的名称代表同一事物,比如“皮卡”和“轿卡”就代表同一类型汽车,在使用时比较随意,没有特定的用法()汽车领域的术语模式多变,表现在长度、词性、组成模式等方面 例如,“悬架”和“综合电子控制动力转向系统”相差 个字长,还有类似于“可变预行程 系统”和“式制动器”的中英文混合术语()一般的命名实体(人名、地名或组织机构名等)通常会存在比较明显的特征词,上下文环境也相对规律,而就汽车领域术语而言很难找出比较统一的特点,而且中英文混用的现象明显()领域术语的一个公共特点就是存在嵌套(网状术语),比如“曲轴箱换气式二行程发动机”,其中“曲轴箱”“二行程发动机”“发动机”本身又都分别作为术
9、语出现 基于 的领域术语抽取条件随机场是一种判别式图模型,由 等于 年提出 同时具备最大熵模型()和隐马尔可夫模型()的特点,不存在 那样严格的独立性假设,而且其采用的是全局归一化的方法,克服了最大熵马尔可夫模型的标记偏置问题,是目前处理序列化数据分割与标注问题最好的统计机器学习模型,在分词、命名实体识别等问题上已经得到广泛的应用 虽然领域术语和一般的命名实体在自身结构、所运用的环境等方面有很大的不同,但是就其识别任务而言也有一定的相似性,故本文将领域术语的识别任务转化为序列标注问题,利用 进行汽车领域术语的识别汽车领域术语识别的基本流程是:()获取语料,进行去噪、去重、分词和词性标注等一系列
10、预处理()选取合适的特征,使用 训练模型()在测试语料上用训练出来的模型进行识别()分析结果大连理工大学学报第 卷 语料预处理从网页上爬取一定规模的原始语料,去除标签提取网页正文,获得纯文本 将获取的纯文本语料使用本实验室开发的分词工具对语料进行分词和词性标注处理 本文将术语识别任务转换为序列标注问题,采用目前比较流行的 短语组块标记方法来表示序列的标注结果,其中表示术语的开始,即首词;表示术语除首词以外的部分;表示其他非术语词,如“鼓式制动器一般用于后轮”特征选取基于 的术语抽取,选择合适的特征很关键文献 使用词本身和词性作为特征,文献 选取了个特征,即词本身、词性、左信息熵、右信息熵、互信
11、息和 文献 将术语的统计信息融合到 模型的特征中,并使用背景语料来强化词语的术语特性,即使用了词的频率、领域频率差、词频的 值,以及术语所在句子的信息本文总结了前人的工作,并结合汽车领域术语的特点,选取了个特征,分别介绍如下:()词本身 根据领域术语的特性可知,有些词只在本领域流通,故词本身包含了术语最大的信息,所以使用词本身作为特征()词性 通过对已有的汽车术语资源分析可知虽然组成词性模式有很多种,但是大部分是名词性短语,统计得到前三位词性组合模式为“”“”“”,可见词性对于术语的识别是一个重要特征另外,汽车领域中一些术语由中英文搭配组成,用词性作为特征可以将此种情况考虑在内()词的长度 领
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 条件 随机 汽车 领域 术语 抽取 李丽双

限制150内