文本检索的索引技术幻灯片.ppt
《文本检索的索引技术幻灯片.ppt》由会员分享,可在线阅读,更多相关《文本检索的索引技术幻灯片.ppt(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文本检索的索引技术文本检索的索引技术第1页,共22页,编辑于2022年,星期六提纲提纲l背景和概念l文档分析l索引创建l索引查询l相关资料第2页,共22页,编辑于2022年,星期六1。背景和概念索引作用。背景和概念索引作用l索引?提供从记录的特征快速查询到记录的数据结构(B树、散列表、位图索引等)数据库,文档数据库,SE/IR系统l文本检索记录文档doc,记录特征索引词(indexterms)数据库结构化,查询和事务型更新文档数据库非结构化,查询和事务型更新SE/IR系统非结构化,查询第3页,共22页,编辑于2022年,星期六1。背景和概念索引形式。背景和概念索引形式l文本检索常见索引方式Br
2、ute-force检索grep签名文件signaturefilehash签名,falsematch倒排文件invertedfile高效,支持多种检索模型l倒排索引从indexterm快速查询到doc的索引结构Doc正常表示为indexterm的集合,建立索引是把每个indexterm表示为其出现的doc的集合,这个过程称为inversion,即倒排。第4页,共22页,编辑于2022年,星期六1。背景和概念倒排。背景和概念倒排文档内容Doc1.北京大学计算机系.Doc2.北京大学主页.Doc3计算机的发展。索引词索引项(posting list)北京大学。计算机。原始文档倒排索引倒排第5页,共2
3、2页,编辑于2022年,星期六2。文档分析原则。文档分析原则l索引词的选择范围人工索引质量高,但不适用大规模文档数据处理自动索引l部分索引title,abstract,keywords,etc(例如:北大图书馆的WebCat系统)l全文索引文档中所有词都参与索引。(SE/IR普遍采用)l索引词的选择原则Indextermwordl理想:表达文档内容的语义单位l字、词、短语(词汇词)l中文分词第6页,共22页,编辑于2022年,星期六2。文档分析英文文本。文档分析英文文本lTokenize(Lexicalgrammar)问题:“c+”,R&B,U.S.,a.out没有被识别问题:数字长度、词长度
4、词规模lLemertization(曲折词形合并)He,him-he;is,are,was-belStemmer(取词根)Stemmer-stem;lSE为了支持精确查询,往往不使用后两种技术A-ZA-Z+returnUPWORD;a-zA-Z0-9+returnWORD;A-ZA-Z+()?s)?returnACRONYM2;a-zA-Z0-9+a-zA-Z+returnCONTRACTION;A-Z.(A-Z.)+returnACRONYM;第7页,共22页,编辑于2022年,星期六2。文档分析中文文本。文档分析中文文本l字符编码问题字符集:GB2312,GBK,BIG5,HZUNICOD
5、E简、繁转换(乾杯,乾坤)l分词问题词?:语法词、词汇词表达确定的意义(鱼)、非组合性(多媒体)、互译检查(dioxide二氧化物)第8页,共22页,编辑于2022年,星期六2。文档分析中文文本分词。文档分析中文文本分词l中文分词歧义交集型:“部分居民生活水平”1l分居、居民、民生、生活、组合型:“老人家”l老人、老人家l未登录词专有名词(人名、地名、机构名、译名、术语等)、新词l对大规模中文信息处理,“词典规模是制约分词精度的主要因素”2第9页,共22页,编辑于2022年,星期六2。文档分析中文文本混合索引。文档分析中文文本混合索引l基本分词词典6万,选词较为严格l统计识别的未登录词扩展词典
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 检索 索引 技术 幻灯片
限制150内