网页搜索技术简介ppt课件.pptx
《网页搜索技术简介ppt课件.pptx》由会员分享,可在线阅读,更多相关《网页搜索技术简介ppt课件.pptx(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。网页搜索技术简介20142014年年0909月月0404日日技术分享季,点亮思维每一季“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number1 搜索引擎概述 搜索引擎关键技术检索系统索引系统网络爬虫相关性 引擎的评测与改进议题“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治
2、信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number2搜索引擎概述 解决的问题:海量数据中从查找你想要的数据 数据来源:网页抓取,分析 数据处理:筛选,去重,排序,存储 数据检索:分词,检索 互联网技术皇冠上的明珠“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number3搜索引擎概述搜索引擎应用了哪些技术? 分布式计算:用于大规模离线网页排序/分析 分布式存储:用于网页数据存储,(url库,正文库,an
3、chor库,倒排,正排,摘要,快照) 自然语言处理(文章分词/检索语意分析/检索树构建),机器学习(相关性模型调优) 高性能检索(实时检索服务,IO/CPU/网络架构) .其他相关技术“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number4搜索系统架构 通用搜索系统主要是包括四大系统:检索系统,索引系统,爬虫系统,和相关性 检索系统:根据用户输入的检索串,实时找出检索最相关的内容 索引系统:离线网页的倒排/顺排构建,网页选取/去重/离线打分,网页数据存储. 爬虫
4、系统:互联网数据选取/抓取 相关性:检索串和文章的相关度,索引文章选取,网页抓取的优先级,全方位介入到搜索的各个角落检索系统索引系统爬虫系统相关性“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number5 检索串分析: 把用户输入的检索串进行分词和语意分析,分解成检索语法树中国恒大 (中国 | 中华| china) & 恒大 (中国&恒大) | (中华&恒大)| (china&恒大) 检索串表示为多个词组的交集,如果有同义词,可以进行同义词扩展。 检索树其他特性:
5、 IDF信息,检索时新性判断,检索主题分类(体育/新闻/视频)检索系统“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number6 检索: 核心是一个倒排求交并进行排序的过程 倒排表:词语到文章的映射 (中国&恒大) = doc5 检索系统“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number7 检索难点: 短时间内,完成超长倒排的求
6、交过程。在线检索系统,文章数量从几百亿到上千亿不等。高频词,可能在数10亿个网页中存在,如何求交?检索系统“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number8 并行求交: 倒排表进行多次拆分,分布到不同的机器上。求交的时候下发语法树,所有机器对同一个语法树进行求交操作。求交结果进行多次合并排序,最终返回用户。一次检索会涉及到集群的所有机器,能量开销大检索系统“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为
7、基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number9 检索性能: 检索开销巨大,需要优化检索性能到极限(CPU/内存/IO)。关键指标:文章装机量,QPS 文章装机量:单机能够装载的文章数。集群在线文章更多,长尾检索效果更好,但是倒排长度更长,会降低QPS QPS:单机能够承载的检索次数上限,制约整个集群的检索能力,QPS提高能够降低检索成本 求交过程需要进行全方位的优化,提升求交性能!一次检索会涉及到集群的所有机器,能量开销大检索系统“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监
8、控联网应用为重点的“群众性治安防控工程”。Page number10 文章索引优化: 继续挖掘优化: 块压缩? 变长编码,差分编码. 检索系统URLURLhttp:/zh.wikipedia.org/zh/%E5%B9%BF%E5%B7%9E%E6%81%92%E5%A4%A7%E6%B7%98%E5%AE%9D%E8%B6%B3%E7%90%83%E4%BF%B1%E4%B9%90%E9%83%A8127 byte127 byteMD51AFAD263ED40EF0716byteu64_t19440975157878412878byteu32_t250022224Byte“雪亮工程是以区(县
9、)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number11 求交过程优化:(1)倒排表按照文章质量以及和词语相关度进行了离线排序(2)倒排表进行多路归并,寻找词语倒排表交集 其他优化方法: 建立倒排二级索引,Bitmap直接表示文章增加单机文章装机量:固态硬盘,异步IO, CPU绑定,无锁编程. 检索系统“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page nu
10、mber12 存储: url库,正文库,链接库,用户行为数据. 计算:抽取、反垃圾、排重、选取、顺排、倒排、链接计算、锚文本计算 索引选取:从离线存储库中的几千亿网页选取优质数据到在线库。(几百亿到上千亿不等) 顺排倒排:对网页进行分词,建立倒排表。倒排是词语到文章的映射,顺排是文章到词语的映射。 索引系统“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number13 计算:依赖大规模分布式计算MR(Infrastructure) http:/ 索引选取计算:从离线
11、存储库中的几千亿网页选取优质数据进入到在线库。(几百亿到上千亿不等) 选取规则: 黑白名单:命中白名单直接进入选择 分类规则:网站首页,用户点击或者展现过的页面,第三方优质数据., 更多细化的规则保证选择优质数据 网页打分:根据用户行为数据(点击/展现/浏览日志),网页权威度特征(PR,DR)和网页质量进行综合打分 索引系统白黑名单分类规则网页打分“雪亮工程是以区(县)、乡(镇)、村(社区)三级综治中心为指挥平台、以综治信息化为支撑、以网格化管理为基础、以公共安全视频监控联网应用为重点的“群众性治安防控工程”。Page number14打分模型:针对网页评分,建立合适的打分模型 非线性模型:指
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网页 搜索 技术 简介 ppt 课件
限制150内