数据挖掘以及搜索引擎经典幻灯片.ppt
《数据挖掘以及搜索引擎经典幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据挖掘以及搜索引擎经典幻灯片.ppt(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘以及搜索引数据挖掘以及搜索引擎经典擎经典第1页,共34页,编辑于2022年,星期六OutlineBasic WWW TechnologiesWeb的基本概念Basic Crawling基本的爬取算法第2页,共34页,编辑于2022年,星期六URI:Uniform Resource Identifier-Uniform Resource IdentifiersURL:Uniform Resource LocatorsURN:Uniform Resource NamesEvery resource available on the Web has an address that may b
2、e encoded by a URL URIs typically consist of three pieces:The naming scheme of the mechanism used to access the resource.(HTTP,FTP)The name of the machine hosting the resourceThe name of the resource itself,given as a path第3页,共34页,编辑于2022年,星期六URL,URN与与URI的关系的关系URL,URN是是URI的子集的子集。URI是以某种统一的(标准化的)方式标识
3、资源的简单字符串。URI一般由三部分组成:1.访问资源的命名机制。2.存放资源的主机名。3.资源自身的名称,由路径表示。第4页,共34页,编辑于2022年,星期六URI Examplehttp:/www.w3.org/TR There is a document available via the HTTP protocolResiding on the machines hosting www.w3.orgAccessible via the path/TR第5页,共34页,编辑于2022年,星期六Hypertext Transfer Protocol(HTTP)A connection-o
4、riented protocol(TCP)used to carry WWW traffic between a browser and a serverOne of the transport layer protocol supported by Internet HTTP communication is established via a TCP connection and server port 80第6页,共34页,编辑于2022年,星期六On a Web server or Hypertext Transfer Protocol daemon,port 80 is the po
5、rt that the server listens to or expects to receive from a Web client,assuming that the default was taken when the server was configured or set up.A port can be specified in the range from 0-65536 on the NCSA server.However,the server administrator configures the server so that only one port number
6、can be recognized.By default,the port number for a Web server is 80.Experimental services may sometimes be run at port 8080 第7页,共34页,编辑于2022年,星期六GET Method in HTTP第8页,共34页,编辑于2022年,星期六HTML HyperlinkalumniA link is a connection from one Web resource to anotherIt has two ends,called anchors,and a dire
7、ctionStarts at the source anchor and points to the destination anchor,which may be any Web resource(e.g.,an image,a video clip,a sound bite,a program,an HTML document)第9页,共34页,编辑于2022年,星期六Anchor test(锚文本)锚文本)Anchor text is the hyperlinked words on a web page-the words you click on when you click a l
8、ink.Heres an example,reciprocal links,in which“reciprocal links”is the anchor text.锚文本主要是为访问者提供指向网页内容的说明。第10页,共34页,编辑于2022年,星期六OutlineBasic WWW TechnologiesWeb的基本概念Basic Crawling基本的爬取算法第11页,共34页,编辑于2022年,星期六WebWeb是一个有向图是一个有向图网页为节点网页中的HyperLink为有向边Crawl=图遍历,right?第12页,共34页,编辑于2022年,星期六Completeness Ob
9、servationsCompleteness is not guaranteed假设从一个page出发能到达web上的任何一个page.实际情况并不一定这样How to make it better:more seeds,more diverse seeds,port scanner maybe help第13页,共34页,编辑于2022年,星期六常用算法常用算法Depth First SearchWidth First Search第14页,共34页,编辑于2022年,星期六Depth-First Search1234567numbers=order inwhich nodes arevis
10、ited 8910第15页,共34页,编辑于2022年,星期六Depth-First SearchPROCEDURE SPIDER(G,SEEDS)Initialize COLLECTION/结果存结果存储储Initialize VISITED/已访问已访问URL列表列表For every ROOT in SEEDSInitialize STACK/待爬取待爬取URL栈栈 Let STACK:=push(ROOT,STACK)While STACK is not empty,Do URLcurr:=pop(STACK)Until URLcurr is not in VISITEDinsert-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 以及 搜索引擎 经典 幻灯片
限制150内