基于层次的聚类.ppt





《基于层次的聚类.ppt》由会员分享,可在线阅读,更多相关《基于层次的聚类.ppt(94页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网络信息收集、索引与信息检索、聚类网络信息收集、索引与信息检索、聚类信息科学技术学院马永芳张旭东张涵Agendan网络爬虫是什么?n怎样爬?n预备知识n整体框架n核心算法n算法改进Web Crawler是。是。n软件,系统n“Awebcrawlerisonetypeofbot,orsoftwareagent.“n搜集对象是什么?n整个Web?n部分Web?哪一部分?nWeb是不断更新的,哪些要re-crawl?Agendan网络爬虫是什么?n怎样爬?n预备知识n整体框架n核心算法n算法改进nDistributedCrawling怎样搜集怎样搜集?网页为节点网页中的HyperLink为有向边Cr
2、awl=图遍历,right?链接是哪些?链接是哪些?Refer to HTML 4.01 SpecificationAgendan网络爬虫是什么?n怎样爬?n预备知识n整体框架n核心算法n算法改进nDistributedCrawling系统框图系统框图Core Algorithms IPROCEDURE SPIDER1(G)Let ROOT:=any URL from GInitialize STACK Let STACK:=push(ROOT,STACK)Initialize COLLECTION While STACK is not empty,URLcurr:=pop(STACK)PAG
3、E:=look-up(URLcurr)STORE(,COLLECTION)For every URLi in PAGE,push(URLi,STACK)Return COLLECTIONAgendan网络爬虫是什么?n怎样爬?n预备知识n整体框架n核心算法n算法改进nDistributedCrawlingA More Complete Correct AlgorithmPROCEDURE SPIDER4(G,SEEDS)Initialize COLLECTION Initialize VISITED For every ROOT in SEEDSInitialize STACK Let STA
4、CK:=push(ROOT,STACK)While STACK is not empty,Do URLcurr:=pop(STACK)Until URLcurr is not in COLLECTION insert-hash(URLcurr,VISITED)PAGE:=look-up(URLcurr)STORE(,COLLECTION)For every URLi in PAGE,push(URLi,STACK)Return COLLECTIONUntil URLcurr is not in VISITED STACK用disk-basedheap结构实现还存在什么问题呢?还存在什么问题呢?
5、nSustainedgrowthinsizeanddynamicityoftheWebnEfficiencyisamustn1billionpages/permonth385pages/secnBottleneckinnetwork,look-up()callnDNSandtcpconnection/transferoverheadsimprovenetworkbandwidthutilizationnNoenoughmemorytoholdalldatastructurenIsurlorpagesVISITED?nDiskI/Oismuchsloweranddeteriorateperfor
6、manceURL不唯一性不唯一性不同url指向的同一个网页nIP地址和域名之间的多对多关系大规模网站用于负载平衡的技术:内容镜像“virtual hosting”和“Proxy pass”:不同的主机名映射到同一个IP地址,发布多个逻辑网站的需要(Apache支持)动态网页的参数Session id上一页/下一页“同义同义”地址地址n域名与IP对应存在4种情况:n一对一,一对多,多对一,多对多。一对一不会造成重复搜集,n后三种情况都有可能造成重复搜集。n可能是虚拟主机,多个域名共一个IP,内容不同,-162.105.129.12n可能是DNS轮转-202.112.8.2,-202.112.8.
7、3n可能是一个站点有多个域名对应和等价对对URLURL进行规格化进行规格化n用一个标准的字符串表示协议(http)n利用canonical主机名字n查DNS会返回IP和一个canonical名字n显式加上一个端口号(80也加上)n规格化并清理好文档路径n例如将/books/./papers/sigmod1999.ps写成/papers/sigmod1999.psRobot exclusionRobot exclusion检查 n在服务器文档根目录中的文件,robots.txt,包含一个路径前缀表,crawlers不应该跟进去抓文档,例如#AltaVista SearchUser-agent:A
8、ltaVista Intranet V2.0 W3C WebreqDisallow:/Out-Of-Date#exclude some access-controlled areasUser-agent:*Disallow:/TeamDisallow:/ProjectDisallow:/Systems限制只是对crawlers,一般浏览无妨server trapsn防止系统异常n病态HTML文件n例如,有的网页含有68 kB null字符n误导Crawler的网站n用CGI程序产生无限个网页n用软目录创建的很深的路径 Crawler needn可扩展性ScalablenParallel,dis
9、tributedn快FastnBottleneck?Networkutilizationn友好性PolitenDoS(DenyofServiceAttack),robot.txtn健壮RobustnTraps,errors,crashrecoveryn持续搜集ContinuousnBatchorincrementalDistributed Crawling任务划分问题任务划分问题nM个节点同时执行搜集n问题:如何有效的把N个网站的搜集任务分配到M个机器上去?n目标:任务分配得均匀(Balance)谁负责http:/ chain还有很多很多问题还有很多很多问题n如:HighPerformance
10、WebCrawler!n如果不采取措施,DNS地址解析会成为一个重要的瓶颈n怎样提高DNS解析模块的性能?n并发DNSclientn缓存cachednsresultsn预取prefechclientn消除已经访问过的URLn优化方法nURL用fingerprint(如MD5)来记录,减少内存开销n利用访问的时空局部性-Cachen海量数据的高效率查找表nB-treenBloom filtern避免在重复的网页上再提取链接Agendan索引技术:IndexTechniquesn引入概览n倒排表建立n布尔查询实现n排序:ScoringandRankingn向量空间余弦相似度Document Col
11、lectionsite:()baidureport90,300pagesGooglereport43,000pagesUser Information Needn在这个新闻网站内查找narticlestalksaboutCultureofChinaandJapan,anddoesnttalkaboutstudents abroad.nQUERY:n“中国日本文化留学生”中国日本文化-留学生site:http:/ to do it?n字符串匹配,如使用grep所有WebPages,找到包含“中国中国”,“文化文化”and“日本日本”的页面,再去除包含“留学生留学生”的页面?nSlow(forla
12、rgecorpora)nNOT“留学生留学生”isnon-trivialnOtheroperations(e.g.,find“中国中国”NEAR“日本日本”)notfeasibleDocument RepresentationnBag of wordsmodelnDocument-termincidencematrix(关联矩阵)中国文化日本留学生教育北京D1110011D2011100D3101100D4100110D5111001D60010011 if page contains word,0 otherwiseIncidence VectorD1D2D3D4D5D6中国101110文化
13、110010日本011011留学生011100教育100100北京100011nTranspose:把Document-term矩阵转置n得到term-document关联矩阵n每个term对应一个0/1向量,incidencevectorRetrievalnInformationNeed:n在这个新闻网站内查找:articlestalksaboutCultureofChinaandJapan,anddoesnttalkaboutstudents abroad.nToanswerquery:n读取term向量“中国中国”,“文化文化”,“日本日本”,“留学生留学生”(complemented)
14、nbitwiseANDn101110AND110010AND011011AND100011=000010D5Lets build a search system!n考虑系统规模:n文档数:N=1milliondocuments,每篇文档约有1Kterms.n平均6bytes/term=6GBofdatainthedocuments.n不相同的term数:M=500Kdistincttermsn这个Matrix规模是?n500Kx1Mn十分稀疏:不超过onebillion1snWhatsabetterrepresentation?Agendan索引技术:IndexTechniquesn引入概览n
15、倒排表建立n布尔查询实现n排序:ScoringandRankingn向量空间余弦相似度Inverted indexn对每个termT:保存包含T的文档(编号)列表中国中国文化文化留学生留学生248163264128235813213413161DictionaryPostingsSorted by docID(more later on why).Inverted index constructionTokenizerToken stream.FriendsRomansCountrymenLinguistic modulesModified tokens.friendromancountrym
16、anIndexerInverted index.friendromancountryman24213161Documents tobe indexed.Friends,Romans,countrymen.n输入:元组序列.I did enact JuliusCaesar I was killed i the Capitol;Brutus killed me.Doc 1So let it be withCaesar.The nobleBrutus hath told youCaesar was ambitiousDoc 2Indexer stepsnSortbyterms.Core indexi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 层次

限制150内