第6章Web挖掘与文本分析.pptx
《第6章Web挖掘与文本分析.pptx》由会员分享,可在线阅读,更多相关《第6章Web挖掘与文本分析.pptx(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第6章Web挖掘与文本分析温浩宇 西安电子科技大学出版社商业智能:方法与应用5.1 Web挖掘概述5.2网页信息抓取5.3 中文分词目 录O N T E N T S网页信息抓取实例网页信息抓取原理基本概念常见的分词方法开源的中文分词器5.4 情感分析5.1 Web挖掘概述Web挖掘(Web mining)是数据挖掘技术在互联网上的应用技术,通过收集网络数据形成结构化和和非结构化信息,并在此基础上抽取出隐含的知识和模式。 5.1 Web挖掘概述 Web使用挖掘的目标是从Web数据中发现用户的使用模式,从而根据用户的使用情况和需求,不断调整Web应用程序的设计。数据包括Web用户的身份、来源以及他
2、们在Web站点上的浏览行为。Web使用挖掘 Web内容挖掘是从Web页面内容中挖掘、提取和集成有用的数据、信息和知识,包括半结构化数据或非结构化数据。Web内容挖掘 Web结构挖掘采用图论的方法来分析网站中页面节点的连接关系。Web结构挖掘的主要目标是生成Web站点和Web页面的结构图。Web结构挖掘 5.1 Web挖掘概述Web挖掘的关联关系5.2 网页信息抓取网页信息抓取原理网页信息抓取实例5.2.1 网页信息抓取原理概念方法过程n Web内容挖掘的基础是从网页中抓取信息n 通过专门的软件或针对网站进行个性化的软件开发抓取目标数据n 下载并完整解析目标数据所在的网页n 从下载到的网页中获取
3、相应的目标数据n 手工获取,对访问对象逐一打开,并将所需内容进行复制整理n 使用网络数据抓取软件,对目标网站进行批量下载n 通过编写爬虫程序,自定义抓取策略,获取目标网页的数据 5.2.1 网页信息抓取原理 网络爬虫概念网络爬虫是自动提取网页的程序,它实现的基础是基于互联网本身的拓扑结构是一个联通的图,通过网络爬虫将互联网中的网页进行爬取后,分析页面内容,并对这些网页进行索引,进而提供对页面内容进行检索的功能。爬取方式n 直接爬取页面完整数据n 局部刷新爬取页面数据n 级联页面数据n 规则URL页面爬取n 非规则URL页面爬取n 需登录验证或特定请求格式爬取n 需动态变更IP地址爬取 5.2.
4、1 网页信息抓取原理 网络爬虫 网络爬虫基本原理图 5.2.1 网页信息抓取原理 网络爬虫 直接爬取页面复杂的获取形式模拟用户访问AJAX方法通过一个请求就可以将对应URL的页面一次性全部获取到按步骤地触发页面的响应事件,并模拟浏览器调用脚本引擎执行相应的Javascript程序,重新更新页面以获取完整的数据分析AJAX异步调用过程中所访问的服务器接口,分析其对应接口的请求构造和返回值优点最为简单直接伪装效果好,不易被服务器端察觉为爬虫程序执行效率低,数据获取的效果很大程度取决于模拟器是否完善可靠缺点简单直接,效率高容易被判为爬虫,并且需要逐步分析AJAX的调用流程,增大了工作量 5.2.1
5、网页信息抓取原理 网络爬虫模拟用户输入用户账户信息,完成登录过程特点:这种方式实现简单,模拟效果好,但局限于Javascript解析引擎的解析效果构造登录的页面表单,提交表单,完成验证特点:这种方式效率高,但需要做相应的登录表单分析工作,容易被服务器端检测并判为爬虫程序,拒绝其登录先正常的登录验证,单独提取Cookie信息,供后续使用特点:Cookie通常存在一定的有效期,过了有效期后服务器就需要用户再一次进行身份验证。 用户登录验证的三种方式 5.2.1 网页信息抓取原理 数据存在形式静态数据AJAX动态更新数据动态解析数据存在形式简单,静态数据在浏览器端和服务器端是同构的,是一份数据的两份
6、一致的副本,因此是最容易处理和提取的数据形式。由服务器程序响应浏览器请求并返回数据的,其返回数据存在较高的不可预见性,因此获取数据的难度也因此提升。具有高不可预见性,同一页面会由于用户具体的操作内容不同而产生不同的数据,因此,AJAX形式的数据获取的难度最高,所需设计的策略也更为复杂。5.2.1 网页信息抓取原理 网页包装器 基于正则表达式 基于逻辑判断选择 基于 树结构 基于 机器学习一个典型的基于正则的网页包装器是W4F,W4F为了降低用户对HTML语法的学习成本,使用了向导的方式指引用户标记处其目标数据。并根据这些目标数据生成相应的正则表达式,从而获取目标数据。其核心思想是设计一门专用的
7、包装器 编程语言来完成包装器设计工作, 基于包装器设计语言的工具将 网页视为一个半结构化的 树状文档(即DOM)而 不是一串纯粹的字符串 序列。基于树的包装器主要讨论的问题是包装器所提取的目标数据与树结构特征的对应关系,将数据的提取过程映射为树结构元素的匹配定位问题,并可有多种策略解决这一问题。 机器学习技术适用于获取 互联网页面中特定领域的信 息,一旦获得一个训练完备的模型,那么该模型便可有效地获取目标数据,而且灵活性好,准确度高。5.2.2 网页信息抓取实例 基于正则表达式 基于逻辑判断选择 基于 树结构 基于 机器学习5.2.2 网页信息抓取实例 基于正则表达式 基于逻辑判断选择数据结构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Web 挖掘 文本 分析
限制150内