第九章互联网研究方法的技术基础.教学xppt课件(完整版).pptx
《第九章互联网研究方法的技术基础.教学xppt课件(完整版).pptx》由会员分享,可在线阅读,更多相关《第九章互联网研究方法的技术基础.教学xppt课件(完整版).pptx(32页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第九章 互联网研究方法的技术基础.教学xppt课件(完整版)新编21世纪新闻传播学系列教材 新闻学系列 新媒体研究方法第九章互联网研究方法的技术基础王锡苓、刘王锡苓、刘 昊昊 著著互联网研究方法的技术基础本章要点关键词第9章互联网技术飞速发展,既为人们获取信息提供了无远弗届的便利,也为研究人们在互联网上的“痕迹”提供了平台。多种多样的互联网应用平台,既是数据的集合地,由于其技术特征,也为研究其上的数据提供了技术工具。欲要利用互联网技术研究新媒体环境中的传播现象,必须首先弄明白互联网的技术基础,包括HTML语言、正则表达式、Xpath和Python语言基础。HTML、正则表达式、Xpath、Py
2、thon第1节 超文本标记语言 1.1 HTML语言特点HTML是超文本标记语言(Hyper Text Markup Language,HTML),主要用于编写网页的标准标记语言。在互联网上,有许多用户使用的页面,都是运用超级文本标记语言编写的代码,这种代码使用浏览器解析出来,就成为各种各样的网页。HTML语言是一种标记语言,它通过各种符号来标记将要显示在网页中的各部分内容。u 超文本性u 标记语言u 平台无关性u 网络通用性第1节 超文本标记语言 1.2 HTML页面a simple example page 页面正文写在这里. . 第1节 超文本标记语言 1.3 HTML常用标签 1.3.
3、1 HTML标签的写法任何标记皆由“”所包围。标记字母大小写皆可。标记名与之间不能留有空格。有些标记需要加上参数,某些则不必。标记一般成对出现,但也有单标记的存在。第1节 超文本标记语言 1.3 HTML常用标签 1.3.2 HTML常用标签u 标题标签u 标签和标签u 列表标签u 预排版文本标签 u 超链接标签u 字体控制标签u 字体风格标签u 图像标签u 表格标签u 标签与标签 第2节 正则表达式 2.1 使用正则表达式的意义传统的搜索和替换操作要求用户提供与预期的搜索结果匹配的确切文本。这种技术简单容易掌握,但存在灵活性不足等问题。使用正则表达式可以测试字符串中的规律,进而提取有用的信息
4、,比如通过正则表达式可以查看字符串中是否含有电话号码或邮箱等信息,可以进行数据识别和验证。使用正则表达式可以识别目标文本,进而提取、删除或替换文本。 第2节 正则表达式 2.2 正则表达式的字符 2.2.1 普通字符 字符描述cx匹配由x指明的控制字符。例如, cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 c 字符。f匹配一个换页符。等价于 x0c 和 cL。n匹配一个换行符。等价于 x0a 和 cJ。r匹配一个回车符。等价于 x0d 和 cM。s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 fnrtv。S匹配任
5、何非空白字符。等价于 fnrtv。t匹配一个制表符。等价于 x09 和 cI。v匹配一个垂直制表符。等价于 x0b 和 cK。第2节 正则表达式 2.2 正则表达式的字符 2.2.2 特殊字符 特殊字符描述.匹配任何单个字符。例如正则表达式“c.c”能匹配如下字符串:“cuc”、“cac”、“c c”,但是不匹配“cuuc”,“c.c”可以匹配“cuuc”。 匹配括号中的任何一个字符。例如正则表达式“cuvwc”匹配cuc、cvc和cwc,但是不匹配cac、cfc。可以在括号中使用连字符-指定字符的区间来简化表示,例如正则表达式0-9可以匹配任何数字字符,这样正则表达式“c0-2c”等价于“c
6、0123456789c”就可以匹配“c0c”、“c1c”、“a2c”等字符串,但是不匹配c3c;还可以制定多个区间,例如“A-Za-z”可以匹配任何大小写字母,“A-Za-z0-9”可以匹配任何的大小写字母或者数字。( )将 () 之间括起来的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域,这个元字符在字符串提取的时候非常有用。把一些字符表示为一个整体,改变优先级、定义提取组两个作用。|将两个匹配条件进行逻辑“或”运算。“apple|banna” 能匹配 “apple” 或 “banna”。“(z|f)ood” 则匹配“zood”或 “food”。 *匹配0至多
7、个在它之前的子表达式,和通配符*没关系。例如正则表达式“cuc*”能匹配 “c” 、“cu”、“cuc”以及 “cucc”;例如“.*”意味着能够匹配任意字符串。z(b|c)*zb、zbc、zcb、zccc、zbbbccc。z(ab)*能匹配z、zab、zabab(用括号改变优先级)。+匹配前面的子表达式一次或多次,和*对比(0到多次)。例如正则表达式9+匹配9、99、999等。 “zo+”能匹配 “zo”以及 “zoo” ,不能匹配z。 ?匹配前面的子表达式零次或一次。例如,do(es)? 可以匹配 do 或 does 。一般用来匹配“可选部分”。n匹配确定的 n 次。cu2cuu。例如,“
8、e2” 不能匹配“bed”中的“e”,但是能匹配“seed”中的两个“e”。 n,至少匹配n次。例如,“e2,”不能匹配“bed”中的“e”,但能匹配 “seeeeeeeed”中的所有“e”。n,m最少匹配 n 次且最多匹配 m 次。“e1,3”将匹配“seeeeeeeed”中的前三个“e”。匹配一行的开始。例如正则表达式“regex”能够匹配字符串“regex我会用”的开始,但是不能匹配“我会用regex”。 $ 匹配行结束符。例如正则表达式“漂亮$” 能够匹配字符串“你很漂亮”的末尾,但是不能匹配字符串“漂亮的演员”。w匹配字母或数字或下划线或汉字 等价于 A-Za-z0-9_。 s匹配任
9、意的空白符 d匹配数字 b匹配单词的开始或结束第2节 正则表达式 2.3 运算符的优先级 2.3.1 正则表达式-运算符优先级 运算符描述转义符(), (?:), (?=), 圆括号和方括号*, +, ?, n, n, n,m限定符, $, 任何元字符、任何字符定位点和序列(即:位置和顺序)|替换,或操作字符具有高于替换运算符的优先级,使得m|food匹配m或food。若要匹配mood或food,请使用括号创建子表达式,从而产生(m|f)ood。第2节 正则表达式 2.3 运算符的优先级 2.3.2 正则表达式举例匹零和非零开头的数字(0|1-90-9*)$匹配国内电话号码(例如010-665
10、82222)d3-d8|d4-d7匹配手机号码(130-9|145|7|150|1|2|3|5|6|7|8|9|180|1|2|3|5|6|7|8|9)d8$匹配Email地址w+(-+.w+)*w+(-.w+)*.w+(-.w+)*$中国邮政编码(6位数字)1-9d5(?!d) 第3节 XPath 3.1 HTML节点树 XPath ,为XML路径语言(XML Path Language),是一门在可扩展标记语言 (Extensible Markup Language,XML)的文档中查找信息的语言。XPath 可用来在html文档中文档节点树中定位节点。XPath是一种表达式语言,提供在数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九章 互联网研究方法的技术基础.教学xppt课件完整版 第九 互联网 研究 方法 技术 基础 教学 xppt 课件 完整版
限制150内