《物流大数据分析与挖掘》习题及答案 第七章 物流大数据爬取 习题及答案.docx
-
资源ID:95709597
资源大小:17.82KB
全文页数:4页
- 资源格式: DOCX
下载积分:15金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
《物流大数据分析与挖掘》习题及答案 第七章 物流大数据爬取 习题及答案.docx
第七章物流大数据爬取一、填空题1 .常见的大数据采集与爬取方式包括 和 O2 .在使用聚焦爬虫的过程中,发送消息给该网址所在的,这个过程叫 做HTTP Requesto 收到 发送的消息后,能够根据 发送消息的内容,做相应处理,然后把消息回传给 o这个过程叫做HTTP Responseo3 . Request请求方式主要包括 和 两种类型。4 .爬虫程序抓取的绝大部分网页的数据可以分为: 、与 o5 .是构成网页文档的主要语言。二、单选题1 .对于物流大数据的爬取通常采用()的方法。A、通用爬虫B、聚焦爬虫C、全网爬虫D、机器人爬虫2 . Robots协议,也称为爬虫协议或( )oB、外星人协议D、主题协议A、机器人协议C、网络协议3 .以下集中存储方式中,哪一种是数据爬取过程中首选的数据存储方式? ( )oB、以CSV文本形式存储D、以数据库形式存储B、网页转换D、结构转换)oA、以TXT文本形式存储C、以EXCEL格式存储4 . FME的功能不包括()0A、数据转换C、内容转换5 .使用Python爬虫爬取数据时,第一步操作是(A、向目标站点发起请求C、解析内容B、获取响应内容D、保存数据三、判断题1. Robots协议是一种爬虫行为规范,具备法律强制约束力。()2. HTML的设计目标是显示数据,它聚焦于数据在网页上的表现形式,因此可以说XML是HTML的有益补充。()3. 与XML相比,JSON是一种更加重量级的数据交换格式。()4. CSV和EXCEL格式都是纯文本格式。()5. 使用八爪鱼采集器抓取数据几乎不需要编程基础,因此八爪鱼同FME和Python 爬虫相比更简单、更适合新手使用。()四、简答题1 .简述数据存储的几种形式和各自的特点。2 .简述HTML和XML的区别。3 .简述Python爬虫程序的工作顺序。4 .请列举5个爬虫常用的第三方库。5 .简述爬虫程序抓取的网页数据分类及各自的特点。五、案例分析巧达科技成立于2014年7月,号称拥有中国最大的简历数据库,其主要数据来源为大 数据产品矩阵“乔大招”。2019年3月,巧达科技因涉嫌非法窃取信息犯罪被查封。警方查 明,与正规招聘网站的简历由用户自己上传不同,巧达科技的简历数据库全部是通过非法手 段爬取而来。据北京网安总队办案民警介绍,“嫌疑人通过利用大量代理IP地址、伪造设备 标识等技术手段,绕过招聘网站服务器防护策略,窃取存放在服务器上的用户数据J从不 同网站窃取来的信息被重新合并、排列,重名或是信息不全的信息经过“再比对”后形成完 整的简历和用户画像。针对爬虫获取简历的手段,一位巧达科技前员工称,巧达在智联招聘、猎聘等网站上, 建立了上千个企业账户,每天访问智联、猎聘的网站次数百万次,都是机器在模拟人工操作。 这位员工称,他去年离开巧达之前,巧达依然在用爬虫手段获取简历。巧达科技在给客户的商业计划书上称,巧达科技数据库有2. 2亿自然人的简历,简历累 计总数达37亿份。此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关 系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数 据,巧达科技自称拥有超过8亿自然人的认知数据。也就是说,超过57%的中国人的信息都 在巧达科技的数据库里面。基于这些数据,公司开发了 “72招浏览器”,将其简历数据库以 13800元每年的价格卖给有需求的企业客户,客户就可以在浏览器上直接调取简历信息。办案民警介绍,在巧达科技窃取数据过程中,还因传输数据量过大导致报案公司服务器 数十次中断服务,影响上千万用户正常访问,带来严重的经济损失。思考问题:(1)巧达科技的行为触碰到了哪些“红线” ?(2)本案例对个人爬虫使用者及招聘网站运营者分别带来了怎样的启示?参考答案一、填空题1. 通用爬虫、聚焦爬虫(P121)2. 浏览器、服务器、服务器、浏览器、浏览器、浏览器 (pl23)3. GET、 POST (pl24)4. HTML源码数据、XML数据、JSON格式的数据(pl24)5. HTML (超文本标记语言)(pl24)二、单项选择题1. B(pl21)2. A(pl21)3. D(pl26)4. B(pl27)5. A(pl28)三、判断题1 . V (pl24)2 (pl22)3 . V (pl26)四电简答题W标鼠数据存储的几种形式和各自的特点。(P125)答:(1)以TXT文本形式存储。以TXT文本的操作较为简单,其兼容性好,但缺点是不利 于数据的检索。(2)以CSV文本形式存储。CSV文件即可用记事本打开,也可用Excel打开,解决了不同 变量数据分隔问题。大数据处理文件大多以CSV文本形式进行存储工(3) EXCEL格式。同csv文件相比,EXCEL文件可以存储更多的信息。(4)以数据库形式存储。数据库的存储方式有利于保持数据的一致性,且数据更新的成本 低,也便于进行复杂查询,是首选的数据存储方式。2 .简述HTML和XML的区别。(pl25)答:HTML的设计目标是显示数据,它聚焦于数据在网页上的表现形式;。而XML的设计 目标是描述数据,并聚焦于数据的内容。3 .简述Python爬虫程序的工作顺序。(pl28)答:模拟浏览器发送请求一下载网页代码一只提取有用的数据一存放于数据库或文件中。本 节介绍的爬虫是基于Python的爬虫程序。4 .请列举5个爬虫常用的第三方库。(pl29)答:urllib> requests、grab> pycurl> urllib3> httplib2> RoboBrowser、MechanicalSoup> mechanize、socket 等。5 .简述爬虫程序抓取的网页数据分类及各自特点。(P133)答:爬虫程序抓取的网页数据分类包括HTML源码数据、XML数据与JSON格式的数据。(1)HTML (超文本标记语言)是构成网页文档的主要语言。HTML组成的描述性文本,标记 了文字、图形、动画、声音、表格、链接等内容。但是HTML源码数据中,获取到真正需要 的数据,还需要进行筛选和整理。(2) XML (可扩展标记语言)是用来描述数据的,XML的标记不是在XML中预定义的,而是 由开发者自己定义的标记。XML的设计目标是描述数据,并聚焦于数据的内容。(3) JSON (JavaScript Object Notation)是一种将网页数据与表现形式进行分离的解决 方案。JSON是一种更加轻量级的数据交换格式,它采用完全独立于编程语言的文本格式来 存储和表示数据。五、案例分析提示:(1)以招贤纳士为目的,以招聘企业的身份,通过企业账户查看投递人或网站上全量 求职者的完整简历,是完全合法的。但巧达科技通过爬虫技术使用几千个企业账户大批量检 索并获取招聘网站上的简历数据,并且在未经求职者本人同意的情况下,将原始数据及其多 项未经授权的关联数据合并加工后与第三方进行交易并从中获取巨额利润。这种行为侵犯了 个人用户的隐私。(2)对个人爬虫使用者:在利用爬虫程序抓取数据时,要始终牢记“涉及个人隐私的信息 碰不得”。对招聘网站运营者:应当重视对客户信息的保护工作。对于求职者个人用户信息的下载、 获取,应当设置严格的权限;对于企业客户的注册应当严格审查;对于后台大量获取简历的 行为应当做好严格监控和反制,官方理应及时介入处理。巧达科技之所以能够在这些平台建 立上千个企业账户肆无忌惮的大批量检索、爬取、下载简历,和平台的监管机制缺漏脱不了 关系。