《物流大数据分析与挖掘》习题及答案 第七章 物流大数据爬取 习题及答案.docx
《《物流大数据分析与挖掘》习题及答案 第七章 物流大数据爬取 习题及答案.docx》由会员分享,可在线阅读,更多相关《《物流大数据分析与挖掘》习题及答案 第七章 物流大数据爬取 习题及答案.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章物流大数据爬取一、填空题1 .常见的大数据采集与爬取方式包括 和 O2 .在使用聚焦爬虫的过程中,发送消息给该网址所在的,这个过程叫 做HTTP Requesto 收到 发送的消息后,能够根据 发送消息的内容,做相应处理,然后把消息回传给 o这个过程叫做HTTP Responseo3 . Request请求方式主要包括 和 两种类型。4 .爬虫程序抓取的绝大部分网页的数据可以分为: 、与 o5 .是构成网页文档的主要语言。二、单选题1 .对于物流大数据的爬取通常采用()的方法。A、通用爬虫B、聚焦爬虫C、全网爬虫D、机器人爬虫2 . Robots协议,也称为爬虫协议或( )oB、外星人协
2、议D、主题协议A、机器人协议C、网络协议3 .以下集中存储方式中,哪一种是数据爬取过程中首选的数据存储方式? ( )oB、以CSV文本形式存储D、以数据库形式存储B、网页转换D、结构转换)oA、以TXT文本形式存储C、以EXCEL格式存储4 . FME的功能不包括()0A、数据转换C、内容转换5 .使用Python爬虫爬取数据时,第一步操作是(A、向目标站点发起请求C、解析内容B、获取响应内容D、保存数据三、判断题1. Robots协议是一种爬虫行为规范,具备法律强制约束力。()2. HTML的设计目标是显示数据,它聚焦于数据在网页上的表现形式,因此可以说XML是HTML的有益补充。()3.
3、与XML相比,JSON是一种更加重量级的数据交换格式。()4. CSV和EXCEL格式都是纯文本格式。()5. 使用八爪鱼采集器抓取数据几乎不需要编程基础,因此八爪鱼同FME和Python 爬虫相比更简单、更适合新手使用。()四、简答题1 .简述数据存储的几种形式和各自的特点。2 .简述HTML和XML的区别。3 .简述Python爬虫程序的工作顺序。4 .请列举5个爬虫常用的第三方库。5 .简述爬虫程序抓取的网页数据分类及各自的特点。五、案例分析巧达科技成立于2014年7月,号称拥有中国最大的简历数据库,其主要数据来源为大 数据产品矩阵“乔大招”。2019年3月,巧达科技因涉嫌非法窃取信息犯
4、罪被查封。警方查 明,与正规招聘网站的简历由用户自己上传不同,巧达科技的简历数据库全部是通过非法手 段爬取而来。据北京网安总队办案民警介绍,“嫌疑人通过利用大量代理IP地址、伪造设备 标识等技术手段,绕过招聘网站服务器防护策略,窃取存放在服务器上的用户数据J从不 同网站窃取来的信息被重新合并、排列,重名或是信息不全的信息经过“再比对”后形成完 整的简历和用户画像。针对爬虫获取简历的手段,一位巧达科技前员工称,巧达在智联招聘、猎聘等网站上, 建立了上千个企业账户,每天访问智联、猎聘的网站次数百万次,都是机器在模拟人工操作。 这位员工称,他去年离开巧达之前,巧达依然在用爬虫手段获取简历。巧达科技在
5、给客户的商业计划书上称,巧达科技数据库有2. 2亿自然人的简历,简历累 计总数达37亿份。此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关 系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数 据,巧达科技自称拥有超过8亿自然人的认知数据。也就是说,超过57%的中国人的信息都 在巧达科技的数据库里面。基于这些数据,公司开发了 “72招浏览器”,将其简历数据库以 13800元每年的价格卖给有需求的企业客户,客户就可以在浏览器上直接调取简历信息。办案民警介绍,在巧达科技窃取数据过程中,还因传输数据量过大导致报案公司服务器 数十次中断服务,影响上千万用户正
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 物流大数据分析与挖掘 物流大数据分析与挖掘习题及答案 第七章 物流大数据爬取 习题及答案 物流 数据 分析 挖掘 习题 答案 第七
限制150内