招聘网站数据抓取爬虫程序的设计与开发,软件工程论文.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《招聘网站数据抓取爬虫程序的设计与开发,软件工程论文.docx》由会员分享,可在线阅读,更多相关《招聘网站数据抓取爬虫程序的设计与开发,软件工程论文.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、招聘网站数据抓取爬虫程序的设计与开发,软件工程论文Abstract:In order to obtain job information quickly, according to the characteristics of web pages with Worry-free Future , three kinds of Python-based crawler programs are designed to capture job-related data. Through the extraction of the keywords, the job information is m
2、atched, and the relevant content is captured in an Excel file, so that the related job information and specific requirements can be easily found. The experimental results show that this program can quickly and massively capture relevant job information, and it is highly targeted and easy to read, wh
3、ich is conducive to further mining and analysis of job information. Keyword:Python; crawler; position; Worry-free Future; 0、引言 随着互联网时代的高速发展, 大量的数据能够通过互联网来获得, 能够足不出户就能获知世界上的千变万化1.我们能够在互联网上获取招聘信息, 而不再局限于报纸、杂志等纸质媒介, 这使得求职者能够快速有效地获得心仪的招聘信息。每年的9月和4月都是毕业生找工作的高峰时期, 快速有效地获得招聘信息成为求职经过中关键一步。为此, 本文设计了一款基于pytho
4、n的爬虫程序, 当前国内比拟着名的求职软件有 智联招聘 前程无忧 58同城 等, 本文主要对 前程无忧 的招聘信息进行抓取并分析。现有的数据抓取程序抓取方式单一, 用户不能选择最快的抓取方式方法, 该程序针对此问题进行了进一步的优化, 设计3种数据抓取的方式方法, 用户可自行选择, 并且能够输入关键字, 匹配招聘信息的地点。设计更合理, 则用户使用体验效果会更好2. 本文提出的程序通过爬虫获取职位信息, 包括:工作名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期。并将获得的信息保存在本地, 以供后续的数据挖掘及分析。本文的爬虫程序包含3种爬虫的方式方法, 包括Re、XPat
5、h、Beatuiful Soup, 用户能够自行选择想要的爬虫方式方法, 并且输入职位的本文关键词语, 通过本文关键词语匹配, 获得相应的职位信息。 1、相关概念 1.1 Python语言 Python语言语法简单清楚明晰、功能强大, 容易理解。能够在Windows、Linux等操作系统上运行;Python是一种面向对象的语言, 具有效率高、可简单地实现面向对象的编程等优点3-4.Python是一种脚本语言, 语法简洁且支持动态输入, 使得Python在很多操作系统平台上都是一个比拟理想的脚本语言, 尤其适用于快速的应用程序开发5.Python包括针对网络协议的各个层次进行抽象封装的网络协议标
6、准库, 这使得使用者能够对程序逻辑进行进一步的优化。其次, Python非常擅于处理字节流的各种形式, 具有很快的开发速度6-7. 1.2 网络爬虫 网络爬虫8 Web Crawler , 是一种根据一定的规则, 自动提取Web网页的应用程序或者脚本, 它是在搜索引擎上完成数据抓取的关键一步, 能够在Internet上下载网站页面。爬虫是为了将Internet上的网页保存到本地, 以供参考9-10.爬虫是从一个或多个初始页面的URL, 通过分析页面源文件的URL, 抓取新的网页链接, 通过这些网页链接, 再继续寻找新的网页链接11, 反复循环, 直到抓取和分析所有页面。当然这是理想情况下的执行
7、情况, 根据如今颁布的数据, 最好的搜索引擎也只爬取整个互联网不到一半的网页12. 2、程序设计 本文的爬虫程序主要分为5个模块, 首先根据Request URL获取需要爬取数据的页面, 通过Re、XPath、Beautiful Soup三种方式方法, 利用本文关键词语挑选符合条件的职位信息, 华而不实包括工作名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期, 并保存在本地, 以便后续的数据挖掘及分析。 2.1 获取网页信息 爬取网页信息之前需要获取网页的信息, 并从中找出需要的信息进行抓取。首先打开Chrome阅读器, 进入前程无忧的网页, 打开开发者选项, 找到华而不实
8、的network, 获取URL以及请求头中的headers13.在preview中能够看到当下网页的源代码, 能够从源代码中找到需要爬取的信息, 即工作名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期, 并找出当下页与下一页的offset值, 以便在下面的爬虫设计中使用。 2.2 主程序设计 将Beautiful Soup、XPath、Regex三种方式方法的文件名打包成字典, 并标上序号, 设计进入程序的页面, 在页面上显示提示信息, 请用户选择一种爬虫方式方法, 根据用户的选择, 进入对应的程序, 待用户输入需要查询的职位本文关键词语之后启动爬虫程序, 开场抓取数据14
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内