招聘网站数据抓取爬虫程序的设计与开发,软件工程论文.docx

上传人：安***

文档编号：73344075

上传时间：2023-02-17

格式：DOCX

页数：10

大小：21.53KB

( 4.5 )

《招聘网站数据抓取爬虫程序的设计与开发,软件工程论文.docx》由会员分享，可在线阅读，更多相关《招聘网站数据抓取爬虫程序的设计与开发,软件工程论文.docx（10页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、招聘网站数据抓取爬虫程序的设计与开发,软件工程论文Abstract:In order to obtain job information quickly, according to the characteristics of web pages with Worry-free Future , three kinds of Python-based crawler programs are designed to capture job-related data. Through the extraction of the keywords, the job information is m

2、atched, and the relevant content is captured in an Excel file, so that the related job information and specific requirements can be easily found. The experimental results show that this program can quickly and massively capture relevant job information, and it is highly targeted and easy to read, wh

3、ich is conducive to further mining and analysis of job information. Keyword:Python; crawler; position; Worry-free Future; 0、引言随着互联网时代的高速发展，大量的数据能够通过互联网来获得，能够足不出户就能获知世界上的千变万化1.我们能够在互联网上获取招聘信息，而不再局限于报纸、杂志等纸质媒介，这使得求职者能够快速有效地获得心仪的招聘信息。每年的9月和4月都是毕业生找工作的高峰时期，快速有效地获得招聘信息成为求职经过中关键一步。为此，本文设计了一款基于pytho

4、n的爬虫程序，当前国内比拟着名的求职软件有智联招聘前程无忧 58同城等，本文主要对前程无忧的招聘信息进行抓取并分析。现有的数据抓取程序抓取方式单一，用户不能选择最快的抓取方式方法，该程序针对此问题进行了进一步的优化，设计3种数据抓取的方式方法，用户可自行选择，并且能够输入关键字，匹配招聘信息的地点。设计更合理，则用户使用体验效果会更好2. 本文提出的程序通过爬虫获取职位信息，包括：工作名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期。并将获得的信息保存在本地，以供后续的数据挖掘及分析。本文的爬虫程序包含3种爬虫的方式方法，包括Re、XPat

5、h、Beatuiful Soup, 用户能够自行选择想要的爬虫方式方法，并且输入职位的本文关键词语，通过本文关键词语匹配，获得相应的职位信息。 1、相关概念 1.1 Python语言 Python语言语法简单清楚明晰、功能强大，容易理解。能够在Windows、Linux等操作系统上运行；Python是一种面向对象的语言，具有效率高、可简单地实现面向对象的编程等优点3-4.Python是一种脚本语言，语法简洁且支持动态输入，使得Python在很多操作系统平台上都是一个比拟理想的脚本语言，尤其适用于快速的应用程序开发5.Python包括针对网络协议的各个层次进行抽象封装的网络协议标

6、准库，这使得使用者能够对程序逻辑进行进一步的优化。其次， Python非常擅于处理字节流的各种形式，具有很快的开发速度6-7. 1.2 网络爬虫网络爬虫8 Web Crawler , 是一种根据一定的规则，自动提取Web网页的应用程序或者脚本，它是在搜索引擎上完成数据抓取的关键一步，能够在Internet上下载网站页面。爬虫是为了将Internet上的网页保存到本地，以供参考9-10.爬虫是从一个或多个初始页面的URL, 通过分析页面源文件的URL, 抓取新的网页链接，通过这些网页链接，再继续寻找新的网页链接11, 反复循环，直到抓取和分析所有页面。当然这是理想情况下的执行

7、情况，根据如今颁布的数据，最好的搜索引擎也只爬取整个互联网不到一半的网页12. 2、程序设计本文的爬虫程序主要分为5个模块，首先根据Request URL获取需要爬取数据的页面，通过Re、XPath、Beautiful Soup三种方式方法，利用本文关键词语挑选符合条件的职位信息，华而不实包括工作名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期，并保存在本地，以便后续的数据挖掘及分析。 2.1 获取网页信息爬取网页信息之前需要获取网页的信息，并从中找出需要的信息进行抓取。首先打开Chrome阅读器，进入前程无忧的网页，打开开发者选项，找到华而不实

8、的network, 获取URL以及请求头中的headers13.在preview中能够看到当下网页的源代码，能够从源代码中找到需要爬取的信息，即工作名称、标题、地点、公司名称、待遇范围、工作内容、招聘网址以及发布日期，并找出当下页与下一页的offset值，以便在下面的爬虫设计中使用。 2.2 主程序设计将Beautiful Soup、XPath、Regex三种方式方法的文件名打包成字典，并标上序号，设计进入程序的页面，在页面上显示提示信息，请用户选择一种爬虫方式方法，根据用户的选择，进入对应的程序，待用户输入需要查询的职位本文关键词语之后启动爬虫程序，开场抓取数据14

9、.在抓取完毕之后，提示用户数据抓取完毕，以保存至本地文件，以供用户的使用及分析。 2.3 Re程序设计正则表示出式 Re 是对字符串包括普通字符例如， az之间的字母和特殊字符称为元字符操作的一种逻辑公式，就是用事先定义好的一些特定字符及这些特定字符的组合，组成一个规则字符串 15, 这个规则字符串用来表示出对字符串的一种过滤逻辑。正则表示出式是一种文本形式，形式描绘叙述在搜索文本时要匹配的一个或多个字符串。根据上文获取的网页信息，能够将所需信息的字符串用Re表示出来，华而不实：通过获取的日期，用户能够了解最新的职位信息。根据职位的具体信息，求职者能

10、够快速地了解到公司的要求以及职位的相关工作信息。通过上述的正则表示出式获取的信息，存入本地的Excel文件，方便求职者查看。 2.4 XPath程序设计 XPath即为XML途径语言，它是一种用来确定XML 标准通用标记语言的子集文档中某部分位置的语言16.XPath基于XML的树状构造，有不同类型的节点，包括元素节点、属性节点和文本节点，提供在数据构造树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSLT间的语法模型。但是XPath很快地被开发者采用来当作小型查询语言。 XPath相对于Re简单一些， Re语言容易出错，导致无法正确

11、地获得需要的信息，通常能够在Chrome中添加XPath Helper插件，能够在查看网页源代码是直接复制成XPath的格式，方便且通常不容易出错。在XPath程序中，华而不实：通过XPath和Re的代码比照，能够明显发现， XPath的代码比Re的代码要简洁。 2.5 Beautiful Soup程序设计 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能16.它是一个工具箱，通过解析文档为用户提供需要抓取的数据，由于简单，所以不需要多少代码就能够写出一个完好的应用程序。Beautiful Soup自动将输入文档转换为Un

12、icode编码，输出文档转换为utf-8编码。不需要考虑编码方式，除非文档没有指定一个编码方式，这时， Beautiful Soup就不能自动辨别编码方式了。然后，仅仅需要讲明一下原始编码方式就能够了。 2.5.1 解析库本文介绍几种python解析库，并作比拟，如表1所示，本文所用到的解析器是python标准解析器。 2.5.2 标签选择器标签选择器能够选择元素，获取名称、属性、内容，可进行嵌套的选择，能够获取子节点、子孙节点、父节点、祖先节点等。标签选择器可分为标准选择器和CSS选择器，标签选择器能够根据标签名、属性、内容查找文档，有两个常用的函数，华而不实，

13、 find_all name, attrs, recursive, text, *kwargs 用来返回所有符合条件的元素；find name, attrs, recursive, text, *kwargs 用来返回第一个符合条件的元素。CSS选择器通过select 直接传入CSS选择器即可完成元素的选择。在本文设计的程序中，选择了CSS选择器，使用select 函数完成数据的选择，华而不实： int str soup.select div.rt span.dw_c_orange 0.next Sibling #获取当下页数 3、实验结果利用本文设计的爬虫程序，进行了如下实验：首

14、先进入主程序，点击运行程序，程序返回如此图1的界面。接着，如此图2所示，输入数字 2 选择BeautifulSoup解析方式，并输入本文关键词语python启动爬虫，程序正常运行。程序运行完毕后，在本地文件夹中能够找到以 python职位命名的Excel文件，打开文件可看到如此图3所示的信息。 4、结束语本文根据Python语言简洁易读的特性设计了3种方式方法的爬虫程序，用户能够自行选择数据解析的方式方法，并输入需要查询的本文关键词语，即可从庞大的职位数据中提取出需要的数据，方便快速。本程序通过职位的本文关键词语、工作地点等信息的匹配，在一定程度上为使用者提供

15、了便利。提取出的具体的职业信息描绘叙述，可进行进一步的分词，并统计词频，观察单词出现的频率，可愈加快速地了解公司及相应职位的要求，找到符合求职者的招聘信息。以下为参考文献 1房瑾堂。基于网络爬虫的在线教育平台设计与实现D.北京：北京交通大学， 2021. 2王碧瑶。基于Python的网络爬虫技术研究J.数字技术与应用， 2021 5 :76-76. 3周中华，张惠然，谢江。基于Python的新浪微博数据爬虫J.计算机应用， 2020, 34 11 :3131-3134. 4涂小琴。基于Python爬虫的电影评论情感倾向性分析J.当代计算机， 2021 35 :52-55. 5郭

16、丽蓉。基于Python的网络爬虫程序设计J.电子技术与软件工程， 2021 23 :248-249. 6Lutz M.Learning PythonM.北京：机械工业出版社， 2018. 7刘志凯，张太红，刘磊。基于Web的Python3编程环境J.计算机系统应用， 2021, 24 7 :236-239. 8王大伟。基于Python的Web API自动化测试方式方法研究J.电子科学技术， 2021, 2 5 :573-581. 9Hetland M L.Python基础教程M.北京：人民邮电出版社， 2020:243-245. 10涂辉，王锋，商庆伟。Python3编程实现网络图片爬

17、虫J.电脑编程技巧与维护， 2021 23 :21-22. 11高森。Python网络编程基础M.北京：电子工业出版社， 2007. 12周立柱，林玲。聚焦爬虫技术研究综述J.计算机应用， 2005, 25 9 :1965-1969. 13姜杉彪，黄凯林，卢昱江，等。基于Python的专业网络爬虫的设计与实现J.企业科技与发展， 2021 8 :17-19. 14陈琳，任芳。基于Python的新浪微博数据爬虫程序设计J.信息系统工程， 2021 9 :97-99. 15刘娜。Python正则表示出式高级特性研究J.电脑编程技巧与维护， 2021 22 :12-13. 16齐鹏，李隐峰，宋玉伟。基于Python的Web数据采集技术J.电子科技， 2020, 25 11 :118-120.

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

12.8 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 文化交流

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：招聘网站数据抓取爬虫程序的设计与开发,软件工程论文.docx
链接地址：https://www.taowenge.com/p-73344075.html