欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    基于Python的网络爬虫设计与实现.docx

    • 资源ID:96763860       资源大小:1.08MB        全文页数:36页
    • 资源格式: DOCX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于Python的网络爬虫设计与实现.docx

    基于Python的网络爬虫设计与实现摘要:从互联网时代开始,网络搜索引擎就变得越发重要。大数据时代,一般的网络搜索引擎不能满足用户的具体需求,人们更加注重特定信息的搜索效率,网络爬虫技术应运而生。本设计先对指定URL的网址相关网页进行分析,找出网页内目标信息所在的URL信息规律;然后选择BeautifulSoup模块或lxml的html模块编写函数分级爬取这些URL;最后将URL对应的网页中的信息归类保存到文本文件中。然后利用jieba模块基于TF-IDF指标对爬取的文本中的信息进行分析,再找出词频高的词,做进一步分析。基于Python实现网络爬虫程序,先对我校近几年新闻网页进行分析,找出新闻中的高频词,并绘制词云图;然后针对这次新型冠状病毒所造成的疫情,从腾讯新闻网中爬取疫情相关信息,同时根据相关信息绘制疫情分布图。两个爬虫实例表明本设计的可行性和有效性。关键词:网络爬虫,互联网,校园,疫情 Design and implementation of web crawler based on PythonAbstract:Since the Internet era, Internet search engines have become more and more essential. In period of big data, common network search engines cannot satisfy the exact needs of users, People attach importance to the search efficiency of specific information, and web crawler technology emerge as the times require. This design first analyzes the URL related web pages of the specified URL to find out the URL information rule of the target information in the web page; then select the beautiful soup module or the HTML module of lxml to write the function to crawl these URLs hierarchically; finally, the information in the web pages corresponding to the URL is classified and saved in the text file. Then use the jeeba module to analyze the information in the crawled text based on TF IDF index, and then find out the words with high word frequency for further analysis. Based on Python, novel coronavirus is first analyzed. We find out the high frequency words in the news and draw the word cloud map. Then, in response to the epidemic situation caused by novel coronavirus, this design crawled the epidemic situation related information from Tencent News Network and drew the epidemic situation distribution map according to the related information. Two crawler examples show the feasibility and effectiveness of the design.Keywords:Crawler, Internet, campus, epidemic situation目 录第1章 绪 论11.1研究背景和实际意义11.2研究现状11.3研究方法和内容21.3.1 研究方法21.3.2 研究内容2第2章 基于Python的网络爬虫技术的相关方法32.1网页分类32.1.1静态网页32.1.2动态网页32.2正则表达式32.3中文分词42.4 词云图生成52.5 数据管理62.6 BeautifulSoup6第3章 基于Python的校园网新闻信息获取与分析73.1 基于Python的校园网新闻信息爬虫实现73.1.1 网页信息获取103.1.2 版块新闻链接列表搜索113.1.3版块新闻网页新闻内容获取133.2 基于Python的校园网新闻信息分析实现143.2.1新闻信息数据管理153.2.2新闻内容文本分词173.2.3停用词删除173.2.4高频词词云制作183.2.4新闻内容词语分析19第4章 基于Python的新型冠状病毒疫情爬虫实现214.1 每日疫情数据获取及曲线图绘制214.1.1 每日疫情数据爬取程序现实214.1.2 每日疫情数据曲线图绘制程序现实234.2 各地疫情数据获取及曲线图绘制254.2.1 各地疫情数据爬取程序现实264.2.2 各地疫情当前数据曲线图绘制程序现实28第5章 总 结31参考文献32致谢33第1章 绪 论1.1研究背景和实际意义21世纪初起,互联网得到了蓬勃的发展,万维网成为海量信息的载体,人们希望能够有效利用万维网里的数不胜数的数据信息,所以网络信息提取成为这一愿望实现的关键。网络世界里的信息成千上万,特别是近年来信息量呈指数增长,人们更加注重从互联网上搜索自己想要信息的效率。人们开始运用搜索引擎来帮助自己在互联网中查找所需要的信息。但是一个一般的搜索引擎必然存在着一定的局限性,不同背景、不同深度、不同领域的用户检索的期望信息一定是不同的,互联网用户只想快速找到自己所需求的信息,但一般的搜索引擎返回的搜索结果包含了庞大的无效信息。通用搜索引擎在一般情况下不能提供精准且专业的信息搜索,同时查准率低、无效信息多、也无法避免广告推送。因此一般的搜索引擎不可能满足特定用户的专业需求,对于这特等的用户需求则需要更加准确的搜素引擎,在大量的需求下,网络爬虫的技术得以快速发展。网络爬虫技术是一种个性化互联网数据信息搜索的网络数据信息获取技术。网络爬虫的英文名称为WebSpider。互联网就像一张巨大且密集的蜘蛛网,Spider这只蜘蛛就在这张网上不断移动。一个生动形象的比喻就是蜘蛛(WebSpider)通过网线的颤抖(网页的链接地址)来搜寻食物(网页)。从任意一个网页(一般情况下是首页)开始,读取网页中数据,从这个网页里搜索其它链接的地址,通过所找的链接地址去找下一个网页。按照这种方式不断循环,直到所选取的网站里全部的网页全部抓取完为止。假定我们把整个互联网比喻成一个网站,网络蜘蛛就可以运用上述方法把互联网中一切的网页都抓取下来。在用户专业性需求下,网络爬虫程序可以在指定网页页面搜索需要的相关信息,而过滤掉其他繁杂的冗余信息,并通过程序对搜索到的信息进行归类保存。大数据时代的到来,意味着更多信息涌入,想要在互联网这片大海中捞到想要的东西也愈发困难,所以网络爬虫的意义就是越显重要。能够帮助我们节省时间和精力,同时也能确保我们找到我们想要的东西。在这个节奏越来越快的世界中,网络爬虫凭借这高效这一点,就有着无穷的意义与价值。1.2研究现状在上世纪九十年代在麻省理工学院一位叫Matthew 的老师就研发出第一款有文献记载的爬虫。爬虫作为核心的搜索引擎技术已经历经近30年的发展,网络爬虫已日趋多样。为满足不同用户不同的需求,人们开发了类型繁多的爬虫。但爬虫技术在西方世界迅速发展的情况下,2004年前我国内基本对于网络爬虫技术没有什么关注,从2005年开始国内才开始关注爬虫技术。目前需求量也是也来越大,急需这方面人才。目前爬虫也只能分为两大类,一类为Google之类的大型搜索引擎的大型爬虫,另一类就是个人型爬虫或中型爬虫。网络爬虫开源系统喷涌式出现,因此人们研发一个简单的抓取系统变得不再困难,但是由于大量程序开源,使得很少有人愿意潜心研究网络爬虫的关键技术。因此在这种不良的环境下,小型爬虫系统质量不高。所以对于中小爬虫的发展还是任重道远。1.3研究方法和内容1.3.1 研究方法网络爬虫应用宽度搜索技术,对URL进行分析,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。网络爬虫还要完成信息提取任务,对于抓取回来的网页进行筛选、归类。在学习使用Python软件的同时,复习网络知识,进而掌握基于Python软件的网络爬虫程序编写方法。本设计拟对我校近几年新闻网页()进行分析,获取相关网页URL及网页文本内容,然后利用jieba模块基于TF-IDF指标对爬取的文本信息进行分析,找出新闻中的高频词,并绘制词云图。同时针对今年对我国发生的新型冠状病毒肺炎疫情,利用动态网页获取方法从腾讯新闻网站()下载疫情分析数据,并绘制疫情相关图。1.3.2 研究内容本设计具体内容安排如下:第1章:介绍网络爬虫的历史背景和实际现状,阐述了本设计所使用的爬虫技术,简单描述了本设计的两个实际应用的实现。第2章:介绍一些基于Python的网络爬虫的相关方法。第3章:校园网新闻信息获取的程序介绍,分析和运行结果的图片展示。第4章:新型冠状病毒疫情爬虫的程序介绍,分析和运行结果的图片展示。第5章:总结。 第2章 基于Python的网络爬虫技术的相关方法2.1网页分类互联网里众多网页主要将其分为静态和动态。当然静态是相对于动态而言的,比不是说静态就是一点不会变动的。2.1.1静态网页在网站设计中,纯粹HTML(标准通用标记语言下的一个应用)格式的网页通常被称为“静态网页”,静态网页是标准的HTML文件,它的文件扩展名是.htm、.html,可以包含文本、图像、声音、FLASH动画、客户端脚本和ActiveX控件及JAVA小程序等。静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。2.1.2动态网页动态网页 URL的后缀不是.htm、.html、.shtml、.xml等静态网页的常见形动态网页制作格式,而是以.aspx、.asp、.jsp、.php、.perl、.cgi等形式为后缀,并且在动态网页网址中有一个标志性的符号“?”。 动态网页一般以数据库技术为基础,可以大大降低网站维护的工作量,采用动态网页技术的网站可以实现更多的功能,如用户注册、用户登录、在线调查、用户管理、订单管理等等。同时动态网页实际上并不是独立存在于服务器上的网页文件,只有当用户请求时服务器才返回一个完整的网页。不只有HTML代码写出的网页被称为动态网页,这些网页一般由CSS,JavaScript代码和HTML代码一起构成网页,它们用Ajax动态加载网页的数据不一定出现在HTML代码中,这就需要复杂的操作。2.2正则表达式正则表达式概念:是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。其实就是一种规则。有自己特殊的应用。是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。正则表达式的特点是:1. 灵活性、逻辑性和功能性非常强。2. 可以迅速地用极简单的方式达到字符串的复杂控制。re模块使 Python 语言拥有全部的正则表达式功能。比如:re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。re.search 扫描整个字符串并返回第一个成功的匹配。pile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。re.findall 方法能够以列表的形式返回能匹配的子串2.3中文分词中文分词,即 Chinese Word Segmentation,将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。例如:“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”,而被当作同一类来处理,结果是检索“和服”的相关信息,会将他们都检索到,在信息量少的情况下,似乎还能够忍受,如果是海量信息,这样的结果就会令人讨厌了。通过引入分词技术,就可以使机器对海量信息的整理更准确更合理,在“制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。所以中文分词的应用会改善我们的生活,使人们真正体会到科技为我所用。从排序里取出预定前N个最优文本特征作为原始语料文本特征子集。基于词频和逆文档频率的TF-IDF算法是一种十分流行的文本特征选取算法。对于文档的特征词,其在文档中出现的总次数为;文档中出现的词的总数为;表示语料库中文档总数;表示包含词语的文档总数。TF和IDF分别为词频和逆文档频率,TF-IDF是一种常用的加权指标,多用于信息检索与数据挖掘。基于TF-IDF的特征选择思想是:如果某个词在某篇文章中出现的频率很高,在其他文章中出现的频率相对较低,那么就说明这个词在这篇文档中比较重要,即可作为这篇文章的一个分类特。(1)(2)(3)公式中,表示包含词语的文档总数,如果不在语料库中,则分母项为0,因此一般情况下使用作分母,一般用IDF平滑后的公式:(4)词频表示词语在文档中相对于语料库所有文件的出现概率,该词在文档中出现次数越高,值就越大;逆文档频率则用另一种形式表示相反的情况,反应包含词语的文档相对于语料库所有文档出现的逆概率,包含该词的文档出现的次数越多,逆文档频率值越低。某词语在某特定文件内的高词频,以及其在整个文件集合中的低逆文档频率,可以得出较高的值。基于指标可以过滤掉语料库文档中普遍出现的词语,保留在某些文档中出现频次较高的具有丰富分类特性的重要词语(后文简称特征词)。2.4 词云图生成在现在互联网信息时代,我们能在各种手机app或计算机网页上看见各式各样的词云图,词云图可以帮助我们从庞大且杂乱的信息中提取出现概率最高的词,让使用者更加清楚且直观的看到有效信息。词云库把词云当作一个对象,WordCloud()是一个文本中与其相对的词云。本设计依据词语出现频率高低的来绘制图片,同时设定词云图的大小、样式、颜色等。wordcloud = WordCloud("simhei.ttf",)fontpath='simhei.ttf'#字体aimask=np.array(Image.open("wordpic.png")#导入图像数据wc = WordCloud(font_path=fontpath, # 设置字体路径background_color="white", # 背景颜色max_words=1000, # 词云显示的最大词数max_font_size=100, # 字体最大值min_font_size=10, #字体最小值random_state=42, #随机数collocations=False, #避免重复单词 max_words=200 #要显示的词的最大个数mask=aimask, #造型遮盖width=1200,height=800,margin=2, #图像宽高,字间距,需要配合下面的plt.figure(dpi=xx)放缩才有效)word_frequence = x0:x1 for x in words_count.head(50).values# words_count前50行数据,即词频前50的词汇word_cloud=wc.fit_words(word_frequence)#根据词频生成词云plt.figure(dpi=50) #通过这里可以放大或缩小plt.axis("off") #隐藏坐标plt.imshow(word_cloud)2.5 数据管理pandas提供了大量能使我们快速便捷地处理数据的函数和方法。DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表 DataFrame函数是创建一个二维表,传入参数,是所存放的数据。2.6 BeautifulSoupBeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器。BeautifulSoup最主要的功能是从网页抓取数据。soup = BeautifulSoup(article_doc, 'html.parser') 利用BeautifulSoup模块的find_all()函数搜索新闻信息。将相关信息按指定顺序存入文本文件。soup = BeautifulSoup(list_page, 'html.parser') #利用BeautifulSoup模块利用标签a的两个属性(href和class)找该对应的链接条件第3章 基于Python的校园网新闻信息获取与分析依照用户设定的规则获取互联网网页中的文字,图片或者一切内容的一组程序或脚本就是网络爬虫,网络爬虫的重要作用简单来说就是让互联网网页的内容下载到本地从而本地有了一个镜像备份。时至今日互联网爆炸的时代,几乎所有网页都会提供给互联网网民们大量的信息,但是这些庞大的数据中大部分都是用户不需要的,就算是专门搜索或者在相关的主题网页中,想要找到用户心仪的信息也是十分困难的。在庞大的数据下需要互联网用户一个一个去鉴别,这是十分费心费力的一件事。所以,就可以专门设计一个符合用户需求主题的爬虫进行精准搜索,方便快捷地获取用户需要的数据。主题网络爬虫就完美的符合用户需要。高网速大数据的今天,主题网络爬虫在Web应用中的地位将越发重要甚至是不可代替。网络爬虫第一步选择爬取对象的链接地址(即URL),将URL放置在待爬取的队列里;第二步从待抓取URL队列里读取一条URL接着进行DNS解析,下载网页内容;第三步分析网页内容,从中搜索符合特定要求的数据,并按指定格式保存;第四步对数据进行分析处理。图1 本章网络爬虫和数据处理流程本章首先利用利用网络爬虫技术从我校校园网的校园新闻和综合新闻两个版块下载、搜索新闻;然后对新闻进行分词处理,分析其中新闻高频词。编程中用到ThreadPool模块、requests模块、BeautifulSou模块、DataFrame模块、WordCloud模块以及Python的内置os模块、re模块、pandas模块和numpy模块。3.1 基于Python的校园网新闻信息爬虫实现利用网络爬虫技术从我校校园网的校园新闻(网址:'图2是以校园新闻版块为例的信息爬取流程图。综合新闻版块新闻爬取方式相同。设计中利用ThreadPool模块将两个版块主页网址输入ThreadPool对象的map函数,由系统并行搜索两个版块的新闻信息。代码如下:# 两个新闻版块爬取链接FILE_CONFIGS = ' 'xyxw', 'news/xyxw/', ' 'zhxw', 'news/zhxw/', pool = ThreadPool() pool.map(main, FILE_CONFIGS) pool.close()#关闭进程池(pool),使其不再接受新的任务 pool.join()#主进程阻塞等待子进程的退出, join方法要在close或terminate之后使用图2 校园新闻版块信息爬取流程图根据流程,编写主函数main()程序。偌max_file=300 #最大文件数# requests请求头HEADERS = 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'accept-encoding': 'gzip, deflate, br', 'accept-language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7', 'Connection': 'close', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit' '/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'#爬虫浏览器CODE = 'UTF-8'#全局默认编码def main(config): url = config0 #信息链接地址URL file_name = config1 #文件名 dir_path = config2 #文件夹 file_num = 0 mkdir(dir_path) #创建文件夹 doc = get_html(url+'.html')#获取每类别的网址网页内容 if doc != '': total_page = get_total_page(doc)#当前网页总编号 for i in range(total_page):#遍历所有页 page = i+1 list_page_url = url + '_page_page.html'.format(page=page) #获取该类其中一页的链接 list_doc = get_html(list_page_url) #获取该类其中一页的页面信息 if list_doc != '': if file_name='xyxw': ftype=1;#校园新闻 else: ftype=2;#综合新闻 article_urls = get_article_urls(list_doc,ftype) #提取该类其中一页中各个链接 for article_url in article_urls: article_doc = get_html(article_url) #提取每类每个页面中的信息 if article_doc != '': #将爬取信息中特定信息存入文件中 file_path = dir_path + file_name + str(file_num) + '.txt' flag = save_article(article_doc, article_url, file_path) #按指定格式存入文件 if flag: file_num += 1 print('保存%s类第%d个文件'%(file_name,file_num) if file_num > max_file: #每类信息最多保存500个文件 break if file_num > max_file: break本设计实现爬取的关键程序流程图如图3图33.1.1 网页信息获取利用reqests模块获取指定网址URL的页面信息。设置了最大重试次数为3次,如果3次请求目标URL都失败则抛出异常。对于请求返回的状态码为200的响应,将以字符串的形式返回请求到的页面HTML代码。具体代码如下:def get_html(url): doc = '' try: session = requests.session()#开启会话,可以跨请求保持某些参数 session.mount('https:/', HTTPAdapter(max_retries=3) request = requests.get(url=url, headers=HEADERS, timeout=30)#根据网址和HEADERS请求 session.close()#关闭会话 request.close()#关闭请求 if request.status_code = 200: request.encoding ="utf-8" doc=request.text except RequestException as e: print('无法获取文件信息') return doc图4 网页信息获取流程图3.1.2 版块新闻链接列表搜索利用BeautifulSoup模块和re模块从校园新闻和综合新闻两个版块主页中获取总页数和各自的子网页链接地址列表。每个版块总页数只需要用re模块的findall()函数,找到其中匹配的参数即可。代码如下:def get_total_page(doc): #从doc字符串中提取出页码和总页数 regex = '共有<b>(d*?)</b>页' result = re.findall(regex, doc, re.DOTALL)0 #寻找匹配括号里(.*?)和(d*?)的内容 total_page = int(result)#总页数 return total_page版块子网页链接地址列表用BeautifulSoup模块的find_all()函数,利用标签a的两个属性(href和class)找该对应条件的链接地址。具体代码如下:def get_article_urls(list_page,ftype): #获取链接地址列表 if ftype=1:#校园新闻 base_url ='' else: #综合新闻 base_url =' soup = BeautifulSoup(list_page, 'html.parser') #利用BeautifulSoup模块 #利用标签a的两个属性(href和class)找该对应的链接条件 if ftype=1:#校园新闻 urls_tree=soup.find_all('a',href=pile('/CampusNews/'), class_='dot') else: #综合新闻 urls_tree=soup.find_all('a',href=pile('/GeneralNews/'), class_='dot') article_urls = for url in urls_tree: url = url.get('href') if url.startswith('http'):#以http开头的字符串(即链接地址) article_urls.append(url)#追加链接地址 else: article_urls.append(base_url + url)#不以http开头的字符串,则基地址+链接 return article_urls图5 地址链接流程图3.1.3版块新闻网页新闻内容获取用re模块的findall()函数搜索新闻标题和发布日期,利用BeautifulSoup模块的find_all()函数搜索新闻信息。将相关信息按指定顺序存入文本文件。具体代码如下:def save_article(article_doc, article_url, file_path): try: regex = '<h1>(.*?)</h1>' title = re.findall(regex, article_doc, re.DOTALL)0 #寻找h1标签的内容,即文章的标题 regexd ='<p><span>发布日期:(.*?)</span></p>' datas=re.findall(regexd, article_doc, re.DOTALL)0 #寻找日期 soup = BeautifulSoup(article_doc, 'html.parser') #利用BeautifulSoup模块 elements=soup.find_all('p',style=pile('text-indent:2em;')#找新闻信息 content = '' if len(elements) > 0: for element in elements:#遍历 element = str(element.text)#获取每一簇信息 para = del_space(element)#自定义的删除空格函数,在后面 content += para with open(file_path, 'w', encoding=CODE) as f: #按指定顺序写入文件 f.write(datas + 'n')#首段:发布日期 f.write(title + 'n')#第二段:信息头 f.write(content + 'n')#第三段:信息主题 f.writelines(article_url)#最后一段:信息的链接地址 return True except IndexError: print('无法保存文件') return False def del_space(string): #去除中文之间的空格 保留英文之间的空格 string = string.strip() #移除字符串头尾指定的字符(默认为空格或换行符)或字符序列 pattern = pile(r'(u4e00-u9fa5+)s+(u4e00-u9fa5+)s+') # 's'用于匹配空白字符 string = pattern.sub(r'12', string) return string图6 获取新闻流程图3.2 基于Python的校园网新闻信息分析实现针对3.1节利用网络爬虫技术获取的校园新闻和综合新闻两个版块的相关新闻信息文件,将新闻文字进行数据管理、分词、停用词删除、统计和制作词云等操作(如图3所示)。图7 校园新闻版块信息分析流程图3.2.1新闻信息数据管理校园新闻和综合新闻两个版块所在文件夹内的所有文本文件数据进行收集处理,按类别、 标题、日期和内容进行管理。先将字符串生成字典,再将文件存为DataFrame格式。具体代码如下:def text_processing(folder_path): folder_list = os.listdir(folder_path) # 查看folder_path的子文件夹 for folder in folder_list: # 遍历每个子文件夹 new_folder_path = os.path.join(folder_path, folder) #根据子文件夹,生成新的路径 files

    注意事项

    本文(基于Python的网络爬虫设计与实现.docx)为本站会员(封****n)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开