欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    (1.21)--4-2-2不同文件格式的数据读写.ppt

    • 资源ID:96339286       资源大小:609.72KB        全文页数:36页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    (1.21)--4-2-2不同文件格式的数据读写.ppt

    第第4 4章章 数据处理和分析数据处理和分析-Pandas-Pandas第第0404讲讲 不同格式文件的数据读写不同格式文件的数据读写Contents目录01文本文件的读写与解析文本文件的读写与解析二进制文件的读写与解析二进制文件的读写与解析02与与Web APIsWeb APIs的交互的交互0301文本文件的读写与解析文本格式的文件采用不同标准的字符编码,主要有CSV、JSON、XML和HTML等不同文件类型。CSV格式文件CSV(Comma Separated Values),即逗号分隔值(分隔符也可以其他符号),是一种广泛使用的文本格式,用以存储表格数据,包括数字或字符。这种格式的文件数据使用虽然广泛(如Kaggle上一些题目提供的数据就是CSV格式),但却没有通用的标准,在处理时常常会碰到麻烦。操作CSV格式文件的方法:使用Python标准模块csv,需要预先导入。提供如reader、writer等方法进行读写操作;使用Pandas库,读操作可以使用pd.read_csv()或pd.read_table()函数,写操作可以使用Series或DataFrame对象的to_csv()方法。CSV格式文件-读取数据读取CSV文件中的数据时,默认将文件中的第一行解析为标题行,作为列标签的名称,而行索引默认采用从0开始的数字。import os os.chdir(ud:DSPandasdata)#设置文件所在的目录 df=pd.read_csv(temp.csv)#默认以逗号分隔 df=pd.read_table(temp.csv,sep=,)#指定逗号为分隔符 df S.No Name Age City Salary0 1 Tom 28 Toronto 200001 2 Lee 32 HongKong 30002 3 Steven 43 Bay Area 83003 4 Ram 38 Hyderabad 3900CSV格式文件-读取数据(1 1)行索引的设置)行索引的设置如果要将意义明确的某一列作为行索引标识,可以使用index_col参数指定,如下:pd.read_csv(temp.csv,index_col=S.No)#指定S.No列为行索引如果需要一个多层索引,可将由列编号或列名构成的列表作为index_col参数的值,如index_col=Name,Age或index_col=1,2。(2 2)分隔符的设置)分隔符的设置在有些情况下,数据中各字段的分隔符不是默认的分隔符,则可以通过sep参数指定要分隔的字符;若使用不同数量的空白字符进行分隔,如空格、Tab制表符、换行符、换页符等,则可以正则表达式“s+”作为sep参数的值,以匹配多个空白字符。使用read_csv()函数读取文件中的数据时,为便于数据理解和处理,结合函数参数的使用,有如下需要注意的问题:CSV格式文件-读取数据(3 3)标题行的设置)标题行的设置若CSV格式文件中没有标题行,或者虽然有标题行,但标题行的意义并不明确,可以自定义各列标签的名称或进行标题行之间的匹配。pd.read_csv(data1.csv,header=None)#无标题行,采用默认的数字标签 pd.read_csv(ex2.csv,names=A,B,C,D,Msg)#自定义标题行(4 4)缺失值处理)缺失值处理缺失值处理是文件解析任务中的一个重要组成部分。默认情况下,Pandas会用一组经常出现的标记值进行识别,如np.nan、NULL、None等。参数na_values可以用一个列表或集合来指定缺失值;若使用字典,可以对不同的列使用不同的缺失值标记。pd.read_csv(data2.csv,na_values=apple,orange)#用列表指定缺失值 na_dict=message:energy,something:apple,orange#定义字典 pd.read_csv(data2.csv,na_values=na_dict)#用字典标记缺失值读取CSV文件数据应注意的问题:CSV格式文件-读取数据(5 5)设置最大显示的行数、列数)设置最大显示的行数、列数为显示紧凑,便于阅读和理解数据,可以对Pandas的显示选项进行设置:pd.options.display.max_columns=7#最大显示列数 pd.options.display.max_rows=10#最大显示行数(6 6)读取数据子集)读取数据子集如果针对大数据文件,只需要读取其中的一部分数据,可以通过nrows、usecols参数指定要读取的行数和列,获取到需要的数据子集。columns=list(range(0,11)#生成由列号组成的列表 pd.read_csv(mn.csv,index_col=0,nrows=6,usecols=columns)#读取子集示例中,编号为0的列通过index_col参数设置为行索引。读取CSV文件数据应注意的问题:CSV格式文件-读取数据(7 7)数据的块读取方法)数据的块读取方法要逐块读取文件,可以指定chunksize参数的值,read_csv()函数将返回一个TextParser对象,使你可以根据chunksize对文件进行逐块迭代。如我们对mn.csv中的数据进行迭代处理,将值计数聚合到“HH1”列中。chunk=pd.read_csv(mn.csv,index_col=0,usecols=columns,chunksize=1000)chunk#返回一个TextParser对象 tot=pd.Series()#创建一个由列表组成的空系列对象 for cluster in chunk:#迭代访问TextParser对象 tot=tot.add(clusterHH1.value_counts(),fill_value=0)tot=tot.sort_values(ascending=False)#将值计数降序排序对刚刚生成的TextParser对象,可以使用其get_chunk()方法读取任意大小的块。chunk.get_chunk(size=6)#每次调用get_chunk方法都从当前位置开始读取读取CSV文件数据应注意的问题:CSV格式文件-写数据若要将数据写出到CSV文本格式的文件,可以使用DataFrame或Series对象的to_csv等方法。将DataFrame对象中的数据写入到CSV文件之前,可以通过修改对象columns属性的方式,将列标题替换为意义更加明确的内容。df.columns=headers#headers为标题列表将DataFrame对象的数据写入到CSV格式文件out.csv中 df.to_csv(out.csv)sys为Python标准模块,可以指定仅在屏幕上显示输出文本内容 import sys#导入sys模块 df.to_csv(sys.stdout,sep=|,na_rep=NULL)#指定新的分隔符并标记空值默认情况下,to_csv会输出行列的标签,但可以通过indexheader参数设置禁用行列标签。df.to_csv(sys.stdout,sep=|,na_rep=NULL,index=False,header=False)CSV格式文件-使用Python标准库csv文件中数据格式不规则时,除手工处理外,也可以使用Python的标准模块csv。在处理文件中的分隔符时,若分隔符是单个字符,可以直接将已经打开的文件传递给csv.reader()方法,对返回的可迭代对象进行处理,以满足数据格式的要求,如下:import csv#导入内置csv模块 file=open(data3.csv)#打开文件 lines=list(csv.reader(file)#将reader返回的可迭代对象转换为列表 lines0#访问列表元素,HH1,HH2,LN,MWM1,MWM2,MWM4,MWM5,MWM6D,MWM6M,MWM6Y,MWM7,MWM8,MWM9,MWM10H,MWM10M,MWM11H,MWM11M,MWB1M,MWB1Y,MWB2 lines11,1,17,1,1,17,1,14,7,4,2014,Completed,2,20,17.0,59.0,18.0,7.0,5.0,1984.0,29.0 header,values=lines0,lines1:#将所有行拆分为标题行和数据行使用字典推导式,并通过zip(*values)解包,将行转置为列,从而创建数据列的字典。data_dict=h:v for h,v in zip(header,zip(*values)CSV格式文件-使用Python标准库csvCSV文件的形式有很多,可以使用csv.Dialect创建一个子类,满足数组的格式要求,如专门的分隔符、字符串引用符、行结束符等。class new_format(csv.Dialect):lineterminator=ndelimiter=;quotechar=quoting=csv.QUOTE_MINIMAL reader=csv.reader(file,dialect=new_format)读写读写CSVCSV格式文件应该注意的两个问题:格式文件应该注意的两个问题:对于分隔符有多个或比较复杂的情况,Python内置的csv模块将无法解析,可使用字符串的split()方法或正则表达式的split()方法进行拆分和整理;编码问题:使用Windows记事本程序将CSV文件保存为UTF-8模式时,默认含有隐藏的BOM(Byte Order Mark)字符,对CSV文件的读写造成干扰。因此,需要首先消除文件中的BOM字符。JSON格式文件JSON全称为JavaScript Object Notation,已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。它是一种比表格型文本格式(如CSV)灵活得多的数据格式。注:使用记事本程序打开的JSON格式文件的内容不会自动换行显示,部分内容如下:JSON格式文件-数据类型与数据格式JSON格式的数据与Python的数据类型非常接近。除空值外,JSON数据与Python的代码也存在一些细微的差别,如列表末尾不允许存在多余的逗号等。Python数据类型数据类型JSON格式数据格式数据dict-字典object-对象list-列表array-数组str-字符串string-字符串None-空值null-空值int-整型number-整数float-浮点型number-实数JSON数据的书写格式为key:value,其对象中所有的键都必须是字符串。JSONJSON对象对象“firstName”:”John”,”lastName”:”Doe”,”age”:20JSONJSON数组数组sid:a1001,name:张大山,age:21,sid:a1002,name:李晓明,age:20,sid:a1003,name:赵志坚,age:22,JSON格式文件-Python标准模块jsonJSON格式文件的读写,也可以使用如下方式:pandas.read_json():读取JSON格式文件内容,并自动解析,转换为DataFrame对象DataFrame.to_json():将DataFrame对象中的数据写入到JSON格式的文件Python提供了json标准模块,该模块提供的方法可以实现JSON格式的数据与Python数据类型的转换以及JSON格式文件的读写。json模块的常用方法如下:json.dumps(obj):将Python对象转换为JSON格式,即编码;json.loads(str):将JSON格式的字符串转换为Python数据类型,即解码;json.dump():把数据写入文件;json.load():把文件中的数据读取出来。JSON格式文件-json文件读写示例import pandas as pdimport json#导入Python内置的json模块import os obj=firstName:John,lastName:Doe,age:20 result=json.loads(obj)#将Python对象转换为JSON格式 resultfirstName:John,lastName:Doe,age:20 obj=sid:a1001,name:张大山,age:21,sid:a1002,name:李晓明,age:20,sid:a1003,name:赵志坚,age:22 result=json.loads(obj)#将Python数组转换为JSON格式resultsid:a1001,name:张大山,age:21,sid:a1002,name:李晓明,age:20,sid:a1003,name:赵志坚,age:22 json.dumps(result)#转换时汉字重新编码sid:a1001,name:u5f20u5927u5c71,age:21,sid:a1002,name:u674eu6653u660e,age:20,sid:a1003,name:u8d75u5fd7u575a,age:22 df=pd.DataFrame(result,columns=sid,name,age)#将JSON数组转换为DataFrame对象 data=pd.read_json(iso-2.json)#读取json格式文件中的数据,自动解析并转换为DataFrame对象 data.to_json(iso.json)#将数据输出到JSON格式文件HTML格式文件HTML,即HyperText Markup Language,超文本标识语言,是网页设计中最常用的一种基本格式。XML格式文件XML即eXtensible Markup Language,是一种可扩展的标记语言,应用于Web开发数据的诸多方面。数据能够以纯文本格式存储在独立的XML文件中,可简化数据的存储和共享。XML数据的书写格式如下:dataXML文档本质上只是格式特殊的数据文件,它以层次化和结构化的方式保存数据,有标签和属性两种形式,如下:,属性category的值为WEBErik T.Ray,标签author的值为Erik T.RayXML格式文件XML的结构和数据存储格式,示例如下:同级根元素根元素属性:属性:“lang”元素元素属性:属性:“category”元素元素元素元素元素元素元素元素文本:文本:Harry Potter文本:文本:JK.Rowing文本:文本:2005文本:文本:29.99父子 Everyday talian Giada De Laurentiis 2005 30.00 Harry Potter J K.Rowling 2005 29.99 Learning XML Erik T.Ray2003 39.95 Python支持XML、HTML操作的外部库Python支持用于读写HTML和XML格式文件数据的外部扩展库主要包括Beautiful Soup、lxml和html5lib。lxml库处理数据的速度相对较快,而BeautifulSoup和html5lib库在使用爬虫技术进行网络数据采集时使用较多,对HTML或XML文件数据的处理有更好的容错性。Windows环境下在线安装:pip install lxmlpip install beautifulsoup4pip install html5lib导入到Python环境:import lxmlimport html5libfrom bs4 import BeautifulSoup as BSHTML文件的读取与解析Pandas提供了read_html()方法,默认情况下可以使用lxml或Beautiful Soup自动搜索并尝试解析HTML文件中所有的标签,将每一个标签内的表格数据解析为一个DataFrame对象,该方法最终返回一个DataFrame对象的列表。美国联邦存款保险公司(网址为https:/www.fdic.gov/),记录了多年来银行倒闭的情况。以下载的HTML文件fdic_failed_bank_list.html为例,简单演示read_html()方法的使用。import pandas as pd tables=pd.read_html(datafdic_failed_bank_list.html)#读取文件内容 len(tables)#tables为DataFrame对象的列表,仅有一个元素 failures=tables0#获取列表中第1个DataFrame对象 failures.head(1)#返回DataFrame对象第1行的数据 Bank Name City .Closing Date Updated Date0 Allied Bank Mulberry .September 23,2016 November 17,2016 close_timestamps=pd.to_datetime(failuresClosing Date)#转换日期格式 close_timestamps.dt.year.value_counts()#按年份计算倒闭的银行数XML解析-lxml.objectify美国纽约大都会运输署(Metropolitan Transportation Authority)是北美地区最大的运输网络,其发布的数据,包括当前的列车和公交车时刻表、当前的服务状态、电梯和自动扶梯状态等,都由MTA托管,并在同意MTA的条款和条件后才能下载。公交和列车服务的数据可从https:/new.mta.info/developers/open-data下载。示例:使用包含在一组XML文件中的运行情况数据,其中每项列车或公交服务都有各自的文件(如Metro-North Railroad的文件是Performance_MNR.xml),其中每条XML记录就是一条月度数据。XML作为一种常见的支持分层、嵌套数据以及元数据的结构化数据格式,可以使用lxml.objectify、lxml.etree或Python的内置模块xml.etree进行解析。lxml.objectify是基于lxml.etree构建的Python对象API接口,主要用于处理以数据为中心的XML文档,可根据叶子节点所包含的内容自动推断数据类型,其节点元素分为结构节点(Tree Element)和数据节点(Data Element)两类。XML解析-lxml.objectify解析示例from lxml import objectify#导入lxml库file=open(Performance_MNR.xml)#打开xml文件parsed=objectify.parse(file)#解析xml文件,生成ElementTree对象root=parsed.getroot()#获取xml文件的根节点引用通过root.INDICATOR的引用,将返回一个用于产生各个标记为的XML元素生成器。对于每条数据记录,我们可以用标记名(如YTD_ACTUAL)和数据值填充一个字典,不需要的标记可以排除掉。data=#初始化数据列表skip_fields=PARENT_SEQ,INDICATOR_SEQ,DESCRIPTION,DESIRED_CHANGE,DECIMAL_PLACES#要排除的标记for elt in root.INDICATOR:#遍历访问所有的INDICATOR元素 el_data=#初始化字典 for child in elt.getchildren():#遍历每个结构元素的数据子元素 if child.tag in skip_fields:#排除部分标记 continue el_datachild.tag=child.pyval#用标记名和数据值填充字典 data.append(el_data)#将数据元素追加到数据列表len(data)#查看数据列表data的长度data0#访问data列表中的第1个元素 perf=pd.DataFrame(data)#data列表中每个元素为字典形式,可转换为DataFrame对象 perf.head()#查看DataFrame对象的行列标识XML解析-xml.etreePython提供的标准库xml通过三种方式解析XML文档:SAX(Simple API for XML):解析器采用事件驱动模型,在解析XML过程中触发事件,然后调用用户定义的回调函数来处理XML文档;DOM(Document Object Model):将XML文档在内存中解析为一棵树,然后通过树的操作来操作XML;etree:该模块中的元素树(ElementTree)则是一个轻量级的DOM,主要包含ElementTree类、Element类和一些操作XML的函数三个部分。其中,ElementTree类用来表示整个XML文档,Element类用来表示XML的一个节点。xml.etree.ElementTree模块具有方便友好的API接口,代码可用性好、速度快、消耗内存少。XML解析-xml.etree示例CSV标题标题样本记录样本记录1样本记录样本记录2指标指标60岁时预期寿命(年)出生时预期寿命(年)发布状态发布状态已发布已发布年份年份20002012WHO地区地区欧洲东地中海世界银行收入分组世界银行收入分组高收入高收入国家国家安道尔共和国阿拉伯联合酋长国性别性别男女合计女性显示值显示值2378数值大小数值大小23.0000078.00000最低值最低值最高值最高值备注备注世界卫生组织(World Health Orgnization)官方网站下载的按国家分类的预期寿命数据(http:/apps.who.int/gho/data/view.main.SDG2016LEXv?lang=en),简单演示使用etree模块解析XML文档的过程。XML解析-xml.etree示例from xml.etree import ElementTree as ET#导入解析XML的Python内置库tree=ET.parse(data_text.xml)#读取XML文件数据,保存为Python可解析的对象root=tree.getroot()#获取根结点的XML标签,之后可以查看root对象的内容,便于理解和处理data=root.find(Data)#获取其中标记为Data的元素其中,data是由Observation元素组成的超长列表,显示时耗时巨大。每个Observation元素代表一行数据,其数据类型为xml.etree.ElementTree.Element对象。因此,可以通过循环迭代的方式,逐个访问其中的元素,并转换为方便Python处理的字典列表。lst_data=#初始化列表,用以保存转换后的最终数据for observation in data:#遍历列表中的Observation元素 record=#保存每一行键和值的字典,初始化为空 for item in observation:#遍历Observation元素的子元素 attriName=list(item.attrib.keys()0#第1个属性名作为键名 if attriName=Numeric:#处理键名为attriName的值 rec_key=NUMERIC rec_value=item.attribNumeric else:rec_key=item.attriblookup_key rec_value=item.attribCode recordrec_key=rec_value#将键值对添加到字典record中 lst_data.append(record)#将字典作为一个元素添加到列表中02二进制文件的读写与解析Pickle序列化实现数据的高效二进制格式存储,最简单的方法之一是使用Python内置的pickle序列化。将数据以pickle格式保存到磁盘上,可使用pandas对象的to_pickle方法;而要读取被pickle化的数据,可以通过pickle直接读取或使用pandas的read_pickle方法。pickle序列化仅建议用于短期存储格式,这是因为pickle格式化的数据可能无法被后续版本的库unpickle出来。import pandas as pd#导入pandas库 frame=pd.read_csv(data2.csv)#读取CSV文件数据 frame.to_pickle(frame_pickle)#数据pickle化,并写入磁盘 pd.read_pickle(frame_pickle)#读取pickle化的数据HDF5格式HDF5库提供相应的应用程序接口(API),用于创建、存取、处理HDF5文件和对象。HDF5可作为C标准库,且带有多种语言的接口,支持Python、Java和Matlab等。对HDF5文件、数据集、群组、属性的创建和使用,数据集的读写操作等,可参阅支持HDF5的Python库的官方文档http:/docs.h5py.org/en/latest/HDF5是一种全新的分层数据格式(Hierarchical Data Fromat),由数据格式规范和支持库实现组成,适用于可被层次性组织且数据集需要被元数据标记的数据模型。HDF5提供了一种大规模数据存储的解决方案,以满足科学数据存储不断增加和数据处理不断变化的需求。HDF5格式-文件组织结构HDF5文件组织包含三大要素:HDF5文件:能够存储两种基本数据对象dataset和group的容器,其操作类似于Python标准的文件操作,文件对象本身就是一个组,以/作为遍历文件的入口名称。数据集(dataset):数据元素的一个多维数组,支持元数据(metadata),类似于Numpy的数组,每个数据集都有一个名称(name)、形状(shape)和类型(dtype),支持切片操作。群组(group):包含0个或多个HDF5对象、支持元数据(metadata)的一个群组结构,类似于Windows文件夹的容器,每个group中可以存放dataset或子group,其形式同字典,键为组成员的名称,值为组成员对象本身。Root GroupGroupGroupDataSetDataSetAttributeAttributeGroupGroupAttributeAttributeAttributeAttributeData ArrayData ArrayNameNameValueValueHDF5格式-示例Python可以使用PyTables或h5py外部扩展库直接访问HDF5文件。Pandas提供了更为高级的接口,可以简化存储Series和DataFrame对象,其中的HDFStore类可以像字典一样,处理低级的细节。data=np.random.randint(1,10)for x in range(6)#列表推导式生成数据 height=pd.Series(data,index=list(ABCDEF)#数据转换为Series对象 bar=pd.DataFrame(np.random.randn(10,4),columns=list(ABCD)#创建DataFrame对象 store=pd.HDFStore(test.h5)#创建test.h5文件,返回HDFStore类对象 storeheight,storebar=height,bar#将数据写入store对象 store.put(key=height,value=height)store.put(key=bar,balue=bar)#利用store对象的put()方法,以键值对方式写入数据 storebar#读入数据,通过键名访问,与store对象的get()方法等价 store.remove(height)#与del storeheight等价,删除数据 store.close()#关闭store对象,将数据存储到本地h5文件 pd.read_hdf(test.h5,key=bar)#直接使用pandas的方法按键名读取h5文件中的数据说明:HDFStore类的调用,需要使用如pip install tables命令预先安装PyTables外部扩展库,且与Numpy库的版本一致,如采用numpy1.17.4、tables1.17.4;从速度上而言,采用HDF5格式文件存储,其读写速度要明显优于其他格式的文件,这也是使用大数据时采用HDF5格式文件的原因之一。Excel文件格式对于规则的表格数据,使用Pandas可以快速读写Excel文件中的数据并方便处理,对于较为复杂的表格数据,Pandas提供的方法就表现出明显的不足,如对于工作簿(Book)、工作表(Sheet)的结构和属性的解析就无能为力。示例使用Python支持的外部扩展库完成Excel文件数据的处理,这些外部扩展库需要使用pip install命令预先安装。xlrd:读取Excel文件;xlwt:向Excel文件写入,并设置格式;xlutils:一组Excel高级操作工具(需要预先安装xlrd和xlwt)。要使用Pandas处理Excel 2003或更高版本的表格数据,主要有以下方法:pandas.ExcelFile(FileName):创建Excel文件的一个实例;pandas.read_excel(FileName,SheetName):读取Excel文件中的工作表;pandas.ExcelWriter(FileName):创建ExcelWriter的一个实例;DataFrame.to_excel(FileName):将数据写入Excel文件。Excel文件格式-示例数据来源是联合国儿童基金会(UNICEF)发布的2014年“世界儿童状况”报告。为统计其中的童工和童婚数据,需要提取Excel文件中的特征数据,并转换为Python能够适用的数据结构,以方便进行后续处理。book=xlrd.open_workbook(SOWC 2014 Stat Tables_Table 9.xlsx)#创建工作簿实例sheet=book.sheet_by_name(Table 9)#创建工作表实例rowData=#初始化行数据列表lstCountry=#初始化国家名称列表for i in range(14,sheet.nrows):#遍历第14行之后的行数据 row=sheet.row_values(i)#获取当前行数据 country=row1#国家名称#total,male,female,married_by_15,married_by_18 data=row4,row6,row8,row10,row12#DataFrame的行数据 if country=Zimbabwe:#国家名称为津巴布韦结束循环 break else:rowData.append(data)#添加当前行数据到列表 lstCountry.append(country)#添加国家名称到列表colIndex=(child_labor,total),(child_labor,male),(child_labor,female),(child_marriage,married_by_15),(child_marriage,married_by_18)columns=pd.MultiIndex.from_tuples(colIndex)#定义多层列索引标识index=lstCountry#定义行索引标识dataArray=np.array(rowData)#列表转换为一维数组length=len(lstCountry)#获取国家名称列表的长度dataArray.reshape(length,5)#将一维数组转换为二维数组df=pd.DataFrame(dataArray,index=index,columns=columns)#创建数据帧对象03与Web APIs的交互Series数据访问 import requests#导入requests库,用以打开和读取URL内容 url=https:/ resp=requests.get(url)#使用get方法提交参数并访问页面,返回response对象 data=resp.json()#解析response对象,生成JSON对象的列表 data0title#访问列表键为title的元素DEPR:remove reduce kwd from DataFrame.apply issues=pd.DataFrame(data,columns=number,title,state)目前,许多网站都可以通过JSON、XML或HTML等格式提供网络数据的公共API。Python要访问这些API,采集需要的网络数据,可以使用:Python的标准库urllib;Python外部扩展库requests、urllib3、beautifulsoup4、html5lib等。示例:采集GitHub上30个Pandas主题为例,使用requests库采集JSON格式的数据,并将数据传递到pandas的DataFrame对象中,以方便进行后续的数据处理。谢谢大家文件中的数据主要有哪些格式?是如何实现与文件中的数据主要有哪些格式?是如何实现与Pandas中中Series、DataFrame对象的交互的?对象的交互的?

    注意事项

    本文((1.21)--4-2-2不同文件格式的数据读写.ppt)为本站会员(奉***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开