欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    r 字符串转化为数值.docx

    • 资源ID:73267497       资源大小:23.04KB        全文页数:16页
    • 资源格式: DOCX        下载积分:14.8金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要14.8金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    r 字符串转化为数值.docx

    r字符串转化为数值点击上方“早起Python关注并星标公众号以及我一起玩Python本文为玩转数据处理120题R语言版本习题刘早起解答陈熹大众好本文为R语言数据处理120题系列完好版本。精心挑选120道数据处理中相关操作以习题形式发布一共涵盖了数据处理、计算、可视化等常用操作并对局部题目给出了多种解法与注解。动手敲一遍代码一定会让你有所收获1创立DataFrame题目将下面的字典创立为DataFramegrammer:难度期望结果R语言解法#R中没有字典概念故直接创立dataframe/tibble注1-20题均基于该数据框给出2数据提取题目提取含有字符串Python的行难度期望结果grammerR语言解法which(df3提取列名题目输出df的所有列名难度期望结果Index(R语言解法names(df)#1grammerscore4修改列名题目修改第二列列名为popularity难度R语言解法df%rename(popularityscore)5字符统计题目统计grammer列中每种编程语言出现的次数难度R语言解法#神方法table6缺失值处理题目将空值用上下值的平均值填充难度上下两数的均值R语言解法library(Hmisc)indexis.na(df$popularity)df$popularity(unlist(dfindex-1,2dfindex1,2)/2)7数据提取题目提取popularity列中值大于3的行难度R语言解法df%filter(popularity3)#等价于dfdf$popularity3,#这种方法跟pandas很相似8数据去重题目按照grammer列进展去重难度R语言解法!duplicated(df$grammer),9数据计算题目计算popularity列平均值难度R语言解法#第一种10格式转换题目将grammer列转换为list难度R解法unlist(df$grammer)#1PythonCJavaGONASQLPHPPython11数据保存题目将DataFrame保存为EXCEL难度R解法#R对EXCEL文件不太友好12数据查看题目查看数据行列数难度R解法dim(df)#18213数据提取题目提取popularity列值大于3小于7的行难度R解法library(dplyr)df%filter(popularity3popularity7)#等价于df(df$popularity3)(df$popularity7),14位置处理题目交换两列位置难度R解法df%15数据提取题目提取popularity列最大值所在行难度R解法df%filter(popularitymax(popularity)#同理也有类似pandas的方法dfdf$popularitymax(df$popularity),16数据查看题目查看最后5行数据难度R解法#R中head以及tail默认是6行可以指定数字17数据修改题目删除最后一行数据难度R解法1,18数据修改题目添加一行数据Perl,6.6难度R解法Perl)19数据整理题目对数据按照popularity列值的大小进展排序难度R解法df%20字符统计题目统计grammer列每个字符串的长度难度R解法library(Hmisc)library(stringr)df$grammer$grammer,R)str_length(df$grammer)df$len_str$grammer)第二期数据处理根底21数据读取题目读取本地EXCEL数据难度R解法#R语言处理excel不友好直接读取日期时间数据会变成实数2150局部习题与该数据相关22数据查看题目查看df数据前5行难度期望输出R解法#默认是6行可指定行数23数据计算题目将salary列数据转换为最大值与最小值的平均值难度期望输出R解法library(stringr)df$salary%str_replace_all(k,)%str_split(-,simplifyT)%apply(2,as.numeric)%rowMeans()*100024数据分组题目将数据根据学历进展分组并计算平均薪资难度期望输出educationR解法df%25时间转换题目将createTime列时间转换为月-日难度期望输出R解法#转化后该列属性是字符串R中对时间格式要求严格26数据查看题目查看索引、数据类型以及内存信息难度期望输出classpandas.core.frame.DataFrameR解法str(df)#内存查看需要用到其他的库library(pryr)object_size(df)#6.66kB27数据查看题目查看数值型列的汇总统计难度R解法summary(df)28数据整理题目新增一列根据salary将数据分为三组难度输入期望输出R解法#用ifelse可以以29数据整理题目按照salary列对数据降序排列难度R解法df%30数据提取题目取出第33行数据难度R解法33,31数据计算题目计算salary列的中位数难度R解法median(df$salary)#11750032数据可视化题目绘制薪资程度频率分布直方图难度期望输出R解法library(ggplot2)33数据可视化题目绘制薪资程度密度曲线难度期望输出R解法df%34数据删除题目删除最后一列categories难度R解法df435数据处理题目将df的第一列与第二列合并为新的一列难度R解法df%mutate(testpaste0(df$education,df$createTime)36数据处理题目将education列与salary列合并为新的一列难度备注salary为int类型操作与35题有所不同R解法df%37数据计算题目计算salary最大值与最小值之差难度R解法df%summarise(deltamax(salary)-min(salary)%unlist()#delta#4150038数据处理题目将第一行与最后一行拼接难度R解法1,df39数据处理题目将第8行数据添加至末尾难度R解法8,)40数据查看题目查看每列的数据类型难度期望结果objectR解法str(df)#tibble135x5(S3:spec_tbl_df/tbl_df/tbl/data.frame)#$createTime:chr1:13503-1603-1603-1603-16.#$education:chr1:135本科本科不限本科.#$salary:num1:1352750030000275001650015000140002300012500700016000.#$test:chr1:135本科03-16本科03-16不限03-16本科03-16.#$test1:chr1:13527500本科30000本科27500不限16500本科.41数据处理题目将createTime列设置为索引难度R解法df%tibble:column_to_rownames(createTime)42数据创立题目生成一个以及df长度一样的随机数dataframe难度R解法df1135,function(n)replicate(n,sample(1:10,1)#列名暂时不一样下一题重命名43数据处理题目将上一题生成的dataframe与df合并难度R解法df%rename(0df1)#非常规命名需要用包裹变量名44数据计算题目生成新的一列new为salary列减去之前生成随机数列难度R解法df%mutate(newsalary-0)45缺失值处理题目检查数据中是否含有任何缺失值难度R解法#这个包的结果呈现非常有趣46数据转换题目将salary列类型转换为浮点数难度R解法as.double(df2$salary)47数据计算题目计算salary大于10000的次数难度R解法df%48数据统计题目查看每种学历出现的次数难度期望输出119R解法table(df$education)49数据查看题目查看education列共有几种学历难度R解法length(unique(df$education)#1450数据提取题目提取salary与new列的以及大于60000的最后3行难度期望输出R解法dfdf$salarydf51数据读取题目使用绝对途径读取本地Excel数据难度R解法#转存csv后再读备注请将答案中途径交换为自己机器存储数据的绝对途径5180相关习题与该数据有关52数据查看题目查看数据前三行难度期望结果R解法head(df,53缺失值处理题目查看每列数据缺失值情况难度期望结果1R解法is.na(df)54缺失值处理题目提取日期列含有空值的行难度期望结果R解法is.na(df$日期),55缺失值处理题目输出每列缺失值详细行数难度期望结果327行位置有缺失值R解法library(glue)for(iinnames(df)if(sum(is.na(df,日期)!0)res1is.na(df,i)res2,)print(glue(列名i,第res2行有缺失值)56缺失值处理题目删除所有存在缺失值的行难度Python解法0,how备注0-行操作(默认)57数据可视化题目绘制收盘价的折线图难度期望结果R解法library(ggplot2)58数据可视化题目同时绘制开盘价与收盘价难度期望结果R解法df%ggplot()geom_line(aes(日期,收盘价(元),size1.2,colorsteelblue)geom_line(aes(日期,开盘价(元),size1.2,colororange)ylab(c(价格(元)#这种画出来没有图例当然可以手动添加但为了映射方便可以用另一种方法library(tidyr)df%select(日期,开盘价(元),收盘价(元)%pivot_longer(c(开盘价(元),收盘价(元),names_totype,values_toprice)%ggplot(aes(日期,price,colortype)geom_line(size1.2)scale_color_manual(valuesc(steelblue,orange)theme_bw()theme(panel.grid.majorelement_blank(),panel.grid.minorelement_blank(),legend.titleelement_blank(),legend.positionc(0.86,0.9)59数据可视化题目绘制涨跌幅的直方图难度期望结果R解法df%60数据可视化题目让直方图更细致难度期望结果R解法df%61数据创立题目以data的列名创立一个dataframe难度R解法temp62异常值处理题目打印所有换手率不是数字的行难度期望结果R解法#换手率这一列属性为chr需要先强转数值型63异常值处理题目打印所有换手率为-的行难度R解法df%备注通过上一题我们发现换手率的异常值只有-64数据处理题目重置data的行号难度R解法rownames(df)#假如是tibble那么索引始终是按顺序备注有时我们修改数据会导致索引混乱65异常值处理题目删除所有换手率为非数字的行难度R解法is.na(66数据可视化题目绘制换手率的密度曲线难度期望结果R解法df$换手率(%)as.double(df$换手率(%)ggplot(df)geom_density(aes(换手率(%)67数据计算题目计算前一天与后一天收盘价的差值难度R解法df%68数据计算题目计算前一天与后一天收盘价变化率难度R解法df%69数据处理题目设置日期为索引难度R解法df%column_to_rownames(var日期)70指标计算题目以5个数据作为一个数据滑动窗口在这个5个数据上取均值(收盘价)难度R解法library(RcppRoll)71指标计算题目以5个数据作为一个数据滑动窗口计算这五个数据总以及(收盘价)难度R解法df%72数据可视化题目将收盘价5日均线、20日均线与原始数据绘制在同一个图上难度期望结果R解法df%73数据重采样题目按周为采样规那么取一周收盘价最大值难度R解法library(plyr)res1week),)res_maxres,function(n)max(n$收盘价(元),simplifyTRUE)as.data.frame(res_max)74数据可视化题目绘制重采样数据与原始数据难度期望结果R解法res%75数据处理题目将数据往后挪动5天难度R解法lag(df,76数据处理题目将数据向前挪动5天难度R解法lead(df,77数据计算题目使用expending函数计算开盘价的挪动窗口均值难度R解法#R中没有expanding完全一致的函数78数据可视化题目绘制上一题的挪动均值与原始数据折线图难度期望结果R解法library(tidyr)df%cbind(res)%dplyr:rename(Opening_Price开盘价(元),Expanding_Open_Meancummean)%select(日期,Opening_Price,Expanding_Open_Mean)%pivot_longer(c(Opening_Price,Expanding_Open_Mean),names_totype,values_toprice)%ggplot(aes(日期,price,colortype)geom_line(size1.2)scale_color_manual(valuesc(orange,steelblue)theme_bw()theme(panel.grid.majorelement_blank(),panel.grid.minorelement_blank(),legend.titleelement_blank(),legend.positionc(0.9,0.9)79数据计算题目计算布林指标难度R解法df%mutate(avg_20roll_mean(收盘价(元),n20,alignright,fillNA),upper_boundavg_202*roll_sd(收盘价(元),n20,alignright,fillNA),lower_boundavg_20-2*roll_sd(收盘价(元),n20,alignright,fillNA)80数据可视化题目计算布林线并绘制难度期望结果R解法df%dplyr:rename(former_30_days_rolling_Close_meanavg_20,Closing_Price收盘价(元)%select(日期,Closing_Price,former_30_days_rolling_Close_mean,upper_bound,lower_bound)%pivot_longer(c(Closing_Price,former_30_days_rolling_Close_mean,upper_bound,lower_bound),names_totype,values_toprice)%ggplot(aes(日期,price,colortype)geom_line(size1.2)scale_color_manual(valuesc(steelblue,orange,red,green)theme_bw()theme(panel.grid.majorelement_blank(),panel.grid.minorelement_blank(),legend.titleelement_blank(),legend.positionc(0.6,0.2)81数据查看题目导入并查看pandas与numpy版本难度R语言解法tidyverse)82数据创立题目从NumPy数组创立DataFrame难度备注使用numpy生成20个0-100随机数R语言解法function(n)83数据创立题目从NumPy数组创立DataFrame难度备注使用numpy生成20个0-100固定步长的数R语言解法0,84数据创立题目从NumPy数组创立DataFrame难度备注使用numpy生成20个指定分布(如标准正态分布)的数R语言解法20,85数据创立题目将df1df2df3按照行合并为新DataFrame难度R语言解法df86数据创立题目将df1df2df3按照列合并为新DataFrame难度期望结果01209500.0224921225-1.20949423100.87612732115-0.16214945120-0.81542453025-0.303792.R语言解法dfnames(df)0,87数据查看题目查看df所有数据的最小值、25%分位数、中位数、75%分位数、最大值难度R语言解法summary(unlist(df)88数据修改题目修改列名为col1,col2,col3难度R语言解法df%dplyr:rename(col11,col22,col33)#或用类似pandas的方法names(df)col1,col2,col3)89数据提取题目提取第一列中不在第二列出现的数字难度R语言解法$col1%90数据提取题目提取第一列以及第二列出现频率最高的三个数字难度R语言解法count(unlist(c(df$col1,df91数据提取题目提取第一列中可以整除5的数字位置难度R语言解法which(df92数据计算题目计算第一列数字前一个与后一个的差值难度R语言解法df%93数据处理题目将col1,col2,clo3三列顺序颠倒难度R语言解法df%94数据提取题目提取第一列位置在1,10,15的数字难度R语言解法c(1,10,15)1,195数据查找题目查找第一列的部分最大值位置难度备注即比它前一个与后一个数字的都大的数字R语言解法0)96数据计算题目按行计算df的每一行均值难度R语言解法rowMeans(df)97数据计算题目对第二列计算挪动平均值难度备注每次挪动三个位置不可以使用自定义函数R语言解法library(RcppRoll)98数据修改题目将数据按照第三列值的大小升序排列难度R语言解法df%arrange(col3)99数据修改题目将第一列大于50的数字修改为高难度R语言解法dfdf$col150,1高100数据计算题目计算第一列与第二列之间的欧式间隔难度备注不可以使用自定义函数R语言解法#可以利用概念计算101数据读取题目从CSV文件中读取指定数据难度备注从数据1中的前10行中读取positionName,salary两列R语言解法#一步读取文件的指定列用readr包或原生函数都没方法102数据读取题目从CSV文件中读取指定数据难度备注从数据2中读取数据并在读取数据时将薪资大于10000的为改为高R语言解法library(readr)df2数据2.csv)%mutate(学历要求,薪资程度ifelse(薪资程度10000,高,低)103数据计算题目从dataframe提取数据难度备注从上一题数据中对薪资程度列每隔20行进展一次抽样期望结果R语言解法seq(1,dim(df2)1,20),104数据处理题目将数据取消使用科学计数法难度输入dfpd.DataFrame(np.random.random(期望结果R语言解法10)105数据处理题目将上一题的数据转换为百分数难度期望结果R语言解法tibble(datastr_glue(106数据查找题目查找上一题数据中第3大值的行号难度R语言解法df%107数据处理题目反转df的行难度R语言解法df%108数据重塑题目按照多列对数据进展合并难度输入key1:R语言解法key1c(109数据重塑题目按照多列对数据进展合并难度备注只保存df1的数据R语言解法byc(110数据处理题目再次读取数据1并显示所有的列难度备注数据中由于列数较多中间列不显示R语言解法GBK)%111数据查找题目查找secondType与thirdType值相等的行号难度R语言解法df%112数据查找题目查找薪资大于平均薪资的第三个数据难度R语言解法df%mutate(nrowrownames(.)%filter(salarymean(salary)%select(nrow)%filter(row_number()3)#Atibble:1x1#nrow#16113数据计算题目将上一题数据的salary列开根号难度R语言解法df%summarise(salary_sqrtsqrt(salary)114数据处理题目将上一题数据的linestaion列按_拆分难度R语言解法df%mutate(splitstr_split(linestaion,_)115数据查看题目查看上一题数据中一共有多少列难度R语言解法length(df)#154116数据提取题目提取industryField列以数据开始的行难度R语言解法grep(117数据计算题目以salaryscore以及positionID制作数据透视难度R语言解法df%group_by(positionId)%dplyr:summarise(salarymean(salary),scoremean(score)%as.data.frame(.)rownames(df)NULLtibble:column_to_rownames(df,varpositionId)118数据计算题目同时对salary、score两列进展计算难度R语言解法res%119数据计算题目对不同列执行不同的计算难度备注对salary求平均对score列求以及R语言解法df%120数据计算题目计算并提取平均薪资最高的区难度R语言解法df%以上就是玩转数据处理120题R语言版全部内容假如能坚持走到这里的读者我想你已经掌握了处理数据的常用操作并且在之后的数据分析中碰到相关问题祈望你可以沉着的解决R语言解法介绍陈熹中山大学中山眼科中心博士在读不安分的pythonRSQL爱好者兴趣范围生物信息/数据分析/网络爬虫/机器学习简书半为花间酒Emailchenx6542foxmailweixin_39648432

    注意事项

    本文(r 字符串转化为数值.docx)为本站会员(安***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开