电子表格中的数据整理.docx





《电子表格中的数据整理.docx》由会员分享,可在线阅读,更多相关《电子表格中的数据整理.docx(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、电子表格中的数据整理引言电子表格有着一般的矩形外表,但是它的使用存在数十年的争议。 一些作者认为,真正的程序员绝不会使用电子表格,并且劝说大家不 要再接触这个 “灾难性” 的事物(casimirl992;要再wi触2003); 相反,也有一些作者推举争论人员使用电子表格来提高工作效率(wagner20Q6)。尽管大家对于电子表格的使用各执一词,但不能否 认的是,它仍旧在争论人员的工作过程中起着至关重要的作用,并且 这个有用的工具是不会被完全摒弃的。使用电子表格处理数据具有风险,这一点是毋庸置疑的。但是欧 洲电子表格风险爱好小组(European Spreadsheet Risks Intere
2、st Group)开了一个名为“恐怖故事”的专栏(),特地介绍电子表 格在实际应用中的错误,可见它的出错可能性有多大。止匕外,很多争 论者特地测试了电子表格的错误率,Panko(Panko2022)的报告显示, 对实际电子表格的13次审查中,平均88%的表格都有错误。就连 常常使用的的电子表格软件也会消失一些难以检测到的问题,例如微 软的Excel曾经把基因名称转变成日期数据,还会在不同的操作系 统中以不同的形式保存日期数据一一这些错误都会给后续的数据分 析工作带来极大的问题(zeeberg2004; woo2022)。使用电子表格的ABC1DateAssay dateWeight212/9/
3、0554.9312/9/0545.3412/6/2005e475e45.76e52.971/11/200646.181/11/200638.6不要留下空白单元格尽量将单元格填满,假如有缺失值的话也选择一些常用的编码来 表示。在这一方面,有一些人和我们持相反的观点(比方White等 (white2022)更喜爱将单元格留空),但是我们还是建议用“NA” 或者仅仅一个连字符来表示缺失值,这样可以确保这些数据是本身就 缺失的,而非在输入中不留神遗漏了。图2是两张有空单元格的电子表格,在图2A中,空白单元格 是由于上一个数值要被重复假设干次一一千万不要这么做!数据分析师 必需得一个接一个推断这些空白单
4、元格的意义,并且假如数据依据行 被重新整理后,这些空白单元格的真实日期就无法恢复了。AABc1iddateglucose21012015-06-14149.3310295.341032015-06-1897.55104117.06105108.071062015-06-20149.08107169.4图2B中的电子表格用了简单的数据布局,这张表格的信息是不 同的治疗方案。在第一行中,B-E列可能都表示的是“1 min”的 治疗方案,F-I列可能都表示5 min的治疗方案;在其次行中, B、C、F、G 列都是 “normal”,而 D、E、H、I 列都是 “mutant”。 尽管我们用眼睛看可以
5、比拟简洁地识别,但是这些空白的单元格可能 会给数据分析带来很大的不便。为了使信息更加清晰,你可以把这些单元格都填满。或者也可以 把数据以更“整齐”的形式呈现 祀ickham2022)把每一条数 据放在一行,全部的响应值放在单独的一列,如图3所示。关于这 一点我们在下面还会争论。ABCD1straingenotypeminreplicate2Anormal113Anormal124Bnormal115Bnormal126|Amutant1171Amutant128|Bmutant119;Bmutant1210Anormal5111Anormal5212Bnormal5113Bnormal5214
6、Amutant5115Amutant5216Bmutant5117Bmutant52一个单元格中只输入一个数据电子表格中的每个单元格只能包含一个数据。比方,你可能有一列数据plate-well表示盘子的位 置”,比方“13-A01。最好能把这个数据拆分成“plate”列和 “well”列(“well”列包含“13”和“A01”),或者你甚至 可以分成三列:“plate、“welljow 和“well column”(对 应的数据为“13”、“A”和“1”)。当你想在单元格中包含数据的单位时,例如“45 g”,最好在 单元格内只写45,把单位放在列名中,比方body_weight_g。把列名 设
7、置为body_weight并且把单位放在一个单独的数据字典中(在后面 会讲到)是一个更好的选择。常见的错误还有把数据的注释和数据本身放在同一个单元格中, 例如“0 (below threshold) o尽量不要这样处理,而在数据单元 格中只写“0”,分出一个单独的列来纪录注释。最终,不要合并单元格。虽然这么做会使得电子表格看起来很美 丽,但是这违反了不要招77r空白毕元婚的原那么。以矩形展现数据电子表格最好的布局是行为对象、列为变量的一个大矩形,第一 行应当包括全部的变量名。(变量名不要超过一行)图4展现了一 张矩形布局的工作表。ABCDE1idsexglucoseinsulintriglyc
8、2101Male134.10.60273.43102Female120.01.18243.64103Male124.81.23297.65104Male83.11.16142.46105Male105.20.73215.7有些数据集不能放在一个矩形中,而是由多个矩形的数据构成, 你可以把这种数据放在多个Excel文件中,每个文件由一个矩形数 据构成。每个矩形最好就放在一个单独的文件中,由于处理分散的工 作表比拟麻烦,并且在输出为CSV文件时也很困难(这个我们一会 儿简要争论)。你可能会想在一个Excel文件中存放多张工作表, 但是我们建议每个文件中只存放一张,这样的话导出CSV文件就很 便利。
9、当然,假如你肯定要在一份文件中使用多张工作表,那确保不 同的工作表结构前后全都。有些数据不能用一个或假设干个矩形来表示,很可能是说明白电子 表格不是用于呈现这种数据的最好方式,由于电子表格生来就应当是 矩形的。我们刚拿到的数据文件一般都不涯以矩形呈现的,更常常看到的是有很多数据是散落的,比方图5给出的一些例子。ABCDEF121011021031041053sexMaleFemaleMaleMaleMale451011021031041056glucose134.1120.0124.883.1105.2781011021031041059insulin0.601.181.231.160.731
10、23456789DABCDEFG12Date11/3/143Days on diet1264Mouse #435sexf6experimentvaluesmeanSD7control0.1860.1911.0810.490.528treatment A7.4141.4682.2543.713.239treatment B9.8119.25911.29610.121.051011fold changevaluesmeanSD12treatment A15.263.024.647.646.6513treatment B20.1919.0523.2420.832.171234567891011121
11、31415在5A和5B的例如中,数据分析师必需要先弄明白这个数据中每个地方都是什么意思,再花时间把全部的数据重新整理一遍。假如从一开头这些数据就被整理成一个矩形的布局,数据分析师就会省下 很多时间。图5C中的数据集对于每一个主题都有一张结构简单的工作表, 假如这些工作表有相同的布局形式,就会很简洁找出它们之间相互联 系的信息,然后合并成一个大的矩形工作表。(你可以使用R Python 或Rubyo )更好的处理方式是不要用平均值、方差和合并的计算来 弄乱原始数据,在输入数据的时候,把全部的测量值放在一张工作表 中会更简洁一些。像图5D显示的那样,有时候很难把一些数据识别成矩形的格式, 但是它确
12、实是一种矩形一一我们可以把前两列的空白单元格都填满, 分别重复输入individuals date和weight的值。但是重复weight 的值好像不太合理,由于它并不是一个重复测量变量。最好可以把这个数据做成两张分开的工作表,一张表储存 weight数据,另一张表储存其它测量值(这些测量值来自于葡萄糖 耐受性的活体试验:给一只老鼠服用葡萄糖,在不同的时间段测量其 体内的血糖和胰岛素水平)。图6展现了这样的数据布局,留意 insulin 列的注释 “lo off curve和 off curve lo” 也被修 改了,还给对应的地方添加了添加了 “NA”,增加了注释列(注释 中的文本保持全都)
13、。除此之外,储存对象标识符的第一列也添加了 列名。idGTT dateGTT weight3212/9/1524.53222/9/1518.93232/9/1524.7图6A和6B是“整齐”的数据布局例如(wickham20和): 每一行都是一个试验单位,一般来说是一个对象,但是在6B中有一 点不同一一每一行是对一个对象的一次试验测量。将数据重新整理成“整齐”的格式可以简化后续的分析,但是矩形的外表是最重要的。另一种常常可见的状况是两行列名,如图7所示。这种处理方式通常伴随着合并单元格:把“week 4”单元格和后面的两个合并 起来,文字居中于“date”,“weight”和“glucose”
14、上方。ABCDEFG1week 4week 62Mouse IDSEXdateweightglucosedateweight33005M3/30/200719.36354/11/20073143017M10/6/200625.9202.410/19/200645.153434F11/22/200626.6238.912/6/200645.963449M1/5/200727.51211/19/200742.973499F1/5/200719.8220.21/19/200736.6我们建议把week的也放在其他变量名的位置,也就是只保存一 行列名,包括 Mouse ID, SEX, date_4,
15、 weight_4, glucose_4, date_6, weight_6 等。也可以把每一行作为一个特定日期的对象,如图8所示。ABCDEF1mousejdsexweekdateglucoseweig23005M43/30/200719.363533005M64/11/200731460.43005M84/27/200739.6530.53017M410/6/200625.9202.63017M610/19/200645.1384.73017M811/3/200657.2458.83434F411/22/200626.6238.93434F612/6/200645.937103434F81
16、2/22/200656.2409.113449M41/5/200727.5121123449M61/19/200742.9191.133449M82 200756.7182.143499F41/5/200719.8220.153499F61/19/200736.6556.163499F82 200743.644c请心疼你的数据分析师(当然,也可能是心疼你自己):把数据 整理成一个或假设干个矩形。建立一个数据字典用一个独立的文件来解释全部的变量都表示什么含义是特别有 关心的,假如这个文件的布局也是矩形就更加完善了,这样的话数据 分析师就可以在分析的时候采用上它。争论人员应当对这些常见的错误提高警
17、惕,在设计表格的时候尽量保 证洁净、前后连贯,并且减小出错的可能。尽管大多数电子表格软件都可以同时用来做数据的输入、存储、 分析和可视化,我们还是建议只将其用来输入和储存数据,数据分析 和可视化应当考虑其他的选择。单独做数据的分析或可视化,或者用 备份的数据文件来做,将会大大降低破环原始数据的风险。Murrell (murrell2022)比照了两种数据,一种是用眼睛人工格 式化的,一种是计算机进行格式化的,并且供应了计算机提取简单的 文件中数据的例如代码。对于数据分析师而言,能处理特别简单的数 据文件是特别重要的,但是假如在分析开展之前,就用电脑的思维来 对数据进行初步预处理,之后的工作就会
18、简洁很多。在这篇论文中,我们将提出一些有用的建议,可以同时让人和计 算机程序来系统地处理数据,通过这种方法,争论人员制作的电子表 格中的错误会大大削减,这样的电子表格不仅更易于计算机处理数据, 而且更易于他人理解。本文所使用的电子表格可以用文中提及的任何 一种方法或处理数据的工具来处理,并且可以保证接下来的工作流程 更加稳健,不易出错。假如读者想优化下已有的数据资料整理方式,我们建议使用本 文接下来将介绍的几个原那么来修正之后用于分析的数据集,而不要再 运用其他冗杂并且简洁消失错误的修正方式。一个“数据字典”可能会包含:-数据文件中的变量名-另 一版可能会在数据可视化中用到的数据变量名-对变量
19、名含义的解 释-测量值单位-也可以包括最大值和最小值你可能会需要这样一份“元数据”一一呈现关子数据的信息, 或者一份包含工程和数据概览的ReadMe文件。图9展现了一个数据字典例如。留意,和其他的数据文件一样, 它也是一个矩形的数据集:第一列是变量名;其次列使变量名可读性 更强,一般会用在数据可视化中;第三列把这些变量分类,可视化有 时候也会用到;第四列是简洁的描述。图9ABc1nameplot_namegroup2mouseMousedemographic3sexSexdemographic4sac_dateDate of sacdemographic5partialjnflationPar
20、tial inflationclinicalIndicates i6coat_colorCoat colordemographic7crumblersCrumblersclinicalIndicat8diet_daysDays on dietclinical这个数据字典文件也可以包含其他信息,比方变量的取值范围, 这个可以关心在数据输入时准时检查出错误。不要在原始数据文件中计算一般别人发给我们的Excel文件会包含各种各样的计算和图表, 但是我还是剧烈建议最初始的数据文件肯定包含数瘩,既不要有计 算,也不要有图表。假如你在数据文件中做了一些计算,这就意味着你会常常翻开数据文件并且往里面添加新的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子表格 中的 数据 整理

限制150内