《电子表格中的数据整理.docx》由会员分享,可在线阅读,更多相关《电子表格中的数据整理.docx(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、电子表格中的数据整理引言电子表格有着一般的矩形外表,但是它的使用存在数十年的争议。 一些作者认为,真正的程序员绝不会使用电子表格,并且劝说大家不 要再接触这个 “灾难性” 的事物(casimirl992;要再wi触2003); 相反,也有一些作者推举争论人员使用电子表格来提高工作效率(wagner20Q6)。尽管大家对于电子表格的使用各执一词,但不能否 认的是,它仍旧在争论人员的工作过程中起着至关重要的作用,并且 这个有用的工具是不会被完全摒弃的。使用电子表格处理数据具有风险,这一点是毋庸置疑的。但是欧 洲电子表格风险爱好小组(European Spreadsheet Risks Intere
2、st Group)开了一个名为“恐怖故事”的专栏(),特地介绍电子表 格在实际应用中的错误,可见它的出错可能性有多大。止匕外,很多争 论者特地测试了电子表格的错误率,Panko(Panko2022)的报告显示, 对实际电子表格的13次审查中,平均88%的表格都有错误。就连 常常使用的的电子表格软件也会消失一些难以检测到的问题,例如微 软的Excel曾经把基因名称转变成日期数据,还会在不同的操作系 统中以不同的形式保存日期数据一一这些错误都会给后续的数据分 析工作带来极大的问题(zeeberg2004; woo2022)。使用电子表格的ABC1DateAssay dateWeight212/9/
3、0554.9312/9/0545.3412/6/2005e475e45.76e52.971/11/200646.181/11/200638.6不要留下空白单元格尽量将单元格填满,假如有缺失值的话也选择一些常用的编码来 表示。在这一方面,有一些人和我们持相反的观点(比方White等 (white2022)更喜爱将单元格留空),但是我们还是建议用“NA” 或者仅仅一个连字符来表示缺失值,这样可以确保这些数据是本身就 缺失的,而非在输入中不留神遗漏了。图2是两张有空单元格的电子表格,在图2A中,空白单元格 是由于上一个数值要被重复假设干次一一千万不要这么做!数据分析师 必需得一个接一个推断这些空白单
4、元格的意义,并且假如数据依据行 被重新整理后,这些空白单元格的真实日期就无法恢复了。AABc1iddateglucose21012015-06-14149.3310295.341032015-06-1897.55104117.06105108.071062015-06-20149.08107169.4图2B中的电子表格用了简单的数据布局,这张表格的信息是不 同的治疗方案。在第一行中,B-E列可能都表示的是“1 min”的 治疗方案,F-I列可能都表示5 min的治疗方案;在其次行中, B、C、F、G 列都是 “normal”,而 D、E、H、I 列都是 “mutant”。 尽管我们用眼睛看可以
5、比拟简洁地识别,但是这些空白的单元格可能 会给数据分析带来很大的不便。为了使信息更加清晰,你可以把这些单元格都填满。或者也可以 把数据以更“整齐”的形式呈现 祀ickham2022)把每一条数 据放在一行,全部的响应值放在单独的一列,如图3所示。关于这 一点我们在下面还会争论。ABCD1straingenotypeminreplicate2Anormal113Anormal124Bnormal115Bnormal126|Amutant1171Amutant128|Bmutant119;Bmutant1210Anormal5111Anormal5212Bnormal5113Bnormal5214
6、Amutant5115Amutant5216Bmutant5117Bmutant52一个单元格中只输入一个数据电子表格中的每个单元格只能包含一个数据。比方,你可能有一列数据plate-well表示盘子的位 置”,比方“13-A01。最好能把这个数据拆分成“plate”列和 “well”列(“well”列包含“13”和“A01”),或者你甚至 可以分成三列:“plate、“welljow 和“well column”(对 应的数据为“13”、“A”和“1”)。当你想在单元格中包含数据的单位时,例如“45 g”,最好在 单元格内只写45,把单位放在列名中,比方body_weight_g。把列名 设
7、置为body_weight并且把单位放在一个单独的数据字典中(在后面 会讲到)是一个更好的选择。常见的错误还有把数据的注释和数据本身放在同一个单元格中, 例如“0 (below threshold) o尽量不要这样处理,而在数据单元 格中只写“0”,分出一个单独的列来纪录注释。最终,不要合并单元格。虽然这么做会使得电子表格看起来很美 丽,但是这违反了不要招77r空白毕元婚的原那么。以矩形展现数据电子表格最好的布局是行为对象、列为变量的一个大矩形,第一 行应当包括全部的变量名。(变量名不要超过一行)图4展现了一 张矩形布局的工作表。ABCDE1idsexglucoseinsulintriglyc
8、2101Male134.10.60273.43102Female120.01.18243.64103Male124.81.23297.65104Male83.11.16142.46105Male105.20.73215.7有些数据集不能放在一个矩形中,而是由多个矩形的数据构成, 你可以把这种数据放在多个Excel文件中,每个文件由一个矩形数 据构成。每个矩形最好就放在一个单独的文件中,由于处理分散的工 作表比拟麻烦,并且在输出为CSV文件时也很困难(这个我们一会 儿简要争论)。你可能会想在一个Excel文件中存放多张工作表, 但是我们建议每个文件中只存放一张,这样的话导出CSV文件就很 便利。
9、当然,假如你肯定要在一份文件中使用多张工作表,那确保不 同的工作表结构前后全都。有些数据不能用一个或假设干个矩形来表示,很可能是说明白电子 表格不是用于呈现这种数据的最好方式,由于电子表格生来就应当是 矩形的。我们刚拿到的数据文件一般都不涯以矩形呈现的,更常常看到的是有很多数据是散落的,比方图5给出的一些例子。ABCDEF121011021031041053sexMaleFemaleMaleMaleMale451011021031041056glucose134.1120.0124.883.1105.2781011021031041059insulin0.601.181.231.160.731
10、23456789DABCDEFG12Date11/3/143Days on diet1264Mouse #435sexf6experimentvaluesmeanSD7control0.1860.1911.0810.490.528treatment A7.4141.4682.2543.713.239treatment B9.8119.25911.29610.121.051011fold changevaluesmeanSD12treatment A15.263.024.647.646.6513treatment B20.1919.0523.2420.832.171234567891011121
11、31415在5A和5B的例如中,数据分析师必需要先弄明白这个数据中每个地方都是什么意思,再花时间把全部的数据重新整理一遍。假如从一开头这些数据就被整理成一个矩形的布局,数据分析师就会省下 很多时间。图5C中的数据集对于每一个主题都有一张结构简单的工作表, 假如这些工作表有相同的布局形式,就会很简洁找出它们之间相互联 系的信息,然后合并成一个大的矩形工作表。(你可以使用R Python 或Rubyo )更好的处理方式是不要用平均值、方差和合并的计算来 弄乱原始数据,在输入数据的时候,把全部的测量值放在一张工作表 中会更简洁一些。像图5D显示的那样,有时候很难把一些数据识别成矩形的格式, 但是它确
12、实是一种矩形一一我们可以把前两列的空白单元格都填满, 分别重复输入individuals date和weight的值。但是重复weight 的值好像不太合理,由于它并不是一个重复测量变量。最好可以把这个数据做成两张分开的工作表,一张表储存 weight数据,另一张表储存其它测量值(这些测量值来自于葡萄糖 耐受性的活体试验:给一只老鼠服用葡萄糖,在不同的时间段测量其 体内的血糖和胰岛素水平)。图6展现了这样的数据布局,留意 insulin 列的注释 “lo off curve和 off curve lo” 也被修 改了,还给对应的地方添加了添加了 “NA”,增加了注释列(注释 中的文本保持全都)
13、。除此之外,储存对象标识符的第一列也添加了 列名。idGTT dateGTT weight3212/9/1524.53222/9/1518.93232/9/1524.7图6A和6B是“整齐”的数据布局例如(wickham20和): 每一行都是一个试验单位,一般来说是一个对象,但是在6B中有一 点不同一一每一行是对一个对象的一次试验测量。将数据重新整理成“整齐”的格式可以简化后续的分析,但是矩形的外表是最重要的。另一种常常可见的状况是两行列名,如图7所示。这种处理方式通常伴随着合并单元格:把“week 4”单元格和后面的两个合并 起来,文字居中于“date”,“weight”和“glucose”
14、上方。ABCDEFG1week 4week 62Mouse IDSEXdateweightglucosedateweight33005M3/30/200719.36354/11/20073143017M10/6/200625.9202.410/19/200645.153434F11/22/200626.6238.912/6/200645.963449M1/5/200727.51211/19/200742.973499F1/5/200719.8220.21/19/200736.6我们建议把week的也放在其他变量名的位置,也就是只保存一 行列名,包括 Mouse ID, SEX, date_4,
15、 weight_4, glucose_4, date_6, weight_6 等。也可以把每一行作为一个特定日期的对象,如图8所示。ABCDEF1mousejdsexweekdateglucoseweig23005M43/30/200719.363533005M64/11/200731460.43005M84/27/200739.6530.53017M410/6/200625.9202.63017M610/19/200645.1384.73017M811/3/200657.2458.83434F411/22/200626.6238.93434F612/6/200645.937103434F81
16、2/22/200656.2409.113449M41/5/200727.5121123449M61/19/200742.9191.133449M82 200756.7182.143499F41/5/200719.8220.153499F61/19/200736.6556.163499F82 200743.644c请心疼你的数据分析师(当然,也可能是心疼你自己):把数据 整理成一个或假设干个矩形。建立一个数据字典用一个独立的文件来解释全部的变量都表示什么含义是特别有 关心的,假如这个文件的布局也是矩形就更加完善了,这样的话数据 分析师就可以在分析的时候采用上它。争论人员应当对这些常见的错误提高警
17、惕,在设计表格的时候尽量保 证洁净、前后连贯,并且减小出错的可能。尽管大多数电子表格软件都可以同时用来做数据的输入、存储、 分析和可视化,我们还是建议只将其用来输入和储存数据,数据分析 和可视化应当考虑其他的选择。单独做数据的分析或可视化,或者用 备份的数据文件来做,将会大大降低破环原始数据的风险。Murrell (murrell2022)比照了两种数据,一种是用眼睛人工格 式化的,一种是计算机进行格式化的,并且供应了计算机提取简单的 文件中数据的例如代码。对于数据分析师而言,能处理特别简单的数 据文件是特别重要的,但是假如在分析开展之前,就用电脑的思维来 对数据进行初步预处理,之后的工作就会
18、简洁很多。在这篇论文中,我们将提出一些有用的建议,可以同时让人和计 算机程序来系统地处理数据,通过这种方法,争论人员制作的电子表 格中的错误会大大削减,这样的电子表格不仅更易于计算机处理数据, 而且更易于他人理解。本文所使用的电子表格可以用文中提及的任何 一种方法或处理数据的工具来处理,并且可以保证接下来的工作流程 更加稳健,不易出错。假如读者想优化下已有的数据资料整理方式,我们建议使用本 文接下来将介绍的几个原那么来修正之后用于分析的数据集,而不要再 运用其他冗杂并且简洁消失错误的修正方式。一个“数据字典”可能会包含:-数据文件中的变量名-另 一版可能会在数据可视化中用到的数据变量名-对变量
19、名含义的解 释-测量值单位-也可以包括最大值和最小值你可能会需要这样一份“元数据”一一呈现关子数据的信息, 或者一份包含工程和数据概览的ReadMe文件。图9展现了一个数据字典例如。留意,和其他的数据文件一样, 它也是一个矩形的数据集:第一列是变量名;其次列使变量名可读性 更强,一般会用在数据可视化中;第三列把这些变量分类,可视化有 时候也会用到;第四列是简洁的描述。图9ABc1nameplot_namegroup2mouseMousedemographic3sexSexdemographic4sac_dateDate of sacdemographic5partialjnflationPar
20、tial inflationclinicalIndicates i6coat_colorCoat colordemographic7crumblersCrumblersclinicalIndicat8diet_daysDays on dietclinical这个数据字典文件也可以包含其他信息,比方变量的取值范围, 这个可以关心在数据输入时准时检查出错误。不要在原始数据文件中计算一般别人发给我们的Excel文件会包含各种各样的计算和图表, 但是我还是剧烈建议最初始的数据文件肯定包含数瘩,既不要有计 算,也不要有图表。假如你在数据文件中做了一些计算,这就意味着你会常常翻开数据文件并且往里面添加新的
21、东西。这样做很简洁导致无意中把一些错 误输入数据文件中。(你有没有这样的经受?翻开Excel文件后,选中一个单元格 开头打字,但是这个单元格之前的东西去哪里了?有时候它们会被任 意地输入在其他单元格中,当然这个也只能在后续的数据分析中才能 觉察。)你的原始数据文件应当是一个洁净的、原始的数据,给它写保护, 做备份,然后封存在宝塔里不要再修改它了。假如你想在Excel里做一些分析的话,拷贝一份数据文件,在 复制的这一份里尽情地计算和画图。不要在数据中设置字体颜色或者高亮你可能把那些有特别数据的单元格或者某一行需要忽视的数据 加高亮,或者转变有一些特别含义的数据字体和字体颜色,但是我们 建议你添加
22、一个新列来表示指示变量(比方“trusted”歹U,取值 为 TRUE 或 FALSE)。在图10A中,那个特别的数据加了高亮,但是假如给表格添加 一列来说明数据是否是特别值那么会更好一些(如图10B所示)。高 亮只是看起来比拟美丽,但是很难在数据分析时从中提取出示意的信息,究竟数据分析软件更擅特长理储存在列中的数据,而不是被高亮 的单元格或不同字体的数据所表示的信息(实际上这些标记在数据分 析软件中很可能会直接丧失)。图10ABABcA1iddateglucose1id21012015-06-14149.3210131022015-06-1495.3310241032015-06-1897.
23、5410351042015-06-181.1510461052015-06-18108.0610571062015-06-20149.0710681072015-06-20169.48107在老鼠葡萄糖耐受性的试验中,有的人还会用高亮来区分老鼠的 性别一一与其这样,不如特地设置一列性别,取值为Male或Femaleo给数据做备份常常备份数据,并且在不同的地方都储存一下。几年前在威斯康星麦迪逊高校有一那么段子一一一篇文章引用了一个处于崩溃边缘的毕业生的一句话:“我的毕业论文唯一的备份就 在那里!”一一别让这件事也发生在你身上。你可以用一个比拟正式的掌握系统,比方git,尽管它也不是最 完善的数据
24、文件储存方式。假如你想更炫酷一些,可以参考dat( s:datproject. ocg/)。保存数据文件的全部版本,这样可以在某个地方消失了错误之后 (比方你不留神打错了某个数据,并且很久之后才觉察),仍旧可以 恢复出错数据原来的样子。在插入新的数据之前拷贝一份文件,并且 依据数据版本进行重命名:xlsx, file_v2. xlsx,假如不是你主动地输入数据,尤其是被别人修改了数据,最好的 方法是给数据文件后府保护 这样就不会不留神改了文件的内容。 在Mac上,翻开Finder并选择要保护的工作簿,在 文件菜单上单击“猎取信息”,点击底部的“共享”,在权 限设置中选择“只读”。 在Windo
25、ws系统中,右击文件,选择“属性”,在“常 规”标签下找到“属性”,选中“只读”后点击“确定” 就可以了。备份你的数据文件!使用数据验证来削减错误在输入数据的时候,尽可能保证整个过程不要消失错误和任何的 重复性文件损伤,一个好用的工具是Excel中的“数据验证”(点击查看: 看/bit. ly/excel dataval ),它可以掌握输入的数据 类型和取值范围。.选择一列 在菜单栏中选择“数据”- “数据验证”.选择适当的数据验证标准,比方:O 某个范围内的整数O 某个范围内的小数O 一个可能的取值列表O 有长度限制的文本数据同时,你可以给一列数据选择一个数据类型,比方使用文本类型 数据来避
26、开日期或转录因子的名称被Excel损坏,这个在之前的日 期数据留意事项中也争论过,但是它确实特别重要,所以这里再重复 一次操作步骤: 选择一列数据 单击右键一 “设置单元格格式” 在左侧选择“文本”虽然好像有点麻烦,但是为了避开数据输入出错,这个步骤是值 得花时间的。把数据保存成文本文件以文本形式保存一份拷贝的数据文件,使用逗号或制表符,一般 使用逗号分隔符(CSV)文件。图HA中的电子表格使用逗号分隔符 保存后会呈现图11B的形式。图11AABCDE1idsexglucoseinsulintriglyc2101Male134.10.60273.43102Female120.01.18243.
27、64103Male124.81.23297.65104Male83.11.16142.46105Male105.20.73215.7虽然CSV格式看起来颜值不高,但这个文件不仅可以在Excel 中翻开,还可以在其他软件中以标准的形式翻开。更重要的是,这种 适用性很强的文件格式不需要任何特别的软件来处理,编程时用起来 也很便利。假如单元格中有逗号,Excel会在文件保存成CSV格式时给单 元格的内容加上双引号,这一点需要一些额外的处理,但是没有太大 的影响。将一个Excel文件保存成逗号分隔符文件的步骤: 在菜单栏中选择“文件”- “保存为”.在“保存类型”点击下拉菜单栏,选择“CSV (逗号
28、分隔符)” 点击“保存” Excel会提示“您工作簿中的局部功能可能会丢 失。是否连续使用此格式? ”,选择“是” 关闭Excel,它会提示“是否保存所做的更改? ”, 点击“不保存”,由于你已经保存过了。(Excel特别不想让 你用除了它默认格式之外的任何格式)留意,在选择保存类型的时候,还有一个“文本文件(制表符 分隔)”,很多人会倾向于选择这种类型,尤其是在逗号用于充当十 进制分隔符的地区。假如你的数据文件包含一些关键的特征,会由于保存成文本文件 而不被一起保存下来,比方高亮的单元格,那你在保存成这个类型的 时候要谨慎一些一一由于这些特征将会丧失。也正是由于如此,我们 建议最原始的数据文
29、件尽量保证简洁一些。总结很多处理电子表格的软件(如Microsoft Excel, Google Sheets 和LibreOffice Calc等)在数据的输入、整理和储存上都特别有用, 并且还可以进行计算、分析和数据可视化。在这篇文章中,我们的重点是数据的整理,建议想要对数据进行计算加工或可视化的使用者尽 量保持数据的原始状态,并且尽量只保存初始数据,而在另一份拷贝 文件中进行计算和数据可视化。我们列举出的一些原那么,可以关心数据的使用者更好地在电子表 格中整理数据,这些都是为了保护数据的真实性,并且便利后续的数 据分析工作。本文的主要观点,也就是各个局部的小标题:保持前后全都,将 日期写
30、成YYYY-MM-DD的形式,不要留下空白单元格,每个单元格只 输入一个数据,将数据整理成一个矩形的布局(每一行为一个对象, 每一列为一个变量),建立数据字典,不要在原始数据文件中包含计 算,不要更改字体颜色或高亮数据,选择合适的名称,给文件做备份, 使用数据验证来削减输入错误,以及把数据文件保存为文本文件的格 式。首先保证遵循以上的原那么,然后再进行工程的后续工作。可能你 的数据文件目前没有完全到达全部的标准,但是也不要用“复制粘 贴”的方法来对文件重新整理一一这样很简洁导致意想不到的问题。数据的重新整理最好用编程的方法(可以使用R, Python或Ruby 脚本),这样你的全部操作纪录都不
31、会丧失。保持前后全都整理数据的第一条原那么是期帝力诠都。无论是处理什么样的数 据,肯定要在一开头输入和整理的过程中保持全都,这样才可以保证 之后使用这个数据的人不用铺张时间在调整数据的全都性上。使府全都的编超采标记分类变量。比方要给基因争论中的小鼠性 别编码时,最好给雄性和雌性分别只使用一个常用编码(比方雄性用 “male”,雌性用“female ),切忌有时用“M”表示雄性,有 时用“male”,甚至还穿插使用“Male”。假如选择了一种编码方 式,就在整份数据文件中使用同一种。使用固定的编码来表示缺失值。为了可以精确区分真正的缺失数据和不留神丧失的数据,最好将每一个单元格都进行编码。 R的
32、使用者一般用“NA”来表示真正的缺失值;当然,你也可以使 用连字符来表示,前提是整份数据文件使用同一种表示真正缺失值的 符号。尽量避开使用数值一一比方-999或999这样会给使用数据 的人造成误会,认为是人为的丧失数据。需要留意的是,不要在数据 之间插入额外信息来解释缺失值产生的缘由,最好单独开拓一栏来写 入诸如此类的备注。使用全都的变量名。假如在整个工程中的某份文件中,你使用了 “GlucoseOwk”作为变量名,那在这个工程其他的全部文件中都 不要转变这个变量名。假如这个变量既被叫做“GlucoseJOwk”,还会被叫做“gluc_10weeks或是“10 week glucose”,可以
33、想 象,这将会给接下来的数据分析工作者带来额外的工作,需要搞清晰 它们表示的是不是同一个变量。使府全都的赤诩先假如一条数据的标识符有时是“153”,有 时是 “mousel53,有时还消失 “mouseT53F” 或 “Mousel53”, 接下来将会有大量的时间被花在区分这些标识符上。在不同的文件中使用全都的数据布局。假如你的数据在多份文件 中使用了不同的布局格式,数据分析师就不得不花很长时间将这些数 据整合成完整的数据集进行分析。全都的数据格式布局可以让整合数 据这个过程特别简洁。使用全都的文件名。在给文件命名的时候尽量使用一套统一的方 法。不要将名为“Serum_batchl_2022-
34、01-30. csv”文件在其次次 处理后命名为 “batch2_serum_52915. csv”,而应命名为uSerum_batch2_2022-05-29. csvv o连贯的命名方式可以保证文件 是支配有序的,而且当你需要处理这些文件的时候,你会觉察系统化、 统一化的命名方式简直太机灵了。日期类型的数据使用全都的形式,并且最好使用标准化的格式 YYYY-MM-DD,比方2022-08-01。假如你会儿用8/1/2022来表示, 一会儿又用8-1-15,数据分析和数据可视化就会受到极大影响。在备注中使用全都比卷语。假如你的数据中有单独的一栏备注 (例如“dead”或者“lo off cu
35、rve ),肯定要用同一种表达 形式来纪录同一个短语。切忌“dead”和“Dead”混用,或“lo off curve” 和 “off curve lo” 混用。留意单元格中的空格。一个空的单元格和含有一个空格的单元格 是完全不同的,比方“male”和“ male ”是不一样的(没错, 后者在单词的前后各加了一个空格)。命名言简意赅挑一个好的名字是很重要的,但是通常来说都比拟难一一这正是 要在起名这个环节投入大量时间和精力的缘由。首要原那么,无论是数据变量名(数据的列名)还是文件名,都不 要使用空格。有空格的命名会使得写程序很麻烦一一全部的名称都要 放在双引号内,比方必需要写成“glucose
36、 6 weeks”而不是简洁的 glucose_6_weekso在需要空格的地方尽量选择下划线或连字符,而 且别忘了上面说的,保持前后全都。留神额外的空格(比方消失在变量名的前后)。举个熟识的例子, “glucose”和“glucose”是不同的,由于在其次个变量名后面 多了一个空格。尽量避开特别符号(当然,下划线和连字符除外)。其他很多符号(比方$, , %, #, &, *, (, ), !, /等等)都在编程语言中有特 别含义,假如还消失在名称中就会很麻烦。止匕外,打出这些符号也挺 麻烦的。文件和变量命名的核心原那么是言筮意嬷,但是也不能只追求过于 简短。Data Carpentry上的
37、关于如何使用电子表格的课程(点击查看:) 把好的和不好的变量名整理成了一张表格。备选名称不好的名称Maximum TempMaxTemp($Xcirc$C)PrecipitationMeanYearGrowtsexweightCellTypefirst_observa好的名称Max_temp_CPrecipitatio n_mmMean_year_gr owthhsexweight cell_typeObservation_precmmMean growth/yearM/Fw.Cell type1st Obs.01tion我们认为这个表格列举的都很具有代表性,当然,有时候也可以 换掉一些大写字
38、母。也就是说,使用max_tenip, precipitation和 mean_year_growth 等。不要在文件名中使用“final”,不要在文件名中使用 “final”,不要在文件名中使用“final。假如肯定要用的话, 你确定会有“final_ver2”。(这个观点来自于一个被广泛引用的 PhD漫画: :phdcomics. com/comics/archive. php?comicid= 1531)将日期写成YYYY-MM-DD的形式在输入日期数据时,我们剧烈建议使用ISO 8601标准,即 将日期写成YYYY-MM-DD的形式,例如2022-02-27 (点击查看和这个 相关的
39、xkcd 漫画: s:xkcd. com/1179)留意,Microsoft Excel处理日期数据的时候特别惊奇,它会把 日期储存为数值型一一在Windows系统上是从1900年1月1日 起算的天数,而Mac上是从1904年1月1日起算的天数。因此, 当数据是从Excel导出的时候,肯定要亲自检查一下日期数据,确 保其没有被损坏。除此之外,Excel还会把其他类型的数据转换为日期。例如 Roger Peng报道的一段来自于Kasper Hansen和Jeff Leek的对 话(这里和那里):Kasper: “你有没有最喜爱的转录因子? ”Jeff: “有,是 Oct-4o ,Kasper:为
40、什么?”Jeff: “由于Excel会把它转换成日期数据,但实际上这个转 录因子有特别厉害的作用。”关于这个问题,Ziemann等(ziemann2022)争论了来自 2005-2022年的18个期刊中补充文件的基因列表,觉察大约20% 的基因列表在基因名称上消失了错误,这些错误基本上都是刚才提到 的被误转换成日期数据或者转换成浮点型数字的状况。最好把要输入日期的那一列表格设置成文本格式,这样就不会出 错了:.选中目标列单击右键- ”设置单元格格式”在左边选中“文本”但是,假如你已经将日期输入进去,再设置单元格格式的话, Excel会依据它们表示的数值型数据来转换成文本型数据(从1900 年1
41、月1日或1904年1月1日开头算的天数)。还有一种方法可以让Excel在处理日期数据时直接将其识别成 文本型数据,就是给日期前面加一个撇号,比方2022-0674 (点击 查看: s :twit ter, com/1 jmahr/status/825047581113905153)。 Excel会将这种输入识别为文本型数据,并且你在看整张表的时候撇 号是不会消失的。虽然这是一个便利的小技巧,但是这样处理数据必 需得极为勤奋,确保前后保持全都。止匕外,你还可以把日期数据放在 三列中,分别表示年、月、日,每一列数据只是一般的数字,Excel就 不会消失混淆数据类型了。还有一种方法,可以把日期表示成8位 数,比方用 20220614 表示 2022-06T4 (briney2022)。要强调的是,在写日期的时候肯定要保持前后全都,最好能始终 以YYYY-MM-DD的格式写(或者把年、月、日分别写在三列也可以)。图1是我们同事供应的局部电子表格,尽管这些数据是用来干 什么的已经记不太清了,但很明显的是在一列中用不同的日期格式使 得后续的分析和可视化工作变得更加困难。对于日期的处理肯定要留神,并且确保前后全都。
限制150内